發表文章

目前顯示的是 2月, 2018的文章

成為數據界的偵探--「小數據獵人」讀書心得 (Small Data)

圖片
'You see, but you do not observe. The distincion is clear' Sherlock Holmes Quote -A Scandal in Bohemia 在這個充滿資訊與數據的時代,統計學的各種方法與原理,普遍的被使用在各種科學領域中 ,甚至我們說 "這整個世界" 是由統計學所建構出來的也不為過。(之前提到過一本 「統計,改變了世界」 也有提到類似的觀念) 像是我們常常看到網路上有大學/碩士生找網友幫忙填問卷 ,或者是餐廳用餐完後填寫的滿意度調查表,都是統計分析的一部分。(這裡暫時不討論那些隨便做的、無用的、錯誤的分析) 如果你是社會科學相關學系畢業的(像是心理學、社會學、或者像我是公共衛生學系),或者是曾經接觸過統計學,又或者你曾經使用過spss、SAS或是R統計軟體,那你肯定更能理解我所說的。 不過以上所提到的所有方法,其實都只是研究方法中的一部份,我們稱之為量性研究(大部分的數據分析都屬於這部分)。那有量就有質, 然而質性研究則是許多人都忽略的一個重要項目,而這本書在我看來就是在跟讀者強調質性研究的重要性。 我還記得在讀碩士班的時候,我的老師曾經告訴我, 所有的量性研究都必須由質性研究開始 。這個觀念顛覆了當時我認為數據就是一切、就是證據、就是王道的想法。 質性與量性研究,像是天平的兩邊,應該是互補的 其實質性研究跟量性研究應該是相輔相成的。質性研究用來尋找問題,量性研究用來尋找答案,這兩者缺一不可。 然而現在我們常常還沒有尋找問題,就開始想要找答案。這樣的邏輯雖然看起來很荒謬,但我認為這正反映了一個狀況: "數據的取得過於容易,但人的思考並沒有更加進步"。 我想這也是作者在這個Big data的潮流在世界上盛行時,特地丟出小數據(small data)這個概念的用意。 不論是大數據或小數據,資訊背後的解讀永遠是通往真理的關鍵 開頭的引言,是福爾摩斯對華生說的話,我覺得很適合放在這篇心得文的開頭。這段文字出自"波希米亞醜聞"中,當時福爾摩斯面對久久未見面的華生,一瞬間就推測出了華生最近的生活狀況。華生在驚訝之餘,也詢問福爾摩斯是如何

Power Pivot & Power Query 在不同介面上的 異與同

圖片
之前解釋過 Power BI desktop 與 Excel Power BI 增益集工具的差異及發展 ,本來打算接下來的介紹都以 Power BI Desktop 為主。但後來想了一想,很多人 / 企業應該還是比較習慣使用 Excel ,而且我從 Excel Power Pivot 改成用 Power BI Desktop 之後,確實覺得有些小地方還是在 Power Pivot 中比較習慣,因此這邊在介紹 Power Pivot & Power Query 的差別的同時,也會介紹這兩個功能在 Power BI Desktop 與 Excel Power BI 增益集工具裡的差異。 Q uery & Pivot 的共同處 : 都是將外部資料 ( 檔案 / 資料庫 ) 用連結的方式讀入 Excel 後再做處理,不論如何修改不會影響到原本的資料 (Raw data) 。同時因為是用連結的方式取得資料,未來若資料庫有新增資料筆數,只要在 Excel 上按下 " 重新整理 " ,資料就會直接進來。兩者的差別只在於 Query 會把整理好的資料放在一個新的 sheet 中;而 Pivot 則會把資料 " 隱藏 " 在檔案裡 ( 不會在 sheet 裡出現,需要在檔案中打開 Pivot 才能看到 ) ,只有在插入 " 樞紐分析表 / 圖 " 的時候才會看到插入的圖表。 Query: 讓資料清理這個動作規則化,讓未來新增的資料能夠快速與舊資料有一致的規則。大部份功能都可以用過去的 Excel 做到 ( 利用公式、取代、篩選後手動修正等 …) ,說實話都不是什麼全新的功能。但差別就在於過去用 Excel ,每次新資料匯入都要重新做一次,花費大量時間在處理繁瑣的工作。新的 Query 則可以將所有的清理步驟記錄下來且標明每個動作的目的,未來不管是新增或管理規則都會相當容易。 P ivot: 第一個重點在於更大更快速的資料處理量。 E xcel 從 2007 開始, Row 上限筆數為 1,048,576 ,而 Power Pivot 的上限則為1,999,999,997。 ( 不過對我目前的中小型公司來說比較感覺不出差異,我想對一些線上流量大的公司