從零開始,認識大數據定義,分析工具
日期:2020-12-18在資訊發達的現代化社會中,數據愈來愈受到人們的重視。各個企業、機構,甚至政府部門都積極運用各種儀器設備去收集所需要的數據。數據早已充斥我們的日常生活,包括平日消費、上網等,都是數據之一。
然而數據為甚麼會愈來愈得到人們的重視?「大數據」這個詞相信連行外人士都耳熟能詳。對企業而言,他們最重視的不外乎是成本及收益,數據正可以協助他們分析市場,了解客戶的需求、口味、習慣,以制定合適的商業策劃,有效地利用資源以避免不必要的開支。
不同分析層面,發展出不同數據分析工具
全球多個科技企業都推出多款數據分析工具以滿足市場需要,而當中這些工具又能分劃出幾個功能類別,當中常見的包括有資料庫系統工具,即用於存取、查詢、及管理資料,例如有SQL server, MySQL 等;其次有資料視覺化工具,即涉及圖形、統計、報表等,常見的軟件有Tableau、PowerBI等;而資料分析工具則用於整理數據,再將它轉化成資料模型,從而幫助人們了解資料間的關係和結構,繼而作出各種決策。以下會簡單介紹及比較三種常用的資料分析工具,分別為R, Python及SAS。
三大常用數據分析工具優缺點大比較
首先從價錢方面,R和Python都是開放源碼,費用全免。相反SAS是由軟體公司專門開發的商業分析軟件,價錢比較昂貴。因此不少初學者都會選擇以R或Python入門。
學習難度方面,Python的語言法較為簡單易明,學習難度不高,適合對數據分析有興趣的初學者作入門語言去學習。而R對缺乏Programming 經驗的人會較難上手,因為它的語法較Python長及複雜。最後SAS語言易於學習,加上SAS提供圖形用戶界面(GUI),用戶只需剔選界面中的按鈕,配合簡單的Code便能使用各種分析工具,因此亦適合缺乏Programming 經驗的人使用。
功能方面,現今的數據量愈來愈龐大,因此各分析工具的運算速度就十分重要。Python和SAS都能夠處理大量的數據;R因為只在RAM運行,因此在處理大量數據時會相對慢,不過在有了plyr和Dplyr等packages後,數據處理亦變得更為容易。而在數據圖像化方面,R由於設有Lattice, ggplot, RGIS等packages,可以輕易地將數據圖像化。這些packages甚至可以用動畫製作包將數據轉化為動態圖表。與R相比,Python的繪圖則略為遜色,但自從引用Seaborn後,Python的繪圖功能亦得以提升。而SAS與Python及R相比之下的製圖功能彈性較低,難用以製作出互動式及自定義的繪圖。
最後在客戶服務及網上資源方面,由於Python和R是免費,用戶眾多,因此網上有大量應用例子供參考及技術交流。加上有如Kaggle等網頁,R及Python用戶可以就不同的題目去分析數據並分享成果,令初學者更容易學習和上手。而SAS是一個商業軟件,官方會提供專門的客戶服務,以協助用家解決疑難。
除了強大的數據分析軟件外,當然數據才是最不可或缺的核心部分,而當中的人口數據能夠反映出人口的特徵、現象等,幫助人們將研究對象分類,更深入地了解不同組別人士的特徵。總括而言,人口數據協助人們更深入了解、預測社會市場,因此它與數據分析及研究有着密不可分的關係。
中原樓市大數據提供人口及樓市資料,幫助觀察樓市趨勢
中原地圖自2003年起一直致力與政府統計處合作,於網站提供人口普查資料,去年更推出中原樓市大數據 (http://hk.centanet.com/opendata2019/
)向大眾提供樓市片區的人口普查數據,包括人口數量、年齡結構、性別、收入等資訊外,更有房屋、住宅庫存、登記成交等數據,只要選擇所需要資料的參數,網站便會以表格的形式列出你需要的資料,方便你下載使用。
除了表格,網站亦提供有關樓市資料的走勢圖,包括私人住宅的存庫量、成交量及住宅面積等,以便用家觀察樓市趨勢。