从零开始,认识大数据定义,分析工具
日期:2020-12-18在资讯发达的现代化社会中,数据愈来愈受到人们的重视。各个企业、机构,甚至政府部门都积极运用各种仪器设备去收集所需要的数据。数据早已充斥我们的日常生活,包括平日消费、上网等,都是数据之一。
然而数据为甚麽会愈来愈得到人们的重视?「大数据」这个词相信连行外人士都耳熟能详。对企业而言,他们最重视的不外乎是成本及收益,数据正可以协助他们分析市场,了解客户的需求、口味、习惯,以制定合适的商业策划,有效地利用资源以避免不必要的开支。
不同分析层面,发展出不同数据分析工具
全球多个科技企业都推出多款数据分析工具以满足市场需要,而当中这些工具又能分划出几个功能类别,当中常见的包括有资料库系统工具,即用於存取、查询、及管理资料,例如有SQL server, MySQL 等;其次有资料视觉化工具,即涉及图形、统计、报表等,常见的软件有Tableau、PowerBI等;而资料分析工具则用於整理数据,再将它转化成资料模型,从而帮助人们了解资料间的关系和结构,继而作出各种决策。以下会简单介绍及比较三种常用的资料分析工具,分别为R, Python及SAS。
三大常用数据分析工具优缺点大比较
首先从价钱方面,R和Python都是开放源码,费用全免。相反SAS是由软体公司专门开发的商业分析软件,价钱比较昂贵。因此不少初学者都会选择以R或Python入门。
学习难度方面,Python的语言法较为简单易明,学习难度不高,适合对数据分析有兴趣的初学者作入门语言去学习。而R对缺乏Programming 经验的人会较难上手,因为它的语法较Python长及复杂。最后SAS语言易於学习,加上SAS提供图形用户界面(GUI),用户只需剔选界面中的按钮,配合简单的Code便能使用各种分析工具,因此亦适合缺乏Programming 经验的人使用。
功能方面,现今的数据量愈来愈庞大,因此各分析工具的运算速度就十分重要。Python和SAS都能够处理大量的数据;R因为只在RAM运行,因此在处理大量数据时会相对慢,不过在有了plyr和Dplyr等packages后,数据处理亦变得更为容易。而在数据图像化方面,R由於设有Lattice, ggplot, RGIS等packages,可以轻易地将数据图像化。这些packages甚至可以用动画制作包将数据转化为动态图表。与R相比,Python的绘图则略为逊色,但自从引用Seaborn后,Python的绘图功能亦得以提升。而SAS与Python及R相比之下的制图功能弹性较低,难用以制作出互动式及自定义的绘图。
最后在客户服务及网上资源方面,由於Python和R是免费,用户众多,因此网上有大量应用例子供参考及技术交流。加上有如Kaggle等网页,R及Python用户可以就不同的题目去分析数据并分享成果,令初学者更容易学习和上手。而SAS是一个商业软件,官方会提供专门的客户服务,以协助用家解决疑难。
除了强大的数据分析软件外,当然数据才是最不可或缺的核心部分,而当中的人口数据能够反映出人口的特徵、现象等,帮助人们将研究对象分类,更深入地了解不同组别人士的特徵。总括而言,人口数据协助人们更深入了解、预测社会市场,因此它与数据分析及研究有着密不可分的关系。
中原楼市大数据提供人口及楼市资料,帮助观察楼市趋势
中原地图自2003年起一直致力与政府统计处合作,於网站提供人口普查资料,去年更推出中原楼市大数据 (http://hk.centanet.com/opendata2019/
)向大众提供楼市片区的人口普查数据,包括人口数量、年龄结构、性别、收入等资讯外,更有房屋、住宅库存、登记成交等数据,只要选择所需要资料的参数,网站便会以表格的形式列出你需要的资料,方便你下载使用。
除了表格,网站亦提供有关楼市资料的走势图,包括私人住宅的存库量、成交量及住宅面积等,以便用家观察楼市趋势。