数据分析离不开专业的软件工具,例如常用的excel、power bi、基于GIS的空间位置信息可视化分析、flourish等。本文以实际数据为例,介绍如何一步步进行数据分析,通过数据可视化分析出数据背后的秘密。
不想看文字的,也可以看看我的视频教程,相信初学者也可以一步步学会数据分析,做出漂亮的数据分析可视化图和动画。
获取数据
获取有效的数据始终是数据分析的首先需要找到合适的数据源。本文以广东省统计局公布的1999年到2020年教育数据为例,用不同的数据分析软件和工具对该数据进行分析。
本文的数据全部来自政府公开的统计数据,可以在广东省统计局的网站中进行检索获取,如图所示。
广东省统计局网站:广东省统计局-广东统计年鉴
对每年的数据都可以通过以上的网站进行下载,然后整理成可以进行分析的有效数据。本文将1999年到2020年的教育数据进行整理。教育数据在每年的统计年鉴中是必不可少的内容之一。教育专篇主要反映各地区教育事业发展基本情况。包括高等教育(研究生教育、普通高等教育和成人高等教育)、中等教育(高中阶段教育和初中阶段教育)、初等教育(小学)、学前教育、特殊教育等。
整理数据
通常网络爬取、问卷调查、线下收集等方式获取的数据都需进行整理才能进行分析,一般通过excel可以对数据进行整理。如果所分析的数据存储在某些特定的企业管理信息系统,就可以跳过整理数据直接进入数据分析。本文以上述案例为例,对数据进行整理。
- 每一年的数据一个表格,一个表格中可以整理多个类型的数据,如普通中学,职业中学,小学的都可以;一个表格中可以用每一行存储一个城市的数据,包含不同的列(属性),例如每个城市的学校数,毕业生数,教职工数等。不同类型的教育数据,每一行要对齐存储,便于后续进一步的整理。
由于前边已经将每一年的=数据存储在一个表格,因此在一个表格中可以将每一年的数据汇总整理为一行,采用excel中的VLOOKUP($A5,'2005'!$A$1:$AK$28,H$1,FALSE)公式。数据整理成标准的行列后才能为后续的数据分析奠定良好的基础。
通过基础数据,能够计算出其它的指标数据,例如本文中,用专职教师数量,与在校学生的数量计算出“生师比”这个教育行业常用的分析指标,即:
Excel分析数据与可视化
excel是最常用的数据分析工具。为了分析上面的数据,本文采用柱状图、折线图、以及两种图的组合图等常用的数据可视化方法,对本文案例中的数据进行可视化分析。
Power BI数据分析与可视化
power bi也是微软研发的数据分析的专业工具,可以对简单的数据集,大数据进行快速分析与可视化。本文将excel整理的数据通过power bi进行分析。不同于excel是基于单元格进行数据的存储与组织,power bi是类似数据库,采用列对不同的数据属性进行组织,很多运算也是针对列为处理的基本单元,即一个运算对一列中的所有行都适用,省去了excel中需要将公式进行拖拉,以应用到整列。
同时power bi还提供了强大的数据处理功能,例如本文使用的逆透视的功能,可以将我们常用的汇总统计的报表转变为数据分析常用的行+属性的表。
power bi将广州,深圳等列,用一个属性“城市”来定义,并将原先多个列的数据合并到同一列中。可视化分析方面,power bi提供了比excel非常丰富的可视化组件,便于分析出数据的不同特点,例如动态性、百分占比、重要程度等。
GIS空间位置数据可视化
对于本文这种具有空间位置属性的数据,可以用GIS工具进行更好的数据分析,更加直观得展示数据。例如本文中的广州,深圳,东莞等城市就是空间位置的数据,其它的属性值都可以跟这个空间位置数据建立联系。
对于更专业的如建筑规划平面图(本质也是带有空间位置的数据),也可以通过GIS进行展示,感兴趣的可以查看我的另一个视频教程。
例如本文将整理好的数据表格跟GIS建立关联,将每个城市的教育有关数据通过自定义标签显示到城市对应的地图中。通过不同的颜色显示不同的城市,便于区分不同城市之间的教育数据大小。利用GIS的通用格式GeoJson还可以在其它支持GIS分析的工具中进行数据的展示。例如power bi和flourish都支持GIS的形状地图数据填充。
动态的数据可视化
让数据动起来是近年来比较流行的数据分析与可视化的方式,主要用来呈现某个时间区间的数据。本文的1999年到2020年正好可以用类似的工具将数据动态的可视化。本文主要采用power bi和flourish。
power bi中对于动态数据的可视化使用的可视化组件是Animated Bar Chart Race,具体效果可以查看本文引用的视频教程。
flourish中采用的是Line chart race这个组件,对于折线图,可以进行动态的呈现。
以上就是一步步进行数据分析与可视化的步骤,本文的案例具有很强的代表性,能够体现不同难度,不同维度的数据分析特点。