pandas即Python Data Analysis Library,是为了解决数据分析任务而创建的Python包。其开发者是Wes McKinney,一名数据分析的大咖,他曾经是AQR Capital Management的Python定量分析师,AQR是全球非常著名的对冲基金公司。在量化分析领域做研究的人,应该都有所耳闻,因为他们公司的官网有一大堆质量很好的原创研究论文提供给大家下载学习。所以Wes McKinney起初开发pandas的目的就是帮助AQR分析金融数据,对时间序列、数据对齐、以及数据缺失等问题有很方便的解决方式。随着pandas不断地发展,现在不仅仅是金融数据,对其他数据pandas也提供了很好的支持。
pandas内部定义了两个非常有用的数据结构Series与Dataframe。
1)数据结构Series
Series是一种类似数组的数据结构,它由一组数据(value)以及一组与之相关的数据索引 (index)组成。那为什么有了python的list和numpy的array,还需要pandas的Series。因为list和array都是默认索引的。如果想要对数据进行一个索引命名的话,需要python里的map,而map不能对数组进行排序等处理了。
因此引入了Series这个数据结构。
2)数据结构Dataframe
Dataframe是一个二维数组的结构,它类似于我们的excel表格,既有行索引,又有列索引,元素的value可以数值、字符串、布尔类型。
pandas内部对Series或DataFrame数据类型提供了强大的索引功能,可以方便地对数据进行增删改查,这里列举几个常用的基础方法:
pandas还提供了大量的数据算术运算、数据对齐、排序、统计量的计算等等。具体开发的时候需要什么方法可以查询API,下附官方网站。
官方网站:http://pandas.pydata.org/
再推荐大家一个很好用的app——Dash,其是Mac OS平台的软件编程文档管理工具,可以很方便的查阅API文档,包含了各种主流的编程语言和框架。