Pandas最常用的金融数据分析工具包

[本文是入门级知识,适合非码农出身的金融从业人员阅读]

金融交易中产生的数据往往是“时间序列”,就像一张列column信息固定、行row随时间增加的表格。特点是数据量大,单次运算往往要处理GB级。

常见的表格处理工具比如excel、sql数据库等,并非专门为处理这类数据而设计,性能力不从心,对科学计算支持也不足。

最常用的金融数据分析工具包之一:Pandas

Pandas作为专门用于金融数据分析的Python库,为时间序列分析提供了极好的支持。Pandas是AQRCapitalManagement于年发布,并于年底开源。

Pandas的名称来自于面板数据(paneldata)和python数据分析(dataanalysis),主要作者是WesMcKinney。

Wes目前是LambdaFoundry,Inc.的CTO和联合创始人。他毕业于麻省理工数学系,杜克大学统计学博士在读。Wes从年开始在AQR做宏观研究。在-年期间,他是一些对冲基金和银行(交易部门)的Python顾问,同时做Pandas的开发。

在量化时代,初学者选择一套合适的工具框架很重要。Pandas有多流行?国内外几乎所有的交易数据接口都支持Pandas。交易员可以以最短的时间、最低的学习成本进行实际的数据分析、得到结果。而且用的人越多,案例和交流就越多,遇到问题就能更快的解决。

Pandas的数据结构简介

首先,整个Pandas是基于Numpy的

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。

DataFrame:二维的表格型数据结构,可以理解成Series的容器。。

Panel:三维数组,可以理解成DataFrame的容器。

Python框架性能如何

这个话题展开了可以说很多。咱们不必抠技术细节,有个整体的认知即可,结论是完全够用。当然,如果追求极致速度的实时分析、实时交易,那也远远不仅仅是软件层面的事情,甚至不完全是量化数据处理的范畴。

A股市场每天大概产生1-10GB的数据(视成交量大小浮动)。其中3秒快照大概是万行,逐笔数据大概也差不多规模。如果盘后用python框架做逐条回放,只需几分钟就能跑完。

在后面的文章中,我们会分享很多股票交易数据分析和量化选股的案例,包括实时分析和历史数据分析,都是使用pandas工具库,因为它实在是太好用啦。

赞赏

长按







































石家庄最好的白癜风医院
石家庄最好的白癜风医院



转载请注明:http://www.92nongye.com/xxmb/204619481.html