所在的位置：数据结构 >> 讨论范畴 >> 大数据分析与机器学习领域Python兵器

大数据分析与机器学习领域Python兵器

曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使用了很多Python工具包，特别是在文本处理，科学计算，机器学习和数据挖掘领域，有很多很多优秀的Python工具包可供使用，所以作为Pythonr，也是相当幸福的。其实如果仔细留意微博，你会发现很多这方面的分享，自己也Googl了一下，发现也有同学总结了“Python机器学习库”，不过总感觉缺少点什么。最近流行一个词，全栈工程师（fullstacknginr），作为一个苦逼的创业者，天然的要把自己打造成一个fullstacknginr，而这个过程中，这些Python工具包给自己提供了足够的火力，所以想起了这个系列。当然，这也仅仅是抛砖引玉，希望大家能提供更多的线索，来汇总整理一套Python网页爬虫，文本处理，科学计算，机器学习和数据挖掘的兵器谱。

一、Python网页爬虫工具集

一个真实的项目，一定是从获取数据开始的。无论文本处理，机器学习和数据挖掘，都需要数据，除了通过一些渠道购买或者下载的专业数据外，常常需要大家自己动手爬数据，这个时候，爬虫就显得格外重要了，幸好，Python提供了一批很不错的网页爬虫工具框架，既能爬取数据，也能获取和清洗数据，我们也就从这里开始了：

1.Scrapy

Scrapy,afasthigh-lvlscrnscrapingandwbcrawlingframworkforPython.

鼎鼎大名的Scrapy，相信不少同学都有耳闻，课程图谱中的很多课程都是依靠Scrapy抓去的，这方面的介绍文章有很多，推荐大牛pluskid早年的一篇文章：《Scrapy轻松定制网络爬虫》，历久弥新。

官方主页：

白癜风可以治愈吗
 北京治疗白癜风最好的医院在哪里

转载请注明：http://www.92nongye.com/tlfc/204620345.html

上一篇文章： 2017全球大数据产业八领域典型公司盘点

下一篇文章：学术讲座高维数据可视分析