所在的位置: 数据结构 >> 概述 >> 北大光华商业分析

北大光华商业分析

PKUGSMBUSINESSANALYTICS

《Python与爬虫基础》

课程解析

“Lifeisshort(YouneedPython)”--BruceEckelANSIC++Comiteemembe

商业数据分析离不开分析工具。常用的数据分析工具有Python,Matlab,R等等。你有一千种理由选择R,也有一千种理由选择Matlab,我也可以给你一千种理由选择Python。

BruceEckel(MindView公司的总裁,C++标准委员会拥有表决权的成员之一,拥有应用物理学学士和计算机工程硕士学位)曾说过“Lifeisshort,youneedPython!”

具体而言,本课程主要涉及三方面内容:

第一、Python语言介绍及基本编程规范;

第二、Python中与商业分析相关的模块使用;

第三、Python商务数据分析实战。

在讲述编程的过程中,会穿插有趣的商务数据分析案例,覆盖文本分析、社交网络分析、图像分析等多个领域。

培养目标

1.熟练运用Python的基本编程技巧;

2.熟练运用Python的几个与商业分析相关的模块,包括(科学计算模块,文本模块,统计模块等);

3.掌握Python整理、分析商业数据的技能。

内容提要

1.1Python介绍

1.2Python基础I

2.1Python基础II

2.2Python基础III

3.1Python的面向对象编程

3.2Python科学计算模块

4.1Python数据分析模块

4.2Python绘图模块

5.1Python文本处理模块

5.2Python爬虫模块

6.1Python统计与机器学习模块

6.2案例专题:文本数据

7.1案例专题:社交网络数据

7.2案例专题:图像数据

以下为各章节的详细解析:1.1Python简介

Python是一种计算机编程语言。

Python语言简洁、易读、可扩展。

Python语言及其众多的扩展库所构成的开发环境不仅十分适合工程技术、科研人员处理实验数据、制作图表,还特别适合商业分析。

本节主要介绍Python语言的安装与使用。重点的将会利用Python中的Anaconda数据科学套件来讲述JupyterNotebook,Markdown语法与Spyder等工具,并简介Python与数据科学的关联。通过上述的讲解构建一套完整的商业分析所需要的Python环境。

1.2-2.2Python基础

这部分将介绍Python编程基础知识。具体包括:

介绍Python的基本数据类型与数据结构;

Python的文件读写;

Python的函数与控制流;

Python的测试与调试等。

3.1Python的面向对象编程

Python是面向对象的编程语言。本节介绍对象的基本概念,包括类和实例、继承和多态等。通过实例介绍类的组成和使用。

3.2Python的科学计算模块

本部分主要介绍Python中的科学计算模块:Numpy与Scipy的使用。

现代科学都是建立在科学计算的发展基础之上。所以,存储数据,然后进行各种运算(例如:三角函数运算,指数运算,更高级别的代数运算等)也是数据科学与商业数据分析的基础。

4.1Python的数据分析模块

本部分主要介绍Python中的数据分析模块:Pandas的使用。

数据分析需要一个“容器”装载。而大部分的结构化数据都可以装载入一个类似于“表”的结构当中。而那些“非结构化”的数据也可以通过特征工程等装载入这个“容器”中。

Python中的Pandas模块就是为了构建这种通用数据分析“容器”并对于数据进行清洗,合并,整理等的一系列函数的组合。学习Pandas包打开了利用数据科学方法分析商业数据的大门。

4.2Python的绘图模块

本部分主要介绍Python中的绘图模块:Matplotlib的使用。

人类受限于思维能力,其理解数据的方法极其有限。一种方法是通过数字特征,而另一种方法是结合商业业务知识。把这两者完美的结合起来的方式就是探索性数据分析。这也是数据学科中针对商业数据分析最重要的一步。

探索性数据分析其实是试图通过数字特征与数据可视化的方法结合业务知识展示与解读商业数据。在Python中这个功能将会通过Matplotlib模块来实现。

5.1Python的文本处理模块

本部分主要介绍Python中的文本处理模块:NLTK和Gensim的使用,并介绍中文分词工具Jieba。

随着信息采集技术的进步,在现代商业环境中,文本数据的记录成为了一种新的可以被广泛获取的数据源。因此如何分析文本数据也是商业分析的一项基本技能。

NLTK的全称是naturallanguagetoolkit,是一套基于python的自然语言处理工具集,它提供了超过50多个素材库和词库资源的易用接口,其中有很多文本处理库,可以用来给文本分类,符号化,提取词根,贴标签,解析,语义推理,或者打包成工业级的自然语言处理库。

Gensim是另一个一个免费的文本处理库。它可以用来从文档中自动提取语义主题。以上两个工具包主要运行对象是英文的文本,中文文本和英文文本最大的不同是中文需要分词。

Jieba是一个功能很强大的分词工具包。

本讲将通过有趣的例子讲解如何使用这些工具模块。

5.2Python的爬虫模块

本部分主要介绍Python中的爬虫模块:Scrapy和BeautifulSoup的使用。

数据分析离不开数据,有许多数据是网上公开的数据,比如每日的天气数据、空气指数数据等,本讲将介绍如何利用Python程序有效地抓取自己需要的数据。

5.1Python的统计与机器学习模块

本部分主要介绍Python中的统计与机器学习模块:Statsmodels与Sklearn的使用。

数据科学应用于商业分析的最后一步是模型的建立与评估。Python提供了两个最重要的模块即Statmodels与Sklearn模块集成了几乎所有的统计与机器学习方法。

这里将会通过这两个模块去系统展示如何建立模型,模型选择与模型评估。试图为后续的数据产品化作铺垫。

6.2-7.2案例专题

通过实际案例,介绍Python的使用。将融会贯通前面所学所有知识点。这里主要选择非结构化的文本,社交网络与图像数据作为更加扩充的商业分析案例。

BA培养框架

↑点击查看大图↑

持续







































如何识别白癜风症状
北京哪里能治好白癜风



转载请注明:http://www.92nongye.com/gaishu/204620522.html

  • 上一篇文章:
  •   
  • 下一篇文章: