自巡洋舰去年8月机器学习vs复杂系统开特训班已经不知不觉快一年了,人工智能正成为街头巷尾人人都想掺和一句的hottopic,其实人工智能是一连串话题的总和,而你要真正理解它,就不能不去读懂可能更oldfasion的大数据,阐述数据起源的复杂系统,还有温习你的数学和编程基础。这一个8月,就和铁哥领衔的一批圈子里的弄潮儿来一场巅峰之旅吧。本课程将在万门大学直播平台8月1日与你不见不散。
本课程分五个部分:人工智能数学基础充电,Ipythonnotebook数据挖掘实战,机器学习vs复杂系统理论之旅,深度学习编程实战,人工智能产业实战几大板块。导师由来自世界顶级名校的大拿和知名AI创业公司的CTO等组成:
巡洋舰导师及顾问团(部分):
许铁:以色列理工大学机器学习博士巴黎高世理论物理与复杂系统硕士,cruiser创始人,在知名神经科学期刊著有论文
龚鹤阳:中国科学院机器学习与统计科学博士
吴勇:香港大学机器学习硕士,微软研究院研究员
于海悦:牛津大学机器学习博士,机器视觉和医学专家
卢树强:人工智能公司青椒科技创始人清华大学金融与人工智能博士
李泽荃:中国矿业大学澳大利亚阿德莱德大学岩土力学与复杂系统博士
王玉杰:巡洋舰联合创始人,知名互联网金融企业大数据工程师
张江:北师大系统科学院副教授,机器学习专家
任逸:以色列理工机器学习与视觉硕士巴黎高工计算机系,在法国著名人工智能公司工作,现cruiserCTO
......
以下是铁哥列出的课程大纲
I人工智能简史:
(1)智能的定义:智能即一个能够从外界环境中吸入能量维持其自身结构并自我复制的程序,生命越来越复杂智能程度越高,能够适应和改造环境,使得自己的复制机会最大。
(2)递归与自指:生命的最大特点在于递归性,数学表示为x=f(x),把输出作为输入返回给系统,递归和自指可以产生相当复杂的结构,在音乐,绘画,自然中无处不在,最典型的例子即分型结构的产生。
(3)自我意识:基础是智能,而又与自指有着千丝万缕的联系。
(4)图灵测试:阿兰图灵认为,一个计算机程序,其行为与人无异,即通过图灵测试。
(5)图灵机:一个具有基本的输入,输出并根据此连续运转的机器,根据当前状态和历史查询规则表得到输出,规则表即程序。
(6)人工智能符号学派:从图灵机演化而来,将物理过程抽象为符号后得到一个图灵机,认为如果人能够模拟这个机器的运转即可以得到自然过程直到智能
(7)人工智能统计学派:从数据反推得到智能,认为无需考虑智能得来的具体过程,只需要具备和智能系统类似的把一定量的输入转化为输出的能力即可,这个黑箱系统是根据外界输入输出调整直到匹配的
(8)人工智能连接学派:模拟大脑的结构,认为网络是智能的载体,由数据修改网络权重得到智能。
贝叶斯与随机过程:
1.概率:贝叶斯框架下的概率表达人对一个事物发生可能的信念大小。经典频率主义的概率指特定事物发生的频率,暗含了对客观规律可重复性的假设。
2.参数估计与假设检验:参数拟合,用p_value衡量参数的置信性,模型本身的置信度分析
3.条件概率:在条件A下,B发生的可能性。
4.贝叶斯公式:根据证据调整概率的数学方法,考虑结果到证据的可能性,结果本身出现的可能性(先验),和证据出现的可能性。
5.幸存者偏差:忽略先验概率只看证据导致的偏差。
5.贝叶斯统计:根据贝叶斯公式的概念,可以构建整个统计学框架,以及人思考世界的方法。
7.朴素贝叶斯:证据大于一且互相独立,得到结果成立的概率
8.贝叶斯决策:贝叶斯公式基础上的决策方法,根据证据调整假设空间的概率分布及最终的收益期望,然后求期望最大化问题。
9.随机过程:确定性过程研究一个量随时间确定的变化,而随机过程描述的是一个量随时间可能的变化,在这个过程里,每一个时刻变化的方向都是不确定的。
10.wienerprocess:当随机过程单位时间的增量符合期望为0的高斯分布且随时间独立,即wienerprocess,是构成各种随机过程的基础
11.poissonprocess:单位时间内的增量离散且符合poisson分布,不同时间段内增量相互独立的随机过程。
12.levyprocess:wiener的推广,不受高斯限制。
13.montecarlossimulation:用微观随机过程模拟从而求解宏观确定性问题的方法
14.马尔科夫过程:时间离散随机过程,每步增量最多只与上一步相关,即马尔科夫过程
机器学习:
监督学习算法:
监督学习即根据标注数据学习的方法,逼近x到y的真实过程(拟合)。
0,分类与回归:分类是最重要的机器学习问题,实现“模式识别”,从物理信号到概念(自然语言)的过程。回归即连续函数逼近器。
1,KNN家族:KNN一种通过与最相似案例中的结果比较而得到预测结果的方法。
2,线性回归:特征互相独立,特征与预测目标之间存在线性相关性下对目标的预测方法。而事实上,通过设立惩罚项线性回归可以扩展应用范围巨大。
(1)经典回归分析:包括AIC,BIC,用R2(residualerror)衡量模型的可解释性。
(2)高维回归分析:Lassoregression,ridgeregression进行高维回归分析
3,线性分类:特征相互独立时的简单分类问题,在特征空间求超平面。Na?veBayes,LDA,逻辑斯蒂回归,和SVM是处理这个问题的三种不同思路。
(1)LDA:假设特征分布函数为高斯,预测分类(discriminentfunction)的贝叶斯方法,基础类型为线性,扩展类型可包含各类曲面
(2)Na?veBayes:特征大于一且独立,综合每个特征的概率函数得到分类的后验概率的方法
(3)Logistic:无需假设特征分布,仅假设类分界面的边界分布(marginaldistribution)求类分布最大似然概率-解决多因子分类预测问题的基准方法
(4)Perceptron:在NaiveBayes,Logistic基础上进一步抽象,用连接权重衡量特征敏感性,即一层神经网络,本质依然是线性分类。
(4)SVM:特殊的一层神经网络,用阶梯函数取代sigmoid,并用几何方法求其交界面。
3,非线性分类:如果特征之间不独立,即非线性分类问题,以各种方法切割特征空间。
(1)决策树:根据信息增益按顺序切割特征空间,解决特征优先次序问题。
I随机森林:决策树并行减少统计偏差
IIgradientboosting:决策树串行加大对出错样本训练
(2)SVM:拉氏最优求解交界面上引入内积空间和非线性变换,将特征空间映射到高维解决非线性问题。
(3)大于一层神经网络:对特征空间上的每个局域进行不同系数的线性组合,用复杂曲面模拟特征之间的相关性。大于等于两个隐层的神经网络即万能函数逼近器
(4)贝叶斯网络:用节点网络直接计算特征之间的相关性对分类概率的影响
4,时间序列预测
(1)ARIMA:假设时间序列或其差分符合稳定特性,通过线性回归求解当下状态和历史的自相关系数来预测时间序列的方法
(2)HiddenMarkovProcess:假设可观测的时间序列受一个隐变量控制且符合马氏性,通过EM方法预测时间序列
(3)n-gramlanguagemodel:假设此刻的状态受之前n-1个时刻的状态所控,用graphicmodel预测时间序列
(4)Kalman滤波:一种将动力学模型和统计检验相结合过滤时间序列信号噪声的方法。
5.特征工程
(1)归一化
(2)特征变形:log,指数,限定范围,哑变量化
(3)特征组合,如交叉特征
(4)特征筛选:用统计方法(相关性,互信息)或机器学习模型,如PCA,lasso回归,随机森林选择特征
(5)缺失处理:合理假设预测
6,模型选择
(1)方差-偏差矛盾
(2)维数灾难:模型复杂度,数据复杂度,数据量,VCVC维
(3)交叉验证
深度学习:
1.深度判别模型:
(1)多层感知机:多层感知机有高得多的变达效率,可以自动完成特征工程步骤,此为深度学习基础。
(2)卷积网络:层与层关系采用通用卷积结构,视觉处理的元件
(3)BP算法:将错误回传到各层网络改变权重的方法
(4)预训练
2,深度生成模型:
具有动力学特性的网络模型,具有生成功能
(1)玻尔兹曼机:具有记忆功能的网络,可以被训练用来恢复破坏的图像
(2)受限玻尔兹曼机:去掉显层和隐层内部结构的玻尔兹曼机,更容易训练
(3)deepbeliefnetwork:图模型,回到贝叶斯网络
(4)RNN:动力学网络,具有记忆,万能动力系统逼近器
(5)ESN:只需要训练输出层的RNN,与生物网络非常相近
(6)neuralturingmachine:能够自动学习编程的机器,学习语言能力强
3,深度学习应用:核心是“识别”问题,从模拟信号中得到“字符”。
(1)图像识别:classicCNNexample,识别或图像
(2)图像生成:GAN及对抗学习
(3)复杂图像应用:segmentation,看图说话等
(4)语音识别:从振动的声音信号中得到表达文字的方法
(5)深度NLP:LSTM语言应用实战,深度编码器,词向量嵌入等
无监督学习:
用于对数据进行预处理,求得其最大似然分布函数,用于发现可能存在的新类(新概念-聚类)或新特征(PCA),或对数据进行降维.无监督学习可以被总结为根据某种规则得到某个内在的自洽性,由迭代法则决定。
I降维方法:
(1)PCA:通过线性坐标变换得到特征空间里涵盖最大方差的方向
(2)Embedding:将高维数据嵌入到某个(更低纬度)空间结构的方法
(3)ICA:抽取数据中独立变化成分的方法
II聚类方法:用于发现新概念
(1)K-means:根据距离划分类属的迭代方法
(2)Gaussianmixtures:用贝叶斯语言描述的k-means问题,假设分布为高斯,用EM迭代(概率语言的机器学习和直接界面分类法贯穿始终的两条主线)
(3)LDA主题聚类:假定词语的分布是无序的,从文本-》主题-词包的逻辑进行文本生成,通过EM进行训练。
III协同过滤:不考虑具体item的特性,利用群体匹配相似度最高的用户来确定用户喜好的方法
(1)SVD:矩阵对角化的推广方法,适用于非对称矩阵
强化学习:
强化学习与之前的随机过程有着深刻的联系,可以看做某种优化某个rewardfunction的随机过程
1,BellemanEquation:局部最优之和等于全局最优的强假设下的条件期望优化方法
2.MarkovDecisionTree:策略选择只与上一步相关的决策过程
3,Q-learning:优化马尔科夫决策树的学习方法
4,Temporal-dffierencelearning:根据想象与现实的落差调整策略的学习方法
5,多臂老虎机:一种需要在探索与开发之间寻找平衡的马氏优化过程
6.深度强化学习:机器学习未来之路
复杂系统:
研究相互作用与模式涌现的学科,从上帝视角看组织的形成,涵盖生命到社会。
I统计力学:
(1)热力学平衡:忽略相互作用在与外界能量交换的封闭系统里系统自由能最大达到热力平衡,高斯分布即可描述大部分统计特性,在系统内单元数量足够大的情况下,我们可以用一个稳定定点描述整个系统。
(2)相互作用:单元间的相互作用产生不一样的特性,通常导致一定偏离高斯的统计分布,定点不能完全描述,典型例子为市场。
(3)pattern:简单相互作用在宏观尺度形成一定模式:percolationmodel即可表现
(4)涌现:pattern从无到有的过程,如市场价格形成,组织的诞生
(5)集群智慧:蜂群,蚁群在无数简单作用下构成处理宏观信息的有效群体,呈现某种“智能”
(6)相变:系统在特定条件下模式发生变化的过程
(6)SOC:自组织临界,sandpilemodel为原型,系统无需特殊条件维持在相变点附近。
(7)非平衡动力学:系统在偏离平衡状态下的演化方程-最典型的方程即Masterequation。
(8)拉格朗日方程:wienerprocess之上叠加漂移项,扩散方程推广到Ornstein-Uhlenbeckprocess。
(9)Fractual:跨尺度的相似性,由动力学方法可以推演出的尺度效应。
(10)幂函数:自组织临界标志性的分布函数,长尾效应。
II非线性动力学:
(1)反馈:动力学过程的基本元素,反馈使得系统得以稳定在某个位置。
(2)定点:系统维系在某个稳定位置
(3)稳定性:稳定性是复杂系统讨论的根本属性,从某种角度,存在非合理,而是稳定。
(4)相变bifurcation:动力系统特性的根本改变,如从一个定点跳跃到另一个定点
(5)环:循环的动力学模型,围绕一定定点做的周期运动
(6)混沌:高维混沌系统不可预测
(7)噪声:不同种类的噪声对动力学系统特性产生不同影响,白噪声可以增加系统搜索相空间的广度,粉色噪声通常是重要的风险来源。
III复杂网络应用
(1)小世界网络:社会,因特网,众多生物系统所具有的共同网络特性,兼具效率和稳定性。
(2)复杂网络跃迁
(3)复杂网络与反脆弱:复杂网络的特定结构决定其对外界扰动的抗击能力。
(4)分布式系统与去中心化:blockchain
IVAgentbasemodel
IIV计算神经科学
(1)神经元动力学模型:从Hodykin-Huxley方程的角度看动力学系统
(2)贝叶斯框架:贝叶斯框架可以用于理解很多脑科学现象,如学习的本质。