数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。
概念描述
算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:
说明数据集中的事例如何相关的一组分类。
预测结果并描述不同条件是如何影响该结果的决策树。
预测销量的数学模型。
说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。
算法分类
1:C4.5C4.5就是一个决策树算法,它是决策树(决策树也就是做决策的节点间像一棵树一样的组织方式,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时:
ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息,ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值,而C4.5用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的,就像方差起的作用差不多,比如有两个跑步的人,一个起点是m/s的人、其1s后为m/s;另一个人起速是1m/s、其1s后为11m/s。如果仅算差值那么两个就是一样的了;但如果使用速度增加率(速度增加比例)来衡量,2个人差距就很大了。在这里,其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,这个重要也重要,其实也没那么重要,缺失数据采用一些方法补上去就是了。
2:CARTCART也是一种决策树算法!相对于上着有条件实现一个节点下面有多个子树的多元分类,CART只是分类两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。
3:KNN(KNearestNeighbours)这个很简单,就是看你周围的K个人(样本)中哪个类别的人占的多,哪个多,那我就是多的那个。实现起来就是对每个训练样本都计算与其相似度,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,谁多跟谁。
4:NaiveBayes(朴素贝叶斯NB)
NB认为各个特征是独立的,谁也不关谁的事。所以一个样本(特征值的集合,比如“数据结构”出现2次,“文件”出现1次),可以通过对其所有出现特征在给定类别的概率相乘。比如“数据结构”出现在类1的概率为0.5,“文件”出现在类1的概率为0.3,则可认为其属于类1的概率为0.5*0.5*0.3。
5:SupportVectorMachine(支持向量机SVM)
SVM就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远)。这个没具体实现过,上次听课,那位老师自称自己实现了SVM,敬佩其钻研精神。常用的工具包是LibSVM、SVMLight、MySVM。
6:EM(期望最大化)这个我认为就是假设数据时由几个高斯分布组成的,所以最后就是要求几个高斯分布的参数。通过先假设几个值,然后通过反复迭代,以期望得到最好的拟合。
7:Apriori这个是做关联规则用的。不知道为什么,一提高关联规则我就想到购物篮数据。这个没实现过,不过也还要理解,它就是通过支持度和置信度两个量来工作,不过对于Apriori,它通过频繁项集的一些规律(频繁项集的子集必定是频繁项集等等啦)来减少计算复杂度。
8:FP-Tree(Miningfrequentpatternswithoutcandidategeneration)
这个也不太清楚。FP-growth算法(FrequentPattern-growth)使用了一种紧缩的数据结构来存储查找频繁项集所需要的全部信息。采用算法:将提供频繁项集的数据库压缩到一棵FP-tree来保留项集关联信息,然后将压缩后的数据库分成一组条件数据库(一种特殊类型的投影数据库),每个条件数据库关联一个频繁项集。
9:PageRank大名鼎鼎的PageRank大家应该都知道(Google靠此专利发家,其实也不能说发家啦!)。对于这个算法我的理解就是:如果我指向你(网页间的连接)则表示我承认你,则在计算你的重要性的时候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承认多少个人)。通过反复这样来,可以求的一个稳定的衡量各个人(网页)重要性的值。不过这里必须要做些限制(一个人的开始默认重要性都是1),不然那些值会越来越大越来越大。
10:HITSHITS也是一个连接分析算法,它是由IBM首先提出的。在HITS,每个节点(网页)都有一个重要度和权威度(Hubsandauthorities,我也忘了具体的翻译是什么了)。通过反复通过权威度来求重要度,通过重要度来求权威度得到最后的权威度和重要度。
11:K-MeansK-Means是一种最经典也是使用最广泛的聚类方法,时至今日扔然有很多基于其的改进模型提出。K-Means的思想很简单,对于一个聚类任务(你需要指明聚成几个类,当然按照自然想法来说不应该需要指明类数,这个问题也是当前聚类任务的一个值得研究的课题),首先随机选择K个簇中心,然后反复计算下面的过程直到所有簇中心不改变(簇集合不改变)为止:步骤1:对于每个对象,计算其与每个簇中心的相似度,把其归入与其最相似的那个簇中。
步骤2:更新簇中心,新的簇中心通过计算所有属于该簇的对象的平均值得到。
k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
12:BIRCHBIRCH也是一种聚类算法,其全称是BalancedIterativeReducingandClusteringusingHierarchies。BIRCH也是只是看了理论没具体实现过。是一个综合的层次聚类特征(ClusteringFeature,CF)和聚类特征树(CFTree)两个概念,用于概括聚类描述。聚类特征树概括了聚类的有用信息,并且占用空间较元数据集合小得多,可以存放在内存中,从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。
BIRCH算法包括以下两个阶段:
1)扫描数据库,建立动态的一棵存放在内存的CFTree。如果内存不够,则增大阈值,在原树基础上构造一棵较小的树。
2)对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。
由于CFTree的叶节点代表的聚类可能不是自然的聚类结果,原因是给定的阈值限制了簇的大小,并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法,改进聚类质量。
13:AdaBoostAdaBoost做分类的一般知道,它是一种boosting方法。这个不能说是一种算法,应该是一种方法,因为它可以建立在任何一种分类算法上,可以是决策树,NB,SVM等。
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用adaboost分类器可以排除一些不必要的训练数据,并将关键放在关键的训练数据上面。
14:GSPGSP,全称为GeneralizedSequentialPattern(广义序贯模式),是一种序列挖掘算法。对于序列挖掘没有仔细看过,应该是基于关联规则的吧!网上是这样说的:
GSP类似于Apriori算法,采用冗余候选模式的剪除策略和特殊的数据结构-----哈希树来实现候选模式的快速访存。
GSP算法描述:
1)扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集。
2)根据长度为i的种子集Li,通过连接操作和修剪操作生成长度为i+1的候选序列模式Ci+1;然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。
3)重复第二步,直到没有新的序列模式或新的候选序列模式产生为止。
产生候选序列模式主要分两步:
连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1与s2进行连接,即将s2的最后一个项目添加到s1中。
修切阶段:若某候选序列模式的某个子序列不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。
候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列s,找出集合C中被s所包含的所有候选序列模式,并增加其支持度计数。
15:PrefixSpan又是一个类似Apriori的序列挖掘。
其中经典十大算法为:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。
以下为我们精心挑选的部分精品文章,篇篇精彩:
回复“53”,阅读“庄子为什么这么牛?!他的世界你不懂”回复“52”,阅读“吸引力法则:你嘴上所言即为人生!”回复“51”,阅读“世界上最成功的犹太教育”回复“50”,阅读“(搜集整理)受益终生,一定要收藏分享,最全最完整的子午流注与养生保健”回复“49”,阅读“强烈推荐!寒门难以出贵子(掌握的资源和眼界决定了命运)”回复“48”,阅读“感人的故事请传下去”回复“47”,阅读“圈子决定命运,和优秀的人在一起”回复“46”,阅读“你的奢望要配得上你的本事”回复“45”,阅读“我奋斗了18年才和你坐在一起喝咖啡”回复“44”,阅读“很有深度的9个段子”回复“43”,阅读“淫欲的本质(经典)”回复“42”,阅读“一张家庭教育表,价值连城!大彻大悟!”回复“41”,阅读“最近一百年,全球涌现过哪些最顶尖的、最赚钱的公司?”回复“40”,阅读“《美国制造业的新面貌》:美国如何维持全球领先的先进制造能力”回复“39”,阅读“张学良发妻于凤至:苦等50年,终是被辜负”回复“38”,阅读“顶端的硝烟”回复“37”,阅读“麻省理工告诉我们男女配对的真相!”回复“36”,阅读“什么是“穷人思维”?”回复“35”,阅读“在知识之外有一种更重要的东西”回复“34”,阅读“一只饥饿的老虎,这个故事看了没有不说好的!”回复“33”,阅读“不要强迫一条鱼去爬树”回复“32”,阅读“忙碌”也许会毁了你的全部”回复“31”,阅读“一段君臣对话 震撼全国!你造吗?”回复“30”,阅读“10个小故事,让思维拐个弯”回复“29”,阅读“一条忍着不死的鱼”回复“28”,阅读“换一种思路找工作”回复“27”,阅读“眼看他楼歪了”回复“26”,阅读“人类简史(强烈推荐)”回复“25”,阅读“一个人的教养如何体现?女孩的家教好如何表现?”回复“24”,阅读“这家店让7-11花了近40年都无法超越,凭什么”回复“23”,阅读“真正的贵族精神(深度好文)”回复“22”,阅读“不要在最好的位置上睡觉(深度好文)”回复“21”,阅读“从万到20亿:投资高手的刀(深度好文)”回复“20”,阅读“笨人才耍心眼儿,聪明人只需厚道!(深度好文)”回复“19”,阅读“行善的最高境界不是施舍而是引路”回复“18”,阅读“全世界顶级专家谈癌症——太珍贵了,为了自己和家人必看!”回复“17”,阅读“曾国藩外孙《保富法》:曾轰动整个上海滩的千古奇文!”回复“16”,阅读“色难(给天下所有为人子女者)”回复“15”,阅读“兔子”是怎样吃掉“狼”的?神一般的商战机密!”回复“14”,阅读“比勤奋更重要的,是深度思考的能力”回复“13”,阅读“一百亿的起点(深度好文)”回复“12”,阅读“经验年薪10w和年薪w的人,差在哪里?”回复“11”,阅读“最近一百年,全球涌现过哪些最顶尖的、最赚钱的公司?”回复“10”,阅读“美国科学家发现因果报应的重大秘密”回复“9”,阅读“美国科学家最新惊人发现”回复“8”,阅读“科学证实意识决定身体粒子的能量振动频率”回复“7”,阅读“你吸引来振动频率相似的人事物”回复“6”,阅读“真正聪明的人都是下笨功夫”回复“5”,阅读“穷养?富养?不如教养”回复“4”,阅读“借伞取经停车合作,改观好文”回复“3”,阅读“人际人脉关系的真相(深度好文)”回复“2”,阅读“关于投资的本质(绝对干货)”回复“1”,阅读“探秘:麦当劳称霸全球的商业模式”
免费没有围墙的商学院。
探讨、传递和分享科技、工商、财经管理知识、信息和智慧,拓展视野,智慧创新,结交志同道合的朋友。喜欢它就转发到朋友圈,很喜欢就点击本页面顶部的北京有哪间治疗白癜风的医院白癜风能治好嘛