机器学习课程学习综述报告全课程内容

《机器学习》课程学习综述报告

——全课程内容综述

摘要:数据挖掘技术是当前数据库和人工智能领域研究的热点课题,本文首先对数据挖掘技术的国内外总体研究情况进行概略介绍,包括数据挖掘技术产生背景、应用领域、分类。然后详细阐述了数据挖掘的主要技术方法,并对数据挖掘的应用领域与主要工具等做了相关介绍。最后,对当前数据挖掘领域的研究热点以及研究发展方向进行了详细的概括与总结。

关键词:数据挖掘;机器学习;研究进展

目录

第1章绪论

近几十年以来,人们利用信息技术生产和搜集数据的能力大幅度提高,在这信息爆炸的时代,“数据丰富,信息贫乏”成为当前面临的重要问题。

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程[1]。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是机器学习、数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。在很多情况下,应用数据挖掘技术是为了实现三种目的[2]:发现知识、使数据可视化、纠正数据。

数据挖掘一般有以下几个主要步骤[3]:数据清理(消除噪声和删除不一致的数据),数据集成(多种数据源可以组合在一起),数据选择(从数据库中提取与分析任务相关的数据),数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式),数据挖掘(基本步骤,使用智能方法提取数据模式),模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的数据),知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。

本文结合“机器学习”课程、《数据挖掘-概念与技术》书籍,和相关论文的学习,对本课程的全部学习内容,作简要的报告综述。

第2章数据挖掘简介

数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。数据挖掘也可以用于其他类型的数据,例如,数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。

2.1数据库数据

数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。

2.2数据仓库

数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装人和定期数据刷新来构造[4]。

通常,数据仓库用称做数据立方体(datacube)的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。

2.3事务数据

一般地说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一个组成事务的项(如,交易中购买的商品)的列表。

2.4其他类型的数据

除关系数据库数据、数据仓库数据和事务数据外,还有许多其他类型的数据,它们具有各种各样的形式和结构,具有很不相同的语义。

第3章数据挖掘分类

通过对本课程的学习,梳理出数据挖掘的各种分类方法。数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行计算等。

分类是这样的过程,找出描述和分区数据类或概念模型,以便能够使用模型来预测类标号未知的对象类标号。导出模型是基于对训练数据集的分析。导出的模型可有多种表示方式,如分类规则(IF-THEN规则),决策树,数学公式或者神经网络。

数据挖掘有以下多种分类方法[5,6]。

3.1根据挖掘任务

可分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等。

a.分类模型(Classification):旨在生成一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据,也可以用它来预测未来的数据。

b.聚集(Clustering):聚集是对记录分组,把相似的记录放在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

c.数据可视化(DescriptionandVisualization):数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果[7]。

d.关联规则(Affinitygroupingorassociationrules):关联规则[8,9,10]是一种简单却很实用的关联分析规则,它描述了一个事物中某些属性同时出现的规律和模式。相关规则分析就是依据一定的可信度、支持度、期望可信度、作用度建立相关规则。

e.序列分析(SequenceAnalysis):序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后(因果)关系,因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。

f.偏差分析(DeviationAnalysis):是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还是正常的变化。如果是异常行为,则提示预防措施;如果是正常的变化,那么就需要更新数据库记录。

3.2根据挖掘对象

可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库以及环球网Web。

3.3根据挖掘方法

可粗略地分为:机器学习方法[11]、统计方法、神经网络方法、决策树、可视化、最近邻技术等。

在机器学习法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等;在统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

第4章数据挖掘的主要方法

通常情况下,把数据挖掘方法分为两大方面,一是统计类型,有概率分析、相关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学习大量的样品集获得需要的模式或参数。

以下简要介绍几种主要的方法。

4.1决策树(DecisionTree)

决策树[11,12]是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过一批已知的训练数据建立一棵决策树;然后,利用建好的决策树,对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。

4.2神经网络(NeuralNetwork)

神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成[13]。

4.3遗传算法

它首先将问题可能的解按某种形式进行编码,编码后的解称为染色体;随机选取N个染色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好的染色体有较高的适应值;选择适应值较高的染色体进行复制,并通过遗传算子,产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境的个体,得到问题的最优化解。

4.4联机分析处理(OLAP)

联机分析处理(OnLineAnalyticalProcessing,OLAP)主要通过多维的方式来对数据进行分析、查询和报表[14]。OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作。

4.5数据可视化(DataVisualization)

就数据可视化系统[15]本身而言,由于数据量很大,很容易使分析人员面对数据不知所措,数据挖掘的可视化工具可以通过富有成效的探索起点并按恰当的隐喻来表示数据,为数据分析人员提供很好的帮助。

数据可视化工具大大扩展了传统商业图形的能力,支持多维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。

4.6粗集(RoughSet)方法

在数据库中将行元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称为等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间的关系分三种情况:下近似:Y包含E。对下近似建立确定性规则;上近似:Y和E的交非空。对上近似建立不确定性规则(含可信度);无关:Y和E的交为空。无关情况不存在规则。

4.7统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。

4.8模糊论方法

利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强。

第5章数据挖掘的主要应用

数据挖掘技术是面向应用的。数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。随着研究的深入,数据挖掘技术的应用越来越广泛。主要集中在以下几方面。

5.1金融

数据挖掘在金融领域[16]应用广泛,包括:金融市场分析和预测、帐户分类、银行担保和信用评估等。

5.2市场业

市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略[17]。由于管理信息系统和POS系统在市场业的广泛普及,人们很容易得到顾客购买情况的数据。利用数据挖掘技术,通过对顾客历史数据的分析,可以得到关于顾客购买取向和兴趣的信息,无疑为商业决策提供了可靠的依据。

5.3工程与科学研究[18]

数据挖掘技术可应用于各种工程与科学数据分析。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,面对庞大的数据,传统的数据分析工具无能为力。数据挖掘技术以其强大的智能性和自动性,在工程和科学研究中得到广泛应用。

5.4产品制造业[19]

制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。例如:HP公司的工程师使用AngossSoftware的KnowledgeSeeker来进行HPc彩色扫描仪的生产过程分析。他们基于大约个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据。

5.5司法

数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等,可以给司法工作带来巨大收益。

第6章数据挖掘工具

6.1数据挖掘工具分类

数据挖掘工具根据应用领域可分为三类。

1)通用单任务类:仅支持KDD的数据挖掘步骤,并且需要大量的预处理和善后处理工作。主要采用决策树、神经网络、基于例子和规则的方法,发现任务大多属于分类范畴;

2)通用多任务类:可执行多个领域的知识发现任务,集成了分类、可视化、聚集、概括等多种策略,如Clementine、IBMIntelligentMiner、SGIMineset;

3)专用领域类:现有的许多数据采掘系统是专为特定目的开发的,用于专用领域的知识发现,对采掘的数据库有语义要求,发现的知识也较单一。如Explora用于超市销售分析,仅能处理特定形式的数据,知识发现也以关联规则和趋势分析为主。另外发现方法单一,有些系统虽然能发现多种形式的知识,但基本上以机器学习、统计分析为主,计算量大。

6.2数据挖掘技术分类

根据所采用的技术,挖掘工具大致分为六类:

a.基于规则和决策树的工具:大部分数据挖掘工具采用规则发现和决策树分类技术来发现数据模式和规则,其核心是某种归纳算法,如ID3和C4.5。它通常先对数据库中的数据进行挖掘,生成规则和决策树,然后对新数据进行分析和预测;

b.基于神经元网络的工具:基于神经元网络的工具由于具有对非线性数据的快速建模能力,因此越来越流行。挖掘过程基本上是将数据簇聚,然后分类计算权值。它在市场数据库的分析和建模方面应用广泛;

c.数据可视化方法:这类工具大大扩展了传统商业图形的能力,支持多维数据的可视化,同时提供了多方向同时进行数据分析的图形方法;

d.模糊发现方法:应用模糊逻辑进行数据查询排序;

e.统计方法:这些工具没有使用人工智能技术,因此更适于分析现有信息,而不是从原始数据中发现数据模式和规则;

f.综合多方法:许多工具采用了多种挖掘方法,一般规模较大。

工具系统的总体发展趋势是,使数据挖掘技术进一步为用户所接受和使用,另一方面也可以理解成以使用者的语言表达知识概念。

第7章数据挖掘研究重点与发展方向展望

目前,数据挖掘的研究热点围绕挖掘算法展开。数据挖掘是综合了机器学习、人工智能、数据统计等学科的研究领域。随着数据挖掘工具在实际应用中的迅速增长,相关学科成熟的算法实现不断地加入到数据挖掘中来;挖掘算法的研究还包括对现有挖掘算法的优化和改进,比如使用全局搜索算法优化神经网络学习过程。除此以外,数据挖掘还有以下研究热点。

7.1数据挖掘原语

数据挖掘原语可以理解为有效辅助数据挖掘实施知识发现功能的思想和做法,是知识发现的辅助工具。数据挖掘原语的研究是为了支持有效的知识发现,为了让用户更加易于理解挖掘出来的知识。用户能够通过数据挖掘原语与数据挖掘系统通信,从不同的角度和深度审查发现结果,并指导挖掘过程。这组原语包括数据库说明的部分或用户感兴趣的数据集、要挖掘的知识类型、用于指导挖掘过程的背景知识、模式评估以及度量和如何显示所发现的知识等等。

7.2数据挖掘语言及标准

数据挖掘行业是高度分散的,公司和研究机构独立开发各自的数据挖掘系统和平台,没有形成开放性的标准;同时数据挖掘本身是一门多学科综合跨度非常大的技术,这些造成了数据挖掘在通用性方面存在一系列问题:

a.各种数据挖掘问题及挖掘方法基于不同的模型和技术,彼此互相孤立,联系很少;

b.缺少简明精确的问题描述方法,挖掘的语义通常是由实现方法决定的;

c.数据挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用;

d.数据挖掘引擎与数据库系统是松散耦合的。数据挖掘语言和标准的开发有望解决上述问题。

目前,已实现的数据挖掘语言有DMQL、MSQL和MINERULE等;数据挖掘语言标准有PMML(DMG:数据挖掘组织协会)和OLEDBforDataMining(微软)。

7.3数据挖掘系统

称围绕某一数据挖掘任务的知识发现过程为数据挖掘系统。数据挖掘系统的研究是为了建立科学的系统结构,利于挖掘算法的重用、嵌入,利于算法与系统其他模块有机结合。

7.4基于数据仓库的数据挖掘

把数据挖掘建立在数据仓库之上[20],一方面能够提高数据仓库系统的决策支持能力;另一方面,由于数据仓库完成了数据的清洗、ETL(抽取,转换,装载),数据挖掘面对的是经过初步处理的数据,更加有利于数据挖掘功能的发挥。这方面的研究集中在基于数据仓库的数据挖掘系统结构的探讨上。

7.5联机数据分析挖掘OLAM

OLAM将OLAP和数据挖掘功能集成在一起,可以实现数据挖掘功能的联机选择,为用户选择所期望的数据挖掘功能,动态地改变数据挖掘任务提供了灵活性。OLAM和OLAP通过图形用户界面GUI接受用户指令,对数据立方体Cube进行数据分析、挖掘。

7.6数据挖掘与具体应用的结合

数据挖掘目前在医学、电信、零售业等多个应用领域均有成功的应用案例。随着越来越多的业务需求被不断明确,数据挖掘应用的领域和解决的问题会越来越广泛;一些应用系统,如ERP、SCM、HR等系统也逐渐与数据挖掘集成起来,用以提高系统的决策支持能力。这方面的研究热点包括数据挖掘与商业智能(BI)、CRM、WEB应用的结合。

以下几点是未来比较重要的数据挖掘研究方向:

a.研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘[21];

b.加强对各种非结构化数据的挖掘,如:文本数据、图形图象数据、多媒体数据的挖掘;

c.研究数据挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等;

d.寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互[22]。

第8章结论

数据挖掘是当前计算机工业最热门的研究领域之一。数据挖掘是一个不断发展的、综合交叉的学科。本文从数据挖掘的简介、分类、主要技术方法以及应用领域与主要工具等不同视角阐述了数据挖掘技术,最后,对当前数据挖掘领域的研究热点以及研究发展方向进行了详细的概括与总结。

心得体会

通过对“机器学习”课程的学习,受益良多。特别是对难得的上讲台讲课的经历,不仅充分调动了大家的学习热情,还锻炼了大家的演讲能力。在自己准备讲课的时候,不仅要真正理解到要讲解的知识,还要做PPT,思考自己的讲解方式等,在知识理解和表达能力都得到了有效锻炼。而且,在听别的同学讲的时候,因为大家都是一起在学习,所以能更好地进行交流和理解,一方面吸取别的同学的讲课技巧,一方面更容易注意到自己与别的同学在理解知识时的差别,并及时讨论。将自己对知识的理解,讲解给别人,会让自己有更好的理解,所以很喜欢这样的教学模式。

一学期的时光转眼即逝,“机器学习”是一个具有很高难度的课程,特别是其中涉及了很多高难度的算法。作为信息与通信工程专业的研究生,课程中许多算法非常重要,很有必要将其掌握。但因为时间精力等的限制,虽然通过了一学期的课程学习和相关资料的研读,很多算法都只是理解在表面层上,未能进行深入的理解、剖析及应用。

所以,本次课程综述,我结合了全课程的内容,希望对“数据挖掘”的概念和技术进行有机的串联和较全面的了解,希望建立一个较完整的数据挖掘思想框架,以备在今后遇到类似问题时,能找到对应的概念模型及算法思路。然后,再对应于具体的要求,对其具体知识点进行深入的研究,以达到学以致用。

通过本学期的课程学习,及对本文课程综述的撰写,经过了大量资料的阅读、理解和思考,现对数据挖掘有了较好地理解,建立了较系统的机器学习概念,为今后的研究及工作,储备了很多很好的方法和思路,受益匪浅。

参考文献

这次的分享很干,这是一门课程的作业,涉及专业知识较多。这篇文字是对本课程的综合性回顾,通过对课本及文献的阅读,和自己的思考、整理和总结而成的文字。其中还有很多未理解之处,需不断学习和研究。

在此,将其整理为一篇







































北京哪家医院白癜风最好
白癜风早期症状能彻底治愈好吗



转载请注明:http://www.92nongye.com/hxjs/204620747.html