大数据技术与应用展现出锐不可挡的强大生命力,科学界与企业界寄予无比的厚望。大数据成为继20世纪末、21世纪初互联网蓬勃发展以来的又一轮IT工业革命。
大数据技术是指从数据采集、清洗、集成、挖掘、分析与结果解释,进而从各种各样类型的巨量数据中快速获得有价值信息的全部技术。从数据挖掘和分析中获取具有重要价值的信息。大数据技术的精髓是从大数据中产生新见解的能力、识别复杂关系和做出越来越精准的预测。大数据技术是现代科学与技术的发展,尤其是计算机科学技术发展的重要成果和结晶,是科学发展史的又一个新的里程碑。大数据的出现对计算机许多领域提出了挑战与冲击,推动了计算机科学技术的发展。
大数据技术的出现凝集了多学科的研究成果,是一门多学科的交叉融合技术,随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值,因此北师大出版社特推出《数据科学与大数据技术导论》和《数据科学与大数据技术导论实验》。
书号
-7---3
定价
49.80
作者
陈明
本书在体例的设计方面,以大数据技术为核心展开。大数据技术是指在大数据生命周期中所使用的全部技术的集合,也就是说,从数据获取之后,经过存储、抽取、清洗、分析、挖掘等步骤后,获得有价值信息的全过程所需要的技术集合。本书的第1章~第11章主要介绍了上述过程。除此之外,还在第12章~15章中介绍了推荐技术、社会网络、大数据离线计算和大数据流式计算等内容。其中,在大数据离线计算中,主要包括大数据离线处理架构、MapReduce的体系结构、基于Hadoop框架的分布计算和MapReduce程序设计实例分析。在大数据流式计算技术中,主要包括流式数据的概述、大数据的计算模式、流式计算的应用、流式计算的系统架构、高可用技术、Storm处理过程和大数据流式计算的应用案例等。
在内容的描述方面,注重大数据技术的主要概念、结构和方法的清晰描述。对主要的算法,如分类算法、聚类算法等典型重要的算法给出了形式化描述。
书号
-7---9
定价
29.80
作者
陈明
在《数据科学与大数据技术导论》课程的教学中,为了使学生快速地理解课程的内容,增强学生所学的理论与实践的结合,尤其是培养应用能力,编写了《数据科学与大数据技术导论实验》教材,可以作为课程实验的内容,配合主教材使用。
本教材主要设置了十个实验,他们是Linux环境部署、Hadoop开发环境部署、网页数据采集、大数据去重、大数据最大值计算、大数据排序、大数据倒排索引、大数据平均值计算、大数据单表关联和数据可视化。
上述的十个实验,涉及了大数据生命周期中的内容的基本实验,主要在大数据处理平台Hadoop开发环境下完成。主要应用了MapReduce分布编程模型,完成基本的分析处理功能。各实验的内容简介如下。
实验1Linux环境部署
Linux操作系统是部署Hadoop开发环境的最佳选择,通过Linux操作系统部署的实验,可以掌握安装Linux操作系统方法,进而为大数据Hadoop环境部署奠定基础。
实验2Hadoop开发环境部署
通过Hadoop环境部署实验练习,可以理解本实验所涉及的理论基础之上,掌握Hadoop系统安装方法、伪分布式Hadoop的安装方法和Eclipse开发环境的安装具体过程。
实验3网页数据采集
通过网页数据获取的实验,可以掌握利用网络爬虫获取网页数据的方法,进而为解决网页数据获取的实际问题。
实验4大数据去重
通过大数据去重实验,可以掌握在Hadoop环境下大数据去重方法。
实验5大数据最大值计算
通过大数据最大值计算实验,可以掌握在Hadoop环境下大数据最大值计算方法。
实验6大数据排序
通过大数据实验,可以掌握在Hadoop环境下大数据排序方法。
实验7大数据倒排索引
通过大数据倒排索引实验,可以掌握在Hadoop环境下大数据倒排索引方法。
实验8大数据平均值计算
通过大数据平均值计算实验,可以掌握在Hadoop环境下大数据平均值计算方法。
实验9大数据单表关联
通过大数据实验,可以掌握在Hadoop环境下大数据单表关联方法。
实验10大数据可视化
通过大数据可视化的实验,可以掌握Superset(或Echar)环境构建方法、直方图、时序线图、时序面积图、饼图和文字云图可视化方法,进而为大数据分析结果展现奠定基础。
在教材中涉及Hadoop环境下的实验,使用了基于MapReduce分布编程的典型程序,这些查询是用Java语言书写,如果具有Java程序设计与阅读能力,尽可能理解程序的功能和内容。
师人为学
行为世范
京师阅读
经管
理工
信息
职教
★★温馨提示:索取样书请北京中医治疗白癜风哪家好白癜风好了