电子工业出版社海沫大数据分析原理和应用习题解答

配套的教材信息

书名：大数据分析原理和应用

译作者：海沫

出版社：电子工业出版社

Tags：电子工业出版社海沫大数据分析原理和应用习题解答

预览试看
内容简介

本书目录

第4章  MapReduce并行编程模型	83
4.1  MapReduce的概述	83
4.1.1  分布式并行编程	83
4.1.2  MapReduce的简介	84
4.1.3  Map函数和Reduce函数	86
4.2  MapReduce的体系结构	87
4.2.1  MapReduce 1.0体系结构的总体框架	87
4.2.2  Hadoop 2.0的体系结构	88
4.2.3  MapReduce的容错性	89
4.3  MapReduce的工作流程	89
4.3.1  MapReduce工作流程的概述	89
4.3.2  MapReduce的执行过程	90
4.3.3  Shuffle过程详解	93
4.4  MapReduce的实例分析	99
4.4.1  WordCount	99
4.4.2  倒排索引	102
4.4.3  Top-K	106
4.5  MapReduce的编程实践	107
4.5.1  任务要求	107
4.5.2  编写Map处理逻辑	107
4.5.3  编写Reduce处理逻辑	108
4.5.4  编写main方法	109
4.5.5  实验过程	109
4.6  MapReduce的优缺点分析	113
4.6.1  MapReduce的优点	113
4.6.2  MapReduce的缺点	113
4.7  本章小结	114
4.8  本章习题	114
第5章  Hadoop 2.0的资源管理调度框架——YARN	117
5.1  YARN的产生背景	117
5.1.1  MapReduce 1.0中存在的问题	117
5.1.2  YARN的产生	118
5.2  YARN的设计思路	119
5.3  YARN的体系结构	120
5.3.1  YARN的体系结构总体框架	120
5.3.2  YARN各组件功能的介绍	121
5.3.3  YARN的容错性	122
5.4  YARN的工作流程	123
5.5  YARN的优缺点分析	124
5.5.1  YARN的优点	124
5.5.2  YARN的缺点	126
5.6  本章小结	126
5.7  本章习题	127
第6章  大数据的获取和预处理	130
6.1  大数据的获取	130
6.1.1  爬虫的基础知识	130
6.1.2  Scrapy爬虫的原理与流程	139
6.1.3  Scrapy的爬虫实例	141
6.2  数据清洗	146
6.2.1  数据清洗的概述	146
6.2.2  数据清洗的原理	146
6.2.3  数据清洗的流程	147
6.2.4  Pandas数据清洗的实例	148
6.3  数据归约	153
6.3.1  维归约	154
6.3.2  属性选择	154
6.3.3  离散化方法	155
6.3.4  PCA的实例	155
6.4  数据标准化	158
6.4.1  数据标准化的概念	158
6.4.2  数据标准化的方法	158
6.4.3  数据标准化的实例	159
6.5  本章小结	161
6.6  习题	162
第7章  大数据分析算法	163
7.1  聚类算法	163
7.1.1  经典聚类算法	163
7.1.2  大数据聚类算法的应用	184
7.2  分类算法	188
7.2.1  经典分类算法	188
7.2.2  大数据分类算法的应用	215
7.3  本章小结	219
7.4  习题	220
第8章  大数据分析的应用案例	221
8.1  案例背景	221
8.2  数据获取和预处理	222
8.2.1  获取来源	222
8.2.2  数据说明	222
8.2.3  数据预处理	223
8.3  评价指标说明	226
8.4  基于Python的实现	227
8.4.1  基于Python的逻辑回归	227
8.4.2  基于Python的SVM	229
8.4.3  基于Python的朴素贝叶斯	231
8.4.4  基于Python的决策树	232
8.4.5  基于Python的随机森林	234
8.5  基于Spark的实现	236
8.5.1  基于Spark的逻辑回归	236
8.5.2  基于Spark的SVM	237
8.6  实验结果分析	238
8.7  本章小结	239
8.8  习题	239

电子工业出版社海沫大数据分析原理和应用习题解答

本书目录

猜你喜欢