点此搜书

Spark大数据处理  原理、算法与实例
  • 作 者:刘军,林文辉,方澄编著
  • 出 版 社:北京:清华大学出版社
  • 出版年份:2016
  • ISBN:9787302449959
  • 标注页数:199 页
  • PDF页数:208 页
  • 请阅读订购服务说明与试读!

文档类型

价格(积分)

购买连接

试读

PDF格式

8

立即购买

点击试读

订购服务说明

1、本站所有的书默认都是PDF格式,该格式图书只能阅读和打印,不能再次编辑。

2、除分上下册或者多册的情况下,一般PDF页数一定要大于标注页数才建议下单购买。【本资源208 ≥199页】

图书下载及付费说明

1、所有的电子图书为PDF格式,支持电脑、手机、平板等各类电子设备阅读;可以任意拷贝文件到不同的阅读设备里进行阅读。

2、电子图书在提交订单后一般半小时内处理完成,最晚48小时内处理完成。(非工作日购买会延迟)

3、所有的电子图书都是原书直接扫描方式制作而成。

第1章 从Hadoop到Spark 1

1.1 Hadoop——大数据时代的火种 1

1.1.1 大数据的由来 1

1.1.2 Google解决大数据计算问题的方法 5

1.1.3 Hadoop的由来与发展 10

1.2 Hadoop的局限性 12

1.2.1 Hadoop运行机制 13

1.2.2 Hadoop的性能问题 15

1.2.3 针对Hadoop的改进 20

1.3 大数据技术新星——Spark 21

1.3.1 Spark的出现与发展 21

1.3.2 Spark协议族 24

1.3.3 Spark的应用及优势 25

第2章 体验Spark 28

2.1 安装和使用Spark 28

2.1.1 安装Spark 28

2.1.2 了解Spark目录结构 31

2.1.3 使用Spark Shell 32

2.2 编写和运行Spark程序 35

2.2.1 安装Scala插件 35

2.2.2 编写Spark程序 37

2.2.3 运行Spark程序 42

2.3 Spark Web UI 45

2.3.1 访问实时Web UI 45

2.3.2 从实时UI查看作业信息 46

第3章 Spark原理 50

3.1 Spark工作原理 50

3.2 Spark架构及运行机制 54

3.2.1 Spark系统架构与节 点角色 54

3.2.2 Spark作业执行过程 57

3.2.3 应用初始化 59

3.2.4 构建RDD有向无环图 62

3.2.5 RDD有向无环图拆分 64

3.2.6 Task调度 68

3.2.7 Task执行 71

第4章 RDD算子 74

4.1 创建算子 74

4.1.1 基于集合类型数据创建RDD 74

4.1.2 基于外部数据创建RDD 76

4.2 变换算子 80

4.2.1 对Value型RDD进行变换 80

4.2.2 对Key/Value型RDD进行变换 92

4.3 行动算子 108

4.3.1 数据运算类行动算子 108

4.3.2 存储型行动算子 117

4.4 缓存算子 119

第5章 Spark算法设计 123

5.1 过滤 123

5.2 去重计数 125

5.3 相关计数 127

5.4 相关系数 130

5.5 数据联结 135

5.6 Top-K 139

5.7 K-means 142

5.8 关联规则挖掘 146

5.9 kNN 152

5.10 朴素贝叶斯分类 155

第6章 善用Spark 161

6.1 合理分配资源 161

6.2 控制并行度 168

6.3 利用持久化 173

6.4 选择恰当的算子 177

6.5 利用共享变量 181

6.5.1 累加器变量 182

6.5.2 广播变量 184

6.6 利用序列化技术 186

6.7 关注数据本地性 188

6.8 内存优化策略 191

6.9 集成外部工具 195

参考文献 198

购买PDF格式(8分)
返回顶部