当前位置：大数据分布式计算与案例pdf电子书下载 > 数理化

大数据分布式计算与案例

大数据分布式计算与案例

大数据分布式计算与案例

作者：李丰主编
出版社：北京：中国人民大学出版社
出版年份：2016
ISBN：9787300230276
标注页数：137 页
PDF页数：150 页
请阅读订购服务说明与试读!

文档类型

价格(积分)

购买连接

试读

PDF格式

7

订购服务说明

1、本站所有的书默认都是PDF格式，该格式图书只能阅读和打印，不能再次编辑。

2、除分上下册或者多册的情况下，一般PDF页数一定要大于标注页数才建议下单购买。【本资源150 ≥137页】

图书下载及付费说明

1、所有的电子图书为PDF格式，支持电脑、手机、平板等各类电子设备阅读；可以任意拷贝文件到不同的阅读设备里进行阅读。

2、电子图书在提交订单后一般半小时内处理完成,最晚48小时内处理完成。(非工作日购买会延迟)

3、所有的电子图书都是原书直接扫描方式制作而成。

第1章统计分析与并行计算 1

1.1 并行计算与并行计算机 1

1.2 统计计算的并行原理——以矩阵乘法为例 7

1.3 基于R的单机并行计算 9

1.4 基于Python的单机并行计算 10

1.5 大数据背景下的数据采集和存储 11

1.6 参考文献 14

第2章 Hadoop基础 15

2.1 Hadoop历史、生态系统 15

2.2 Hadoop的分布式文件系统（HDFS） 16

2.3 MapReduce工作原理 21

2.4 Hadoop上运行MapReduce 24

2.5 MapReduce实例：分层随机抽样 25

2.6 MapReduce实例：聚类分析 26

2.7 参考文献 30

第3章基于Hadoop的分布式算法和模型实现 31

3.1 R中实现Hadoop分布式计算 31

3.2 Mahout与大数据机器学习 39

3.3 利用Mahout进行数据挖掘 40

3.4 Mahout实例：Logistics回归和随机森林分类算法 42

3.5 Mahout实例：随机森林的分布式实现 46

3.6 参考文献 49

第4章统计模型的MapReduce实现详解 51

4.1 泊松回归模型：付费搜索广告分析 51

4.2 判别分析：气象因素对雾霾影响分析 58

4.3 分块Logistics回归 60

4.4 文本分类 64

4.5 朴素贝叶斯模型 68

4.6 岭回归模型 73

4.7 推荐系统 77

4.8 参考文献 80

第5章分布式文件访问与计算 81

5.1 Hive基础 81

5.2 HiveQL数据定义（DDL） 82

5.3 HBase 89

5.4 Hive实例：FoodMart案例 92

5.5 Hive实例：Hive Streaming交互计算 95

5.6 参考文献 96

第6章 Spark与统计模型 97

6.1 Spark简介 97

6.2 Spark工作原理介绍 100

6.3 Pyspark命令介绍 103

6.4 Spark实例：通过Word Count了解Spark工作流程 107

6.5 Spark实例：二分类学习 109

6.6 Spark实例：决策树模型 114

6.7 参考文献 115

附录A Hadoop安装运行 117

A.1 单机伪分布式安装 117

A.2 全分布式集群 119

附录B Mahout安装与运行 128

附录C Hive安装运行 129

C.1 准备 129

C.2 安装Hive 129

C.3 配置Hive 130

附录D HBase安装运行 131

D.1 安装配置HBase 131

D.2 启动HBase 132

附录E Spark的配置与安装 134

E.1 安装配置Scala 134

E.2 安装配置Spark 134

购买PDF格式(7分)