
- 作 者:陆红著
- 出 版 社:中国财富出版社
- 出版年份:2017
- ISBN:9787504764164
- 标注页数:151 页
- PDF页数:159 页
请阅读订购服务说明与试读!
订购服务说明
1、本站所有的书默认都是PDF格式,该格式图书只能阅读和打印,不能再次编辑。
2、除分上下册或者多册的情况下,一般PDF页数一定要大于标注页数才建议下单购买。【本资源159 ≥151页】
图书下载及付费说明
1、所有的电子图书为PDF格式,支持电脑、手机、平板等各类电子设备阅读;可以任意拷贝文件到不同的阅读设备里进行阅读。
2、电子图书在提交订单后一般半小时内处理完成,最晚48小时内处理完成。(非工作日购买会延迟)
3、所有的电子图书都是原书直接扫描方式制作而成。
1 大数据采集处理方法 1
1.1 爬虫程序设计方案 1
1.2 爬虫程序实现方法 5
1.3 数据清洗 20
2 大数据存储方法 27
2.1 分布式文件系统存储大数据 27
2.1.1 HDFS体系结构 27
2.1.2 HDFS数据存储方式 28
2.1.3 HDFS读写方式 28
2.2 分布式数据库存储大数据 32
2.2.1 Hbase体系结构 32
2.2.2 配置Hbase 33
2.2.3 Hbase表操作 38
2.2.4 访问Hbase数据资源 44
3 大数据计算方法 50
3.1 分布式计算平台构建方法 50
3.2 分布式计算框架构建方法 60
3.3 分布式计算程序设计方法 63
4 大数据分析模型构建方法 77
4.1 准备训练数据 77
4.2 机器学习路径和算法设计方法 81
4.3 数据可视化辅助建模方法 87
4.4 构建大数据分析模型 90
5 大数据分析模型检验方法 107
5.1 回归诊断 107
5.2 交叉验证 112
6 大数据分析模型优化方法 116
6.1 Feature Scaling优化法 116
6.2 逐步回归优化法 117
6.3 PCA主成分分析优化方法 119
6.4 神经网络优化大数据分析模型 126
参考文献 150