点此搜书

文本挖掘中若干关键问题研究
  • 作 者:陆旭著
  • 出 版 社:合肥:中国科学技术大学出版社
  • 出版年份:2008
  • ISBN:9787312022807
  • 标注页数:118 页
  • PDF页数:127 页
  • 请阅读订购服务说明与试读!

文档类型

价格(积分)

购买连接

试读

PDF格式

7

立即购买

点击试读

订购服务说明

1、本站所有的书默认都是PDF格式,该格式图书只能阅读和打印,不能再次编辑。

2、除分上下册或者多册的情况下,一般PDF页数一定要大于标注页数才建议下单购买。【本资源127 ≥118页】

图书下载及付费说明

1、所有的电子图书为PDF格式,支持电脑、手机、平板等各类电子设备阅读;可以任意拷贝文件到不同的阅读设备里进行阅读。

2、电子图书在提交订单后一般半小时内处理完成,最晚48小时内处理完成。(非工作日购买会延迟)

3、所有的电子图书都是原书直接扫描方式制作而成。

第1章 导论 1

1.1 研究背景 1

1.2 文本分类综述 2

1.3 本书的内容结构 10

1.4 本书的创新工作 12

第2章 文本分类概述 13

2.1 文本分类的数学定义 13

2.2 文本分类任务的特点 13

2.3 文本分类系统的组成 14

2.4 文档预处理 16

2.5 文档的表示 19

2.6 常用文本分类模型 23

2.7 文本分类器学习、测试和评价 27

第3章 偏最小二乘回归方法的基本理论 30

3.1 偏最小二乘回归的发展历史 30

3.2 偏最小二乘回归的基本原理 31

3.3 偏最小二乘回归的基本思想 32

3.4 数学原理 32

3.5 偏最小二乘回归的理论算法 33

3.6 成分数的确定 36

第4章 基于变量投影重要性指标的特征选择方法研究 38

4.1 维数约简技术 38

4.2 符号约定 39

4.3 常用的特征选择方法 39

4.4 常用的特征抽取方法 42

4.5 基于变量投影重要性指标的特征选择方法 44

4.6 实验结果和分析 47

第5章 偏最小二乘Logistic文本分类模型研究 57

5.1 Logistic回归模型 57

5.2 偏最小二乘Logistic回归模型 63

5.3 偏最小二乘Logistic文本分类模型 65

5.4 实验结果和分析 67

第6章 GHTC层次文本分类模型研究 76

6.1 层次分类概述 77

6.2 层次特征选择 79

6.3 GHTC层次文本分类模型 80

6.4 实验结果和分析 84

第7章 总结与展望 93

7.1 总结 93

7.2 研究展望 94

附录1 REUTERS-21578前10个常见类和前10个稀有类的前20个特征VIP值 96

附录2 复旦文本分类语料库部分类别的前20个特征VIP值 100

附录3 OHSUMED语料库层次结构 102

附录4 20 Newsgroups语料库各节点各特征维数的微平均F1值和宏平均F1值变化情况 106

参考文献 107

后记 118

购买PDF格式(7分)
返回顶部