温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
监督
集成
学习
文本
分类
方法
基于半监督与集成学习的 文本分类方法 唐焕玲 著 Publishing House of Electronics Industry 北京BEIJING 内 容 简 介 文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training 的算法;利用互信息或 CHI 统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的 BoostVE 分类模型;融合半监督学习和集成学习的SemiBoost-CR 分类模型。其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。本书适合研究方向为文本挖掘、机器学习的硕士、博士研究生及相关专业技术人员学习和参考。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 基于半监督与集成学习的文本分类方法/唐焕玲著北京:电子工业出版社,2013.8 ISBN 978-7-121-21256-7.基 .唐 .文字处理研究 .TP391.1 中国版本图书馆 CIP 数据核字(2013)第 188126 号 责任编辑:张 京 文字编辑:薄 宇 印 刷:装 订:出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本:9001 280 1/32 印张:5.875 字数:205 千字 印 次:2013 年 8 月第 1 次印刷 定 价:29.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。服务热线:(010)88258888。三河市鑫金马印装有限公司三河市鑫金马印装有限公司 前 言 文本分类(Text/Document Categorization)是指按照预先定义的主题类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程。文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。数据挖掘技术在信息检索、邮件过滤、Web 个性化服务等领域的成功应用均在一定程度上依赖于准确的文本分类技术。因此,文本分类技术的相关研究一直是近年来国际学术界的研究热点。本书对文本分类的关键技术进行了概述,阐述了基于半监督学习和集成学习的国内外相关研究,重点对基于半监督学习和集成学习的文本分类方法进行了深入探讨。本书的第 1 章介绍了研究背景、文本分类及其面临的问题,阐述了基于半监督学习和集成学习的文本分类方法的研究意义和国内外研究现状。第 2章对文本分类的关键技术进行了概述,主要包括文本预处理、文本的表示、特征选择、分本分类方法、实验数据集及分类模型的评估方法。第 3 章分析了特征选择存在的问题,采用信息论中的评估函数量化特征的重要性,调整特征的权值,提出 TEF-WA 权值调整技术;分析比较了文档频率信息增益(Information Gain,IG)、期望交叉熵(Expected cross Entropy)、互信息(Mutual Information,MI)、2统计量(CHI)、文本证据权(Weight of Evidence for Text,WET)和几率比(Odds Ratio)等多种评估函数及实验结果。第 4 章分析了半监督学习中的代表方法 Co-training 算法,提出了利用TEF-WA 技术对 Co-training 改进的算法 TV-SC 和 TV-DC,通过评估两个基分类器之间的差异性,可间接评估两个特征视图的独立性,并通过实验证明了所提方法的有效性。第 5 章针对 Co-training 方法的独立性假设问题,提出 基于半监督与集成学习的文本分类方法 IV 了利用互信息(MI)或 CHI 统计量评估特征之间的相互独立性的方法,构造了一种特征独立模型(MID-Model)。基于该模型提出了特征子集划分方法PMID 算法,以便把不存在自然划分的一个特征集合划分成两个独立性较强的子集,进而提出了改进的半监督分类算法SC-PMID 算法。并且对由 PMID 算法划分得到的两个特征子集之间的独立性进行了理论论证。第 6 章分析了集成学习算法AdaBoost算法不能有效提升Nave Bayesian分类器的原因,提出了基于投票信息熵和多视图的 AdaBoost 改进算法BoostVE 算法,采用基于投票信息熵的样本权重维护新策略,能有效提高 Nave Bayesian文本分类器的泛化能力。理论分析证明改进的 BoostVE 算法的最小训练错误上界优于 AdaBoost。第 7 章基于半监督学习和集成学习,提出了置信度重取样的 SemiBoost-CR 分类模型,给出了基于最大差距和基于相似近邻两种置信度计算方法。实验表明利用少量标注样本和大量未标注样本,SemiBoost-CR 分类模型能够明显提升 Nave Bayesian 文本分类器的性能指标。第 8 章介绍了采用 VC+6.0 实现的中英文文本分类系统 SECTCS,阐述了 SECTCS 系统的原有的功能与新扩展的功能、总体结构、主要的用户界面及操作。本书的研究工作得到了山东省高校智能信息处理重点实验室(山东工商学院)、国家自然科学基金项目(No.61073133,No.61175053,No.61272369,No.61272244)及山东省优秀中青年科学家科研奖励基金计划项目(S2010DX021)的资助,特此表示感谢。唐焕玲 2013 年 3 月 目 录 第 1 章 绪论1 1.1 研究背景及意义1 1.1.1 数据挖掘和文本挖掘1 1.1.2 文本分类及其面临的问题3 1.2 国内外相关研究7 1.2.1 半监督学习 7 1.2.2 集成学习10 1.3 本书内容组织14 第 2 章 文本分类技术概述17 2.1 文本分类预处理17 2.2 文本的表示19 2.3 特征选择21 2.3.1 初始特征选择 22 2.3.2 特征选择算法 22 2.4 文本分类算法24 2.4.1 质心向量分类算法24 2.4.2 K 近邻分类算法26 2.4.3 贝叶斯分类算法27 2.4.4 关联规则分类算法33 2.4.5 支持向量机 33 2.4.6 其他分类算法 37 2.5 实验数据集38 基于半监督与集成学习的文本分类方法 VI 2.6 分类模型的评估方法39 2.7 本章小结41 第 3 章 TEF-WA 权值调整技术42 3.1 特征选择存在的问题42 3.2 TEF-WA 权值调整技术43 3.2.1 TEF-WA 权值调整的基本思想43 3.2.2 各种评估函数的 TEF-WA 权值调整45 3.3 实验结果与分析48 3.3.1 TEF-WA 权值调整的有效性 48 3.3.2 不同评估函数的权值调整52 3.3.3 评估比较62 3.4 本章小结68 第 4 章 结合 TEF-WA 技术的 Co-training 改进算法 69 4.1 Co-training 算法及其存在的问题 69 4.2 基于 TEF-WA 的特征多视图70 4.2.1 TEF-WA 技术70 4.2.2 基于 TEF-WA 的特征多视图 71 4.3 基分类器间的差异性评估 72 4.4 TV-SC 算法与 TV-DC 算法 74 4.5 实验结果及其分析76 4.6 本章小结80 第 5 章 基于特征独立模型的 Co-training 改进算法 81 5.1 特征独立模型82 5.1.1 基于条件互信息的相互独立性82 5.1.2 基于条件2统计量的相互独立性83 5.1.3 特征独立模型 84 5.2 特征子集划分算法 PMID 85 5.3 基于 MID-Model 的改进算法 SC-PMID 88 5.4 实验结果及其分析89 目 录 VII 5.4.1 PMID-MI 与 PART-Rnd 的实验比较90 5.4.2 PMID-CHI 与 PART-Rnd 的实验比较93 5.4.3 PMID-MI、PMID-CHI 和 PART-Rnd 的实验比较 95 5.4.4 SC-PMID-MI、SC-PMID-CHI 和 SC-PART-Rnd 的 实验比较96 5.5 本章小结98 第 6 章 基于投票信息熵和多视图的 AdaBoost 改进算法99 6.1 AdaBoost 算法 100 6.1.1 AdaBoost 算法描述 100 6.1.2 AdaBoost 提升 NB 文本分类器的问题 101 6.2 利用特征评估函数构造多视图 102 6.3 基于投票信息熵的样本权重维护新策略 103 6.3.1 投票信息熵 104 6.3.2 基于投票信息熵的样本权重维护新策略 105 6.3.3 样本权重对 NB 文本分类器的扰动 106 6.4 BoostVE 算法 108 6.4.1 BoostVE 算法描述 108 6.4.2 BoostVE 算法的最小训练错误上界 109 6.5 实验结果及其分析 113 6.5.1 参数 对 BoostVE 算法性能的影响 115 6.5.2 Boost VE 算法与 AdaBoost-MV 算法、AdaBoost 算法的实验比较 118 6.5.3 BoostVE 算法提升 NB 文本分类器的有效性 124 6.6 本章小结 126 第 7 章 结合半监督学习的 SemiBoost-CR 分类模型 128 7.1 SemiBoost-CR 模型的目标函数 129 7.2 未标注样本的置信度 131 7.2.1 基于 K 近邻的置信度 131 7.2.2 基于最大差距的置信度 132 基于半监督与集成学习的文本分类方法 VIII 7.3 基于置信度的重取样策略 133 7.4 样本权重维护策略 135 7.5 SemiBoost-CR 分类算法 136 7.6 实验结果及其分析 137 7.6.1 未标注近邻样本对置信度 conf1的影响 139 7.6.2 两种置信度方法 conf1和 conf2的实验比较 140 7.6.3 topN 和 bottomN 对 SemiBoost-CR 模型的影响 144 7.7 本章小结 154 第 8 章 文本自动分类系统 SECTCS 155 8.1 系统简介 155 8.2 系统总体结构 156 8.3 系统的用户界面 157 8.4 实验数据集 163 8.5 本章小结 165 结束语 166 参考文献 169 第1章 绪 论 1.1 研究背景及意义 1.1.1 数据挖掘和文本挖掘 随着信息技术和网络技术的迅速发展,网络数据规模呈指数增长,Internet 已发展成站点遍布全球的巨大信息服务网络,包含了涉及许多领域的丰富的信息资源。面对内容异构的海量信息,传统的数据分析方法只能获得数据的表层信息,无法获得数据属性的内在关系和隐含的信息,难以适应需求的不断发展。数据挖掘和知识发现(Data Mining Knowledge Discovery in Database,DMKDD)是 20 世纪 90 年代兴起的一门信息技术领域的前沿技术,它是在数据和数据库急剧增长远远超过人们对数据处理和理解能力的背景下产生的。数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则1。知识发现(Knowledge Discovery in Databases,KDD)指识别出存在于数据库中有效的、新颖的、具有潜在效用的、最终可理解的模式的非平凡过程2。数据挖掘是一个交叉学科领域,受多个学科的影响,包括