基于半监督与集成学习的文本分类方法唐焕玲著PublishingHouseofElectronicsIndustry北京·BEIJING内容简介文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。本书重点探讨了利用信息论中的评估函数量化特征权值的方法;基于权值调整改进Co-training的算法;利用互信息或CHI统计量构造特征独立模型,进行特征子集划分的方法;基于投票熵维护样本权重的BoostVE分类模型;融合半监督学习和集成学习的SemiBoost-CR分类模型。其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类,其他算法不仅适用于文本分类,对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。本书适合研究方向为文本挖掘、机器学习的硕士、博士研究生及相关专业技术人员学习和参考。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据基于半监督与集成学习的文本分类方法/唐焕玲著.—北京:电子工业出版社,2013.8ISBN978-7-121-21256-7Ⅰ.①基…Ⅱ.①唐…Ⅲ.①文字处理—研究Ⅳ.①TP391.1中国版本图书馆CIP数据核字(2013)第188126号责任编辑:张京文字编辑:薄宇印刷:装订:出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编100036开本:900×12801/32印张:5.875字数:205千字印次:2013年8月第1次印刷定价:29.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888。质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至dbqq@phei.com.cn。服务热线:(010)88258888。三河市鑫金马印装有限公司三河市鑫金马印装有限公司前言文本分类(Text/DocumentCategorization)是指按照预先定义的主题类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程。文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域,是人类处理海量文本信息的重要手段。数据挖掘技术在信息检索、邮件过滤、Web个性化服务等领域的成功应用均在一定程度上依赖于准确的文本分类技术。因此,文本分类技术的相关研究一直是近年来国际学术界的研究热点。本书对文本分类的关键技术进行了概述,阐述了基于半监督学习和集成学习的国内外相关研究,重点对基于半监督学习和集成学...