第47卷第1期燕山大学学报Vol.47No.12023年1月JournalofYanshanUniversityJan.2023文章编号:1007-791X(2023)01-0082-07基于改进朴素贝叶斯算法的文本分类研究辛梓铭,王芳*(燕山大学理学院,河北秦皇岛066004)收稿日期:2021-12-13责任编辑:王建青基金项目:河北省自然科学基金资助项目(F2020203105);河北省高等学校科学技术研究项目(ZD2022012);国家自然科学基金资助项目(62073234)作者简介:辛梓铭(1997-),男,黑龙江绥化人,硕士研究生,主要研究方向为数据处理技术;*通信作者:王芳(1984-),女,安徽淮北人,博士,副教授,主要研究方向为数据处理技术和多智能体系统控制,Email:wangfang@ysu.edu.cn。摘要:朴素贝叶斯算法在给定输出类别的情况下,需假设属性之间相互独立,然而现实中这个假设一般不成立,导致在属性个数较多或者属性之间相关性较大时,分类效果不是很理想。为了解决这个问题,本文采用优化的模糊C均值聚类及权重计算方法改进朴素贝叶斯算法。首先,基于JS散度构造类别个数的自适应函数优化模糊聚类算法,利用优化后的算法将文本分类整理。然后,采用词频因子优化的TF-IDF算法计算分类后各样本的特征权重,结合样本权重与贝叶斯公式,进行分类计算。最后,为了体现改进的朴素贝叶斯算法的有效性和优越性,将其与原始朴素贝叶斯算法以及其他改进算法进行对比实验。实验结果表明,改进后的算法有效地降低了朴素贝叶斯模型对特征项独立性的要求,提高了分类决策的准确率,且在分类性能和效率上具有一定的优越性。关键词:朴素贝叶斯;文本分类;模糊聚类;特征权重;独立性假设中图分类号:TP391文献标识码:ADOI:10.3969/j.issn.1007-791X.2023.01.0090引言随着互联网技术的迅猛发展以及大数据时代的到来,文本信息量呈爆炸式增长。如何更快更准确地进行信息检索与数据分类成为重要的问题。文本分类算法是数据挖掘领域的核心内容之一,它根据分类器将数据集中的数据项划分到某一个固定的类别,基本步骤为:文本预处理、索引和词频统计、特征抽取、构造分类器以及对分类结果的评价。文本分类算法包含多种,如支持向量机算法[1]、决策树算法[2]、K近邻算法[3]、神经网络算法[4]、贝叶斯分类算法[5]等等。朴素贝叶斯算法先计算各个样本的先验概率,再利用贝叶斯公式计算各样本属于每一个类的后验概率。该算法高效稳定,常被应用于数据分析:张付志等[6]利用贝叶斯算法对垃圾邮件的过滤进行研究;杨晓花等[7]利用贝叶斯算法...