电子设计工程ElectronicDesignEngineering第31卷Vol.31第15期No.152023年8月Aug.2023收稿日期:2022-05-25稿件编号:202205179基金项目:国家自然科学基金(61572173)作者简介:刘景霞(1984—),女,河南上蔡人,馆员。研究方向:档案及信息化管理。传统电子档案依靠人工分类,存在效率较低、易出错等缺点[1-2],如何快速且准确地区分档案类型,是档案管理急需解决的重要难题。机器学习方法[3]无法确保提取特征的准确性。文献[4]采用FastText模型对档案进行分类,文献[5]提出了BERT-BiLSTM模型,BiLSTM缺乏对局部语义的学习。文献[6]提出了BERT-CNN模型,CNN提取文本局部特征。文献[7]提出了ERNIE2.0-BiLSTM-Att模型,注意力[8]能有效提升分类性能。以上模型无法完整地捕捉档案语义特征。该文采用ALBERT提取档案文本动态词向量、多通道特征网络捕捉局部语义和序列特征,软注意力负责识别关键特征。融合ALBERT与多通道特征网络的档案数据分类模型刘景霞(河南省驻马店市上蔡县卫生计生监督所,河南驻马店463800)摘要:为解决静态词向量语义表达不准确,传统网络模型特征提取单一等问题,提出了融合ALBERT与多通道特征网络的档案数据分类模型。采用ALBERT轻量级预训练模型提取档案数据文本特征向量,提升词向量语义表达能力;多通道特征网络捕捉不同尺度下的局部和上下文档案语义特征,软注意力机制计算每个特征对分类结果的贡献程度,由线性层输出档案类别。在公开数据集上的实验结果表明,该模型准确率达到了97.51%,优于近期表现较好的BERT-BiLSTM、BERT-TextCNN和ERNIE2.0-BiLSTM-Att深度学习模型。关键词:档案分类;ALBERT;多通道特征网络;时间卷积网络;软注意力中图分类号:TP391文献标识码:A文章编号:1674-6236(2023)15-0006-05DOI:10.14022/j.issn1674-6236.2023.15.002ArchivaldataclassificationmodelintegratingALBERTandmulti⁃channelfeaturenetworkLIUJingxia(HenanZhumadianShangcaiCountyHealthandFamilyPlanningSupervisionInstitute,Zhumadian463800,China)Abstract:Inordertosolvetheproblemsofinaccuratesemanticexpressionofstaticwordvectorandsinglefeatureextractionoftraditionalnetworkmodel,anarchivedataclassificationmodelintegratingALBERTandmulti⁃channelfeaturenetworkisproposed.Lightweightpre⁃trainingmodelALBERTisusedtoextractthetextfeaturevectorofarchivaldatatoimprovethesemantice...