小型微型计算机系统JournalofChineseComputerSystemsDOI:10.20009/j.cnki.21⁃1106/TP.2021⁃05892023年3月第3期Vol.44No.320231http://kns.cnki.net/kcms/detail/21.1106.TP.20210420.1049.008.html.收稿日期:2021⁃07⁃23收修改稿日期:2021⁃08⁃25基金项目:国家自然科学基金项目(61662040)资助.作者简介:杨志婥琪,女,1997年生,硕士研究生,研究方向为自然语言处理;周兰江,男,1964年生,硕士,副教授,CCF会员,研究方向为信息抽取与检索、机器学习和自然语言处理;周蕾越,女,1994年生,硕士研究生,研究方向为教育经济.融合字形特征的多任务老挝语文字识别后纠错杨志婥琪1,周兰江1,周蕾越21(昆明理工大学信息工程与自动化学院,昆明650500)2(昆明理工大学津桥学院电子与信息工程学院,昆明650106)E⁃mail:1025162894@qq.com摘要:后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法.该方法引入基于长短期记忆网络的seq2seq模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集.实验结果表明,该方法使老挝文字识别的字符错率低至7.94%.关键词:老挝文字识别后处理;Seq2seq;多任务学习;字形特征中图分类号:TP391文献标识码:A文章编号:1000⁃1220(2023)03⁃0506⁃08ErrorCorrectionAfterMulti⁃taskLaoCharacterRecognitionFusingGlyphFeaturesYANGZhiChuo⁃qi1,ZHOULan⁃jiang1,ZHOULei⁃yue21(Facult...