融合字形特征的多任务老挝语文字识别后纠错_杨志婥琪.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 1.51 MB
约8页
2023-05-07
收藏
评论
点赞(0)
海报
举报

小型微型计算机系统ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓＤＯＩ：１０．２０００９／ｊ．ｃｎｋｉ．２１⁃１１０６／ＴＰ．２０２１⁃０５８９２０２３年３月第３期Ｖｏｌ．４４Ｎｏ．３２０２３１ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２１．１１０６．ＴＰ．２０２１０４２０．１０４９．００８．ｈｔｍｌ．收稿日期：２０２１⁃０７⁃２３收修改稿日期：２０２１⁃０８⁃２５基金项目：国家自然科学基金项目（６１６６２０４０）资助．作者简介：杨志婥琪，女，１９９７年生，硕士研究生，研究方向为自然语言处理；周兰江，男，１９６４年生，硕士，副教授，ＣＣＦ会员，研究方向为信息抽取与检索、机器学习和自然语言处理；周蕾越，女，１９９４年生，硕士研究生，研究方向为教育经济．融合字形特征的多任务老挝语文字识别后纠错杨志婥琪１，周兰江１，周蕾越２１（昆明理工大学信息工程与自动化学院，昆明６５０５００）２（昆明理工大学津桥学院电子与信息工程学院，昆明６５０１０６）Ｅ⁃ｍａｉｌ：１０２５１６２８９４＠ｑｑ．ｃｏｍ摘要：后处理是检测和纠正文字识别后文本中错误的重要步骤，老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误，针对该问题进行分析，该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法．该方法引入基于长短期记忆网络的ｓｅｑ２ｓｅｑ模型架构，将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正，针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征；再使用语言模型对解码端预测的文本序列与原始文本进行重排名，得到最佳候选；同时，采用多任务学习的方式，以错误检测辅任务优化模型纠错效果，此外，该文以数据增强的方式扩充数据集．实验结果表明，该方法使老挝文字识别的字符错率低至７．９４％．关键词：老挝文字识别后处理；Ｓｅｑ２ｓｅｑ；多任务学习；字形特征中图分类号：ＴＰ３９１文献标识码：Ａ文章编号：１０００⁃１２２０（２０２３）０３⁃０５０６⁃０８ＥｒｒｏｒＣｏｒｒｅｃｔｉｏｎＡｆｔｅｒＭｕｌｔｉ⁃ｔａｓｋＬａｏＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎＦｕｓｉｎｇＧｌｙｐｈＦｅａｔｕｒｅｓＹＡＮＧＺｈｉＣｈｕｏ⁃ｑｉ１，ＺＨＯＵＬａｎ⁃ｊｉａｎｇ１，ＺＨＯＵＬｅｉ⁃ｙｕｅ２１（Ｆａｃｕｌｔ...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容