温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合
字形
特征
任务
老挝
语文
识别
纠错
杨志婥琪
小 型 微 型 计 算 机 系 统 :年 月 第 期 :收稿日期:收修改稿日期:基金项目:国家自然科学基金项目()资助 作者简介:杨志婥琪,女,年生,硕士研究生,研究方向为自然语言处理;周兰江,男,年生,硕士,副教授,会员,研究方向为信息抽取与检索、机器学习和自然语言处理;周蕾越,女,年生,硕士研究生,研究方向为教育经济融合字形特征的多任务老挝语文字识别后纠错杨志婥琪,周兰江,周蕾越(昆明理工大学 信息工程与自动化学院,昆明)(昆明理工大学 津桥学院 电子与信息工程学院,昆明):摘 要:后处理是检测和纠正文字识别后文本中错误的重要步骤,老挝语文字识别结果中存在大量相似字符替换错误及字符断裂、粘连导致的字符插入、删除错误,针对该问题进行分析,该文提出了一种融合字符形状特征的多任务老挝语文字识别后纠错方法 该方法引入基于长短期记忆网络的 模型架构,将老挝字形特征融入模型以辅助模型对相似字符替换错误的纠正,针对文本中插入、删除错误在编码端联合多尺度卷积网络以不同的卷积核大小提取文本的局部特征;再使用语言模型对解码端预测的文本序列与原始文本进行重排名,得到最佳候选;同时,采用多任务学习的方式,以错误检测辅任务优化模型纠错效果,此外,该文以数据增强的方式扩充数据集 实验结果表明,该方法使老挝文字识别的字符错率低至 关 键 词:老挝文字识别后处理;多任务学习;字形特征中图分类号:文献标识码:文 章 编 号:(),(,)(,):,:;引 言老挝语的光学字符识别(,)能缓解老挝语语料匮乏的问题,但目前老挝语文字识别技术尚在起步阶段,老挝语复杂的字符结构特征及图片背景复杂、文字模糊等原因导致老挝文字识别准确率难以提升,识别结果存在错误使得识别后的老挝文本不能直接用于自然语言处理基础任务 因此,对老挝文字识别后的文本进行纠错以减少错误能有效提高老挝文字识别准确率,以及提升老挝文字识别结果在其他任务上的可利用性在先前的老挝文字识别研究中,针对老挝语字符结构复杂导致识别困难的问题进行了相关研究,提升了识别准确率,但识别结果仍存在错误 本文针对先前的老挝文字识别结果进行分析,发现识别结果的错误主要集中在相似字符误识别和字符粘连、断裂导致的识别错误上 因此,本文在老挝语 后处理研究中需要解决上述问题目前,深度学习模型已被应用到 后纠错的研究中,文献中来自荷兰阿姆斯特丹大学的团队提出了 后基于字符级 模型的英文错误校正模型,多层 作为解码器,将校正任务形式化为从拼写错误到目标拼写的翻译,在 后文本校正竞赛中得分最高 由于老挝语是词间无分隔语言,故本文同样基于字符级别建模以:避免分词造成的错误,且序列到序列的模型架构针对本文数据集中错误语句和目标语句存在长度不等的情况是适用的,使用长短期记忆网络(,)建模也能更好地获取老挝长文本的语义信息 但将校正任务形式化为翻译任务,模型容易产生一定程度的误纠,因此借鉴 等人的方法,将语言模型和 模型结合,以修正深度模型产生的错误 此外,谢海华等人采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如“的地得”误用,采取了数据增强方法 同样地,针对老挝语 结果中的高频错误本文生成了相应的数据扩充训练集,以数据增强方式训练模型 叶俊民等人基于预训练语言表征模型(,)建模得到文本的多种语义表示来完成对错误的修正,并将错误检测与错误修正的损失作为整个模型的损失,以此提升模型性能 遗憾的是,模型尚不支持老挝语,但借鉴该方法,本文引入多任务学习的方式,以辅任务的损失值提升模型训练效果本文借鉴前人研究,针对老挝文字识别结果中存在的错误,构建了以 架构为基础的多任务老挝语文字识别后文本纠错模型 首先,本文将融合了字形分类特征的老挝文字识别结果作为编码端输入,对采用 网络以及多尺度卷积网络提取老挝文本的上下文语义表示,并进行线性组合,再通过带有注意力机制的 网络对上下文向量进行解码,对解码端预测序列与原始文本序列用 语言模型比较概率得分,并将概率更大的序列作为最终的文本纠错结果 同时,本文增加辅助任务以检测输入字符序列中的错误字符,通过共享参数的形式优化文本纠错主任务,并以损失值增强模型训练效果本文主要贡献如下:)针对识别后老挝相似字符替换错误的纠正,本文对老挝字符进行字形分类,并将字形特征融入模型,提高了模型对相似字符替换错误纠正的能力)针对识别后老挝字符断裂、粘连导致的插入、删除错误的纠正,本文采用多尺度 网络对编码器进行补充以提升模型对字符插入、删除错误的纠正能力)针对模型的误纠问题,本文引入多任务学习,以错误检测的辅任务优化文本纠错主任务,并且对模型的预测序列与原始文本序列使用语言模型进行排序来决定最佳候选,以改善模型的误纠问题 同时,为防止模型过拟合,本文通过老挝相似字符表及高频粘连、断裂错误字符对进行数据增强工作以扩充训练数据集 相关工作近年来,针对 后纠错和与其类似的文本拼写纠错主要有基于统计规则的方法和基于深度学习模型的方法基于统计规则的方法主要分为错误检测、错误纠正两步通常是使用混淆集定位错误位置,并将混淆集作为纠正候选集,通过语言模型计算经不同纠正候选替换后的句子概率,得到使句子概率最高的词,即为纠正词 文献对蒙古文字形编码和国际标准编码一一对应整理成编码转换词典以实现对蒙古文字识别的后处理;文献通过改进的 算法对多候选字列表进行权重生成并排序,再利用汉字知识图谱辅助对 识别时的错误规则进行预测;等人基于 的在线拼写建议来检测和校正英文 非单词和真实词错误;等人基于频率统计学上的显著差异和定性分析产生错误列表,并将纠错规则定义为正则表达式以匹配错误,并将其替换为正确形式;等人将 后文本与词典中的单词进行匹配以生成完整的单词,进一步提高单词识别率;后文本校正竞赛中来自焦特布尔的团队提出采用基于字典的方法,基于编辑距离生成一组候选有效词,候选词的排名基于通过字符 混淆矩阵捕获的错误模型给出的可能性;等人所提出的工作支持向量机分类器从中识别文本,再结合 后处理算法用于纠正识别的药片剂文本中的替换、插入和删除错误基于深度学习的方法已成为目前主流方法 等人使用类似的发音,形状和语义混淆集以提出的基于块的解码方法,并采用全局优化来选择最佳矫正,实验证实该方法对 误差校正是有效的,但上述方法需要较大的混淆词典或者音节词典,所需人工工作量较大 文献中来自蒙纳士研究院的团队针对英文真正的单词错误以及非单词错误,在解码器输出中使用光束搜索的字符级注意模型;等人提出基于字符表示的具有双向 编码器和注意解码器的序列到序列注意模型针对资源稀缺语言的自动拼写矫正;等人同样采用编码器解码器架构,提出多层卷积网络及门控线性单元()进行编码和解码的神经网络模型,以实现文本的自动校正;等人针对语音识别器做出的错误,提出的纠错模型由编码器中的 个双向 层和解码器中的 个单向 层组成,将残差连接添加到编码器和解码器的第 层,并引入四头注意力机制;张佳宁等人提出一种基于 的语音识别后文本纠错方法,利用 结合语境核心词生成关键词,并使用拼音混淆集结合语义和语境信息对可能出错的词进行纠错基于统计规则的方法速度较慢,语言模型所需混淆集、词典、规则的构建需要花费大量人工工作量,尤其在通用领域使用的混淆集需要涵盖的内容甚多,这是极其困难的任务,且老挝语其本就存在大量相似字符,若构建其混淆词表数量之大不可估计,但语言模型本身对错误定位及错误纠正任务的效果不容忽视 而深度学习方法与基于统计规则的方法相比,无需人工提取特征,具有更好的泛化能力,因此,本文采用深度模型对老挝 后文本进行纠错,并结合语言模型对深度模型输出结果进行处理 老挝语 后文本错误及字形特征分析 老挝语 后文本错误本文使用先前研究中基于 改进的老挝文字识别模型作为印刷体老挝文字图片识别的工具 通过对识别结果的分析,发现识别后的文本错误主要集中在 类:相似字符替换错误,字符断裂、粘连导致的非相似字符替换错误及字符插 期 杨志婥琪 等:融合字形特征的多任务老挝语文字识别后纠错 入、删除错误,其中,相似字符替换错误占主要的比重表 错误示例 错误文本正确文本错误类型相似字符替换字符断裂导致替换、插入字符粘连导致替换、删除 本文分析了不同类别的错误,错误示例如表 所示 如:老挝字符“”被错误识别为其相似字符“”,老挝字符“”识别后断裂成字符“”和“”,老挝字符“”和“”识别后粘连成字符“”图 相似字符混淆集获取流程 因此,本文统计出了高频出现的字符断裂、粘连的字符对,并采用 等人的方法获取老挝语相似字符混淆集,方法流程如图 所示 如:随机模糊老挝字符“”的上部,再通过 识别,字符“”即为模糊处理后的 错误结果候选,即可将“”加入到字符“”的相似字符混淆集中 该方法通过 识别得到的错误候选集合是真正在形状上相似的字符混淆集,适用于本文针对 后纠错问题的研究表 部分相似字符及断裂、粘连字符对示例 ,部分相似字符集合部分断裂、粘连字符对 最终将统计得到的相似字符表和高频出现的断裂、粘连的字符对表用于数据增强,使模型针对这两类错误进行训练,以提升模型训练效果,部分示例如表 所示 老挝语的字形特征老挝文字中存在大量相似字符,导致 结果中产生了大量的相似字符替换错误,在对该错误进行纠正时,模型对纠正候选的选择应倾向于当前字符的相似字符集合 因此,本文对老挝文字中相似字符的字形进行了分析,发现老挝相似字符之间往往具有相同的开口方向,如图 所示图 相似字符开口方向示例 故本文根据老挝相似字符开口方向一致的字形特点,将老挝字符根据开口方向分为 个类别,示例如表 所示 在构建本文的纠错模型时,先对需要输入模型的待纠错老挝文本添加字形分类标签,再将老挝文表 部分字形分类示例 开口方向上下左右左右均开口示例开口方向上下均开口无开口 其他上位开口向下上下位无开口示例本字符序列 (,)与字形分类标签序列 (,)在 层进行拼接,如式()所示 将得到的融合字形特征的字符嵌入表示 ()(,)输入到编码器中,使模型更好地学习老挝相似字符之间的相关信息,增大模型预测正确的概率,以提升模型对相似字符替换错误的纠正能力(,)()融合字形特征的多任务老挝语文字识别后纠错 模型结构本文构建的融合字形特征的多任务老挝语文字识别后纠错模型基于 架构进行改进,具体结构如下:)输入层:待纠错老挝文本序列;)预处理层:对待纠错老挝文本进行字形类别标记;)层:将输入的文本序列及字形图 模型结构图 类别标签序列转换为字符向量表示,并在主任务中进行拼接,生成带有老挝语特征的字符向量;)编码层:采用 网络及多尺度 网络分别对字符特征向量进行编码,生成 小 型 微 型 计 算 机 系 统 年隐藏状态向量后组合输入解码层;)解码层:采用带有 注意力机制的单向 网络,传递编码层的隐藏信息,并用 函数预测字符序列的概率分布;)语言模型处理层:通过 语言模型计算预测字符序列和原始输入字符序列的概率,选取概率更大的一个作为模型最终的纠错结果;)多任务学习:在错误检测辅任务中,模型对带有错误标记的待纠错文本序列进行有监督训练,最后得到错误标记的预测序列,辅任务与文本纠错主任务共享网络结构,同时以参数共享方式与主任务共享语义信息,并结合辅助任务的损失函数以提升模型性能 模型结构图如图 所示 模型架构 模型在各种任务中享有巨大的成功,针对其在输入输出序列映射任务中显示出很大的潜力,如机器翻译这种架构不要求输入输出序列具有相同的长度,且设置似乎自然地符合映射输入中的噪声,以使校正预测可以被视为不同的语言,故文本拼写纠错任务可以被视为翻译任务,将可能含有错误的序列 转换为错误更少或不含错误的序列,使得()概率最大化,编码器捕获数据中更高级的语义表示,而解码器将相应的映射输出到目标序列 编码层 编码 网络通过门结构来解决 网络对数据学习长期依赖信息困难的问题,使用 作为编码器,输入的每个序列的向量集合表示为到目前为止读取的序列中的所有字符的含义 而 则是将输入的老挝文本序列的前向语义向量(,)和后向语义向量(,)做拼接,从而得到包含上下文语义信息的序列表示 ,因此