温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
古籍
文本
自动
断句
标点
一体化
研究
袁义国
第 卷 第 期 年 月基于深度学习的古籍文本自动断句与标点一体化研究袁义国 李斌,冯敏萱 贺胜 王东波南京师范大学文学院 南京 南京师范大学数字与人文研究中心 南京 南京农业大学信息管理学院 南京 摘 要:目的 意义中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。方法 过程通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用 在 亿多字的繁体古籍文本语料上完成模型训练。结果 结论在开放测试集左传上,点号标注的 值为 ,断句达到 ;对单个引号的标注 值达到 ,成对引号为 。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。关键词:自动断句 自动标点 古籍 深度学习 数字人文分类号:本文系江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:)和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:)研究成果之一。作者简介:袁义国,硕士研究生;李斌,副教授,博士,通信作者,-:;冯敏萱,副教授,博士;贺胜,副教授,博士;王东波,教授,博士。收稿日期:修回日期:本文起止页码:本文责任编辑:徐健 引言 在数字化时代,如何整理并充分研究利用我国浩如烟海的古籍收藏,是一项重要课题。“数字人文”这种新型的跨学科研究范式,可以利用数字技术和自然语言处理等智能方法,通过对文献的数字化处理并进行数据分析、信息和知识挖掘从而获得新的知识,使碎片化的知识系统化、使隐性化的知识显性化。数字人文研究范式,有助于解决古籍整理研究和出版利用的难题。借助大数据和人工智能,将新技术应用于古籍整理研究,有助于实现关于推进新时代古籍工作的意见中“提升古籍工作质量”“加快古籍资源转化利用”的要求。古籍在刻印的时候不加句读,一方面会导致当代读者难以阅读并理解原始的古籍文本;另一方面,自然语言处理技术通常在以句为单位的语言材料上进行,没有句子划分的古籍文本无法直接进行分词、词性标注、专名识别、机器翻译等后续处理。给古籍施加标点的意义重大,是“整理古籍的第一关”。依靠专家手工地为规模庞大的古籍文本进行断句或添加标点符号是一项极其费时费力的工作。为此,古籍自动断句与标点任务有着广泛的应用前景,是古籍自动处理中最基础的任务。古籍断句是指给古籍施加圈点的传统标点方式,古籍标点是指给古籍施加现代标点符号的整理方式。如图 所示,古籍的断句与标点在加工程度上有所不同,古籍断句只使用一种断句符标明句子或句内的停顿,而古籍标点则使用多种现代汉语标点符号以标明停顿、语气的类型以及某些成分。用于汉语书面语的标点分为点号与标号:点号的基本功能是表示停顿,即承担断句功能,例如逗号、句号、分号、叹号等;标号则是标示某些成分的特定性质和作用,例如引号、书名号、省略号、破折号等。过去,部分古籍自动标点研究是在断句的基础上袁义国,李斌,冯敏萱,等 图书情报工作,():进行的,自动断句的错误会延续到自动标点的过程中,产生错误扩散。现有研究在资源上缺乏标准的数据集,语料繁简体混杂,标点的具体种类也各不相同,给古籍的自动断句与标点技术带来了很大的障碍。因此,本研究通过直接对无断句信息的原始古籍文本自动标注点号和引号,尝试将标点和断句进行一体化分析,在整体上提高两个任务的分析精度和效率。通过建立新的公开数据集和标点分类规范,使得实验具有可对比、可扩展性,从而推动古籍自动处理技术的进步。图 古籍断句与标点 相关研究 面向古籍文本的自动断句与自动标点研究所使用的主流技术,经历了从基于规则的方法,到统计机器学习方法,再到深度学习技术 的转变。总体来看,自动断句与标点研究缺乏标准数据集,现有研究所使用的数据集来源各不相同,诸如农业古籍、论语、至善繁体汉语语料库、中国历代人物传记资料库、二十四史、殆知阁语料库,、四库全书、佛教古籍文本、中华书局经典古籍库等。相关研究所采用的数据集繁简体混杂,有的使用简体古 籍 语 料,有 的 使 用 繁 体 古 籍 语料,少数研究使用了繁简体混合的古籍语料。随着深度学习与计算机硬件的发展,研究所使用的数据集规模不断扩大,但标准数据集的缺乏阻碍了古籍自动断句与标点技术的客观比较和发展。古籍文本自动断句研究 古籍自动断句研究的进展主要依靠机器学习模型的发展。在使用统计机器学习技术的阶段,研究者们通过不断丰富条件随机场(,)模型的特征来提高古籍自动断句的效果,所采用的特征包括:特征,、互信息和 测试差特征、汉字拼音、汉字音韵信息以及词性标注特征等,这一阶段最优断句 值可达。利用深度学习技术进行古籍自动断句的研究,则使用不同的神经网络模型架构以提高断句效果。所使用的模型架构包括:()、()、()微 调 模 型、,、()等。繁体古籍语料上的自动断句 值最好水平约在,还有较大的提升空间。古籍文本自动标点研究 对于古籍自动标点这项多分类任务而言,除了前文提到的数据集差异外,现有研究在标点符号体系上差异也很大,且很少有自动标点研究对古籍标点符号体系进行梳理。除了部分未报告标点符号体系的研究外,大部分研究的标点体系停留在点号层次,缺少标号自动标注研究,。部分研究在实现点号自动标注外,探讨了标号自动标注,但涉及的标号各不相同。在标号自动标注中,有的只探讨了引号的自动标注,有的只探讨了书名号的自动标注。但引号和书名号是成对出现的,现有研究未能充分地利用这一特征。在标点策略上,前人自动标点研究可以分为两大类,一类是采用在断句的基础上再进行标点标注的策略,另一类则是直接对无断句信息的古籍原始文本进行标点的标注,。在使用的模型上,古籍自动标点研究中所使用的神经网络模型包括、,、等。总的来看,针对古籍文本自动断句与标点问题,基于规则的方法不能穷尽所有规则,且只关注词和词组的断句特征,容易忽略句子整体以及句与句之间的关系,且人工总结并设计规则费时费力,效果较差。采用统计机器学习的方法虽然得到一定推进,但仍未达到实用水平,且大多采用少量的语料进行训练和测试,泛化能力不强。得益于古籍人工标点的成果积累,以及深度学习对大规模语料的建模能力,近年来古籍自动断句与标点模型所使用的语料规模大幅提高,推动了效果的提升。但是,古籍文本自动标点,尤其是标号自动标注的相关研究较为稀缺,存在着语料不区分繁简体、标点体系不够完整、数据集划分不够规范、将古籍断句与标点第 卷 第 期 年 月分为两个串行任务等问题,使得古籍自动断句与标点模型的泛化性与实用性不强,也难以在相同的数据集和评测标准之下进行实验评测和客观比较。为了有效解决上述问题,本文明确了古籍文本的标点符号体系,构建了大规模繁体古籍训练集与测试集,采用自动断句与标点一体化的方法,在完成基本标点自动标注的同时,对前人探讨极少的引号自动标注进行了研究。古籍文本自动断句与标点一体化方法与模型 古籍文本标点符号体系 目前古籍标点符号用法没有现行的国家标准,前人研究使用的古籍标点符号体系混杂不一,且很少对采用的标点符号体系进行论证。为了保证古籍标点符号体系的合理性,笔者采用定量分析与定性分析相结合的方法,根据现代汉语标点符号国家标准整理出标点符号集合,统计出它们在大规模古籍语料库中的频率,并结合具体的文本分析最终明确了古籍文本标点符号体系。我国现行的标点符号用法国家标准为标点符号用法();另有两个古籍标点行业标准,包括中华中医药学会发布的 标点规范()与国家新闻出版广电总局发布的 学 术 出 版 规 范 古 籍 整 理()。将现代汉语的标点符号分为点号和标号两类,的古籍标点符号体系中,点号与 保持一致,但标号只保留了引号、书名号、括号、破折号,直接指出,“古籍整理中的点校,标点符号的使用应符合 的规定。”而 中规定的标号包括引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号、分隔号。因此,两个古籍标点行业标准的分歧在于标号的种类,这也是古籍自动标点研究中标点体系的主要分歧。为了明确古籍文本标点符号体系中标号的种类,笔者进行了定量分析,对含有 亿多个字例(包含标点符号)的古籍文本语料库中各类标点符号的出现频率进行了统计,结果如表。这里统计的是成对引号的频次或频率,书名号同理。根据表,除所有点号外,只有引号与书名号这两种标号的频率较高,需要作为古籍自动标点的对象。而省略号、连接号、破折号、分隔号、括号的频率过低,不适合作为古籍自动标点的对象。间隔号的频率虽然很低,但往往与书名号结合使用,其作用是标示书名与篇(章、卷)名之间的分界,标示词牌、曲牌、诗体名和题名之间的分界。因此古籍标点符号体系应当保留间隔号,最终形成的用于自动标点的古籍文本标点符号体系如表 所示:表 训练集各标点符号出现的频次与频率标点符号频次频率逗号,句号,顿号,冒号,双引号,分号,书名号,问号,单引号,叹号,省略号,间隔号,连接号,破折号,分隔号,括号 表 古籍文本标点符号体系类别标点符号形式逗号,句号。顿号、点号冒号:分号;问号?叹号!引号“”标号书名号间隔号 在这个古籍文本标点符号体系中,点号的主要作用是表示停顿,承担断句的功能,兼表语气。而在标号中,引号的主要作用是标示语段中直接引用的内容或需要特别指出的成分,书名号的主要作用是标示语段中出现的各种作品的名称。考虑到古籍中出现的作品名称相对有限,可以结合专名词典帮助解决书名号和间隔号的自动标注,而引号自动标注的难度更大,本文主要实现点号和引号的自动标注。自动断句与标点一体化方法 过去,部分古籍自动标点研究都是在断句的基础袁义国,李斌,冯敏萱,等 图书情报工作,():上进行的,自动断句的错误会延续到自动标点的过程中,产生错误扩散。而本文采用了自动断句与标点一体化方法,直接在无断句的古籍文本上进行自动标点,根据标注出的点号实现自动断句,可以有效减少错误扩散,提高自动断句与标点的效率与精度。本文在实现所有点号的自动标注的基础上,只对标号中引号的自动标注进行了实验。本文采用先进行点号标注再进行引号标注的分步走策略,如图 所示。点号自动标注的对象是没有任何标点的古籍文本,引号自动标注的对象是保留了点号的古籍文本。图 自动标点的分步走策略示意 点号的基本功能是表示停顿,在文本中,点号只能出现在汉字的后面,因此可以直接采用基于字标注的方法完成点号标注。标记集为,分别代表当前字后接的符号种类为汉字、逗号、句号、冒号、分号、问号、叹号、顿号。现有研究采用的引号自动标注方法是为引号设置一种标记“”,且完全基于字标注的方法进行引号标注,这种方法存在缺陷。一方面,引号中的前引号,前面可以没有任何字符,简单采用基于字标注的方法会忽略这种现象。另一方面,引号分为单引号和双引号,只为引号设置一种标记无法解决单双引号的区分问题,且单引号和双引号可以嵌套使用,有时文本中会出现双引号与单引号紧密相邻的现象,现有的引号标注方法同样无法标注这种现象。为此,本文设计了新的引号标注方法。首先,针对前引号的标注,本文在保持基于字标注方法的基础上,在每个段落的最前端填充一个占位符,这里为了能使占位符被 模型识别,将其设置为。其次,针对单双引号的标注,本文设计了多元引号标记集,为,标记的含义如表 所示。根据以上标注方法,本文的自动断句与标点一体化方法如图 所示。表 引号标注的标记集当前字后接的符号标记汉字“”“”“图 古籍文本自动断句与标点一体化方法 自动断句与标点一体化模型 自动断句与标点一体化模型的 层以 等提出的 为训练古汉语字向量表示模型的方法,在训练过程中只进行()任务并进行动态掩码。具体模型采用了王东波等构建的(:),其训练语料为约 亿个字例的繁体文渊阁四