第66卷第22期2022年11月基于深度学习的古籍文本自动断句与标点一体化研究∗■袁义国1李斌1,2冯敏萱1贺胜1王东波31南京师范大学文学院南京2100972南京师范大学数字与人文研究中心南京2100233南京农业大学信息管理学院南京210095摘要:[目的/意义]中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程]通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa⁃BiLSTM⁃CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论]在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。关键词:自动断句自动标点古籍深度学习数字人文分类号:TP391.1G250DOI:10.13266/j.issn.0252-3116.2022.22.012∗本文系江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”(项目编号:20JYB004)和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21ZD&331)研究成果之一。作者简介:袁义国,硕士研究生;李斌,副教授,博士,通信作者,E-mail:libin.njnu@gmail.com;冯敏萱,副教授,博士;贺胜,副教授,博士;王东波,教授,博士。收稿日期:2022-06-08修回日期:2022-10-16本文起止页码:134-141本文责任编辑:徐健1引言在数字化时代,如何整理并充分研究利用我国浩如烟海的古籍收藏,是一项重要课题。“数字人文”这种新型的跨学科研究范式,可以利用数字技术和自然语言处理等智能方法,通过对文献的数...