基于深度学习的古籍文本自动断句与标点一体化研究_袁义国.pdfVIP免费

下载本文档

阅读 1
下载 0
格式 pdf
大小 1.27 MB
约8页
2023-05-04
收藏
评论
点赞(0)
海报
举报

第６６卷第２２期２０２２年１１月基于深度学习的古籍文本自动断句与标点一体化研究∗■袁义国１李斌１，２冯敏萱１贺胜１王东波３１南京师范大学文学院南京２１００９７２南京师范大学数字与人文研究中心南京２１００２３３南京农业大学信息管理学院南京２１００９５摘要：［目的／意义］中国拥有海量的古代典籍，利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先，将古籍断句与标点分为两个串行任务，会引起错误传递。其次，自动标注的标点也较为混乱，对长距离可嵌套的成对引号标注研究较少。［方法／过程］通过对大规模古籍语料库的标点符号频率统计，结合现有标点符号用法标准，明确古文自动标点的符号体系。根据点号含有断句信息，提出断句标点一体化处理方案，直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符，解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法，采用ＳｉｋｕＲｏＢＲＥＴａ⁃ＢｉＬＳＴＭ⁃ＣＲＦ在１亿多字的繁体古籍文本语料上完成模型训练。［结果／结论］在开放测试集《左传》上，点号标注的Ｆ１值为７７．０９％，断句达到９１．７２％；对单个引号的标注Ｆ１值达到８９．２８％，成对引号为８３．８８％。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果，有效地解决了引号的自动标注问题。关键词：自动断句自动标点古籍深度学习数字人文分类号：ＴＰ３９１．１Ｇ２５０ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０２２．２２．０１２∗本文系江苏省社会科学基金项目“人工智能辅助青少年传统文化教育研究”（项目编号：２０ＪＹＢ００４）和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”（项目编号：２１ＺＤ＆３３１）研究成果之一。作者简介：袁义国，硕士研究生；李斌，副教授，博士，通信作者，Ｅ-ｍａｉｌ：ｌｉｂｉｎ．ｎｊｎｕ＠ｇｍａｉｌ．ｃｏｍ；冯敏萱，副教授，博士；贺胜，副教授，博士；王东波，教授，博士。收稿日期：２０２２－０６－０８修回日期：２０２２－１０－１６本文起止页码：１３４－１４１本文责任编辑：徐健１引言在数字化时代，如何整理并充分研究利用我国浩如烟海的古籍收藏，是一项重要课题。“数字人文”这种新型的跨学科研究范式，可以利用数字技术和自然语言处理等智能方法，通过对文献的数...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容