情报学报2023年2月第42卷第2期JournaloftheChinaSocietyforScientificandTechnicalInformation,Feb.2023,42(2):150-163融合结构特性的语义增强式古籍句读识别方法研究李佩琪1,2,王昊1,2,任秋彤1,2,范涛1,2(1.南京大学信息管理学院,南京210023;2.江苏省数据工程与知识服务重点实验室,南京210023)摘要数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK(BBiC-externalknowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK(Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。关键词数字人文;古籍文本;句读识别;BERTStudyofAntiquarianPunctuationRecognitionMethodsIncorpo‐ratingSemanticEnhancementwithStructuralPropertiesLiPeiqi1,2,WangHao1,2,RenQiutong1,2andFanTao1,2(1.SchoolofInformationManagement,NanjingUniversity,Nanjing210023;2.JiangsuKeyLaboratoryofDataEngineeringandKnowledgeService,Nanjing210023)Abstract:Theconceptofdigitalhumanitieshasextendedtheconnotationandextensionoftheautomatedprocessingofancienttextsandachievingadeeperunderstandingofthesemanticsofancienttextshasbecomeapriority.Therefore,thisarticlefocusesonexploringsemanticenhancementmodelsinrecognizingpunctuationofancienttextstoimprovetheabili‐tyofmainstreamBBiCmodels(BERT-BiLSTM-CRF)tocharacterizethesemanticsofancienttexts.Thisarticlefusesstructuralfeaturestoachieveadeeperrepresentationofthesemanticsofancienttextsfrombothtextandmodeldimen‐sions,proposesaBBiC-EK(BBiC-externalknowledge)modelthatintroduces...