分享
古农文语义检索模型构建及其应用研究.pdf
下载文档

ID:3437838

大小:1.15MB

页数:11页

格式:PDF

时间:2024-05-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
古农文 语义 检索 模型 构建 及其 应用 研究
2023 年第 35 卷第 7 期古农文语义检索模型构建及其应用研究刘楠竹1,2袁 崔运鹏1,2*袁 王末1,2(1.中国农业科学院农业信息研究所,北京 100081;2.农业农村部 农业大数据重点实验室,北京 100081)摘要院 目的/意义构建能实现以白话文作为查询,系统自动返回与输入最相关的古农文段落的语义检索模型,为学者提供更加便利的古代农业知识检索方式和古代农业知识溯源方式。方法/过程使用基于四库全书作为训练语料的 SikuBERT 作为基础模型,基于对比学习的方法,使用自建的古农文数据集对模型进行继续训练,得到能够支持使用白话文作为查询,返回与查询语义最相似的古农文段落的语义检索模型。结果/结论古农文语义检索模型的 Spearman 系数在测试集上的表现能够达到 86.51%,较基线模型在测试集上的表现 83.69%有一定程度的提升,在自建的古农文检索测试集上的召回情况渊recallk冤 较基线模型有一定程度提升,模型在古农文上能够有比较好的检索效果。但受限于古农文训练语料规模,模型的训练效果还有很大提升空间。关键词院 古农文;语义检索;对比学习;模型构建;深度学习中图分类号院TP391文献标识码院A文章编号院1002-1248渊2023冤07-0052-11引用本文院 刘楠竹,崔运鹏,王末.古农文语义检索模型构建及其应用研究J.农业图书情报学报,2023,35(7):52-62.收稿日期:2023-05-29基金项目:国家社会科学基金重大项目“中国古农书的搜集、整理与研究”(21&ZD332)作者简介:刘楠竹(1991-),女,硕士研究生,研究方向为图书情报。王末(1987-),男,博士,副研究员,研究方向为农业信息技术、农业知识管理、数据挖掘技术研究*通信作者:崔运鹏(1972-),男,博士,研究员,研究方向为农业信息技术、农业知识管理、数据挖掘技术研究。Email:DOI院10.13998/ki.issn1002-1248.23-03551 引言中国是世界上著名的文明古国之一袁 拥有数千年未曾中断的农耕传统和农业历史袁 中国古农书作为中国传统农业经验知识尧 传统农业生产力和农业历史精髓的主要载体袁 未受到近代西方农学影响前中国人撰写的有关农业生产知识的著作袁 是中国珍贵的历史文化遗产遥 中国古农书中保存有大量资料有待发掘利用袁传统作物栽培技术多半仍在现代农业中改造利用1袁 中国古农书中农业知识的价值并没有随着时代的前进而消失袁 对现代农业中出现的问题依然有切实指导作用遥然而袁 中国古农书由古文写成袁 晦涩且无标点袁 艰深难读袁 普通大众只能望而却步遥 但古农书的价值需要传承和发扬袁 借助机器学习尧 深度学习等技术袁 对古农书中的知识进行挖掘袁 不仅能够方便学界进行研究袁还可以向公众开放服务做知识普及袁 推动优秀文化遗产与当代社会发展的融合袁 实现古农书的跨越式发展遥2017至2022年间袁叶关于实施中华优秀传统文化传承发展工程的意见曳叶中华人民共和国国民经济和研究论文522023 年第 35 卷第 7 期社会发展第十四个五年规划和2035年远景目标纲要曳叶关于推进新时代古籍工作的意见曳 等多个文件都提出要 野深入实施中华优秀传统文化传承发展工程冶野加强文物和古籍保护研究利用冶野提升中华文化影响力冶野挖掘古籍时代价值尧 推进古籍数字化建设冶遥 习近平总书记更是指出袁 要 野让收藏在博物馆里的文物尧 陈列在广阔大地上的遗产尧 书写在古籍里的文字都活起来冶遥为了解学者对中国古代农业书籍的使用需求袁 本研究使用文献调研的方法袁 在知网已发表论文中检索提到 野古农书冶野农业古籍冶 的文章袁 通过对检索结果进行分析找出古农书的使用者和使用需求遥 根据调查袁 对古农书内知识进行研究和直接引用的多为农史研究者尧 农业研究者及相关专业的学生遥 农史研究者在使用古农书时袁 通常会通过目录尧 版本尧 校勘尧 注释尧 考证尧 辨伪尧 辑佚等理论方法来分析尧 整理和研究古农书2,3袁 或是通过考究和利用古代有关农业遗存尧配合古农书上的相关记录研究农业历史4-7袁 需要方便快速的根据主题尧 关键字或相关描述查询到尽量全的8相关古代农文书籍原文遥 农业研究者使用古农书一般为现代农业发展中出现了问题袁 需要对照现代农业的问题袁 从古农书中查询相关问题在历史上出现的缘由尧时间尧 地点尧 解决方法尧 相关政策等信息袁 进行借鉴学习9-11袁 最终推出新的农业模式袁 也需要通过现代文的描述查找古农书中的相关内容遥目前中国专门的古农书数据库有以下几个院 南京农业大学 野中华农业文明网冶袁 提供对 叶齐民要术曳叶农政全书曳 等16本农书的网络检索服务袁 可以通过目录关键字尧 书名尧 作者尧 朝代对古农书进行检索12曰南京农业大学 野中国农业遗产信息平台冶 提供200余种农业古籍的分类浏览检索和全文检索13曰 中国农业大学图书馆对几部经典农书如 叶齐民要术曳叶陈敷农书曳 等进行数字化处理袁 构建古农书图像数据库袁 并做主题标引袁 使读者可根据书名尧 作者尧 版本尧 年代对其进行检索曰 中国农业科学院图书馆 野农业古籍珍藏及全文数字化研究与建设冶 项目袁 提供古籍书目数据库检索和重要农书的全文检索遥 可以看出袁 目前中国古农书的检索方式仍多为关键字检索或全文检索袁想要获得更全面的检索结果袁 就需要通过多轮次的检索并且手动构建极为复杂的检索式袁 更适合对古籍尧古农书有一定了解的学者使用袁 使用门槛较高袁 不能充分理解和适应读者需要遥为丰富中国古代农业书籍中文本内容的知识挖掘利用方式尧 提高知识的深度挖掘能力尧 激活古农书在新时代的传播力和生命力袁 本研究面向古农书的内容信息袁 即古农文袁 做语义检索模型构建及其应用研究遥语义检索指检索系统不再拘泥于用户问题的字面本身袁 而是能精准捕捉到用户问题背后的真正意图袁并以此进行搜索袁 从而更准确地向用户返回最符合的结果遥 目前通过语义检索提高检索效果的实现方式主要有基于统计特征的语义检索尧 本体语义检索和向量语义检索袁 本文使用的语义检索方式为向量语义检索遥使用语义检索进行查询时袁 系统会先通过语义索引模型把用户查询和文档集合分别表示成可以反映其核心特征的向量袁 在高维向量空间中对它们进行索引遥在这个向量空间内袁 语义相似的句子向量距离就比较近袁 从而可以使用余弦相似度尧 曼哈顿距离尧 欧氏距离等方法计算向量间的距离尧 度量用户查询和文档的相似程度袁 找出语义相似的句子袁 最终返回所有潜在的与问句相关的文档列表遥语义检索可以让使用者在未经过专门的检索工具培训情况下使用自然语言输入想搜索的内容袁 而不需构建检索式或使用特定语言来查询遥 若将语义检索应用到农业古籍领域袁 现代农业研究者尧 农史研究者和相关专业的学生等袁 都能够更方便的查询自己感兴趣的内容遥本研究基于BERT模型框架袁 利用 叶齐民要术曳叶氾胜之书曳叶管子地员篇曳叶吕氏春秋上农等四篇曳叶农桑辑要曳叶农政全书曳叶天工开物曳叶亢仓子农道第八曳叶补农书曳叶王祯农书曳 共10本农业古籍中的文本及其译文的平行语料袁 构建可实现从白话文到古农文的语义检索模型袁 即能够实现输入白话文尧 系统自动返回所有与输入句子相关的古农文段落的语义检索模型袁 为学者提供更加便利的古代农业知识检索方式和古代农业知识溯源方式遥 其使用场景为院 学者在刘楠竹,崔运鹏,王末古农文语义检索模型构建及其应用研究532023 年第 35 卷第 7 期写作时想使用一段古文做引证袁 但忘记了它的原文是什么袁 只记得大概的意思袁 或是在看一本古籍时袁 其中对于某一个方法尧 理念袁 好像以前在哪本古籍中看到过袁 想查一下该方法尧 概念的内容沿袭情况时袁 可以使用语义检索系统袁 直接输入现代文的描述袁 系统自动返回与描述最相关的古文遥2 文献综述2.1 语义检索在工业上由于需要从大型数据库中返回一组相关文档袁 为了平衡搜索效率和效果袁 语义检索通常采用多阶段的排名策略袁 即 野召回和重排冶 策略14,15遥 召回和重排阶段都是通过对查询和文档的相关性进行评估返回文档袁 但根据其目的的不同通常使用不同的模型16遥召回阶段的目标是从庞大的文档库中召回所有潜在的相关文档袁 然后传递给重排阶段遥 在重排阶段袁 由于需要考虑的文档数量较少袁 通常会采用更复杂的排序模型构成重新排序器袁 使用1个或多个重新排序器对已召回的文档进行排序袁 每个重新排序器接收前一个重新排序器生成的排序列表袁 依次其进行重排袁 最后将最终的重排结果返回给用户遥 因此召回阶段通常优先考虑效率和高召回率袁 重排阶段更多的考虑有效性遥本文主要对古农文语义检索第一阶段召回模型进行研究袁 为方便称呼袁 后续直接称其为古农文语义检索模型遥语义检索的发展分为3个阶段院 基于术语的语义检索尧 基于特征表示阶段和神经语义检索遥语义检索最开始是将查询和文档分别用离散的词袋 渊BOW冤 表示袁 再利用倒置索引技术来管理大规模文档袁 如BM25渊术语匹配+TF-IDF权重冤袁 这种基于术语的检索模式由于其简单的逻辑和强大的索引袁 得到了非常好的召回效果17,18遥 但由于独立性假设袁 它们可能出现词汇不匹配19,20袁 并且由于没有考虑术语出现的序列袁 它们可能不能很好的捕捉到文档的语义21遥为了得到更好的检索效果袁 学者们进行了大量的工作袁 如使用查询拓展22-25尧 文档拓展26-28尧 术语依赖性模型29尧 主题模型尧 基于信息检索的翻译模型等遥但以上方法仍然处在词袋的表征范围内袁 依赖手工制作的特征来建立表示函数袁 旨在用从外部资源或集合本身提取的语义单元来改进经典的词袋表示袁 只能捕捉到浅层的句法和语义信息袁 未能突破其局限性30遥2013年之后袁 随着特征表示学习方法的发展袁 词嵌入技术31-33逐渐被应用到语义检索中遥 与离散的符号表示不同袁 词嵌入是一种密集的表示袁 可以一定程度上缓解词汇的错误匹配问题遥2016年之后袁 随着深度学习技术的发展袁 学者们开始在传统的离散符号表示范式中改进文档表示34,35袁 或在稀疏表示和密集表示范式中直接形成一系列新的语义检索模型36-39袁 一般称之为神经语义检索方法遥 神经检索方式能够通过神经网络建立表示函数和评分函数的检索方式40,41袁 使用词嵌入技术来捕获单词的语义属性袁 并以端到端的方式从数据中学习深层语义和复杂的互动关系遥2.2 相关预训练模型随着深度学习的发展袁 模型参数的数量迅速增加袁需要更大的数据集来完全训练模型参数并防止过拟合42袁但构建大规模的标注数据集是一个巨大的挑战袁 预训练模型可以从容易获得的大规模无标注数据上学习到通用尧 良好的语言表示和更好的初始化参数42袁 然后将这些表示形式用于其他任务遥 由于古文标注资源的稀缺性袁 在做相关方面的研究时袁 需要使用预训练模型来增强模型在低资源环境下的文本处理效果遥目前针对英文和现代文通用领域的语义索引模型已经有了很多的研究袁 在工程上也取得了比较好的效果遥 但是在古文领域袁 由于缺乏大规模纯净的古文及其译文数据袁 构建古文标注训练集成本高昂袁 对数据标注人员具有较高要求42袁 古文领域的预训练语言模型很少遥目前面向古文的预训练语言模型只有北京理工大学阎覃等的GuwenBERT尧 南京农业大学王东波等的SikuBERT和SikuRoBERTa尧WANG的Bert-Antient-Chinese44袁 这4个模型都是以BERT类模型作为基线模型袁 使用不同的训练数据进行训练得到的预训练语DOI院10.13998/ki.issn1002-1248.23-0355研究论文542023 年第 35 卷第 7 期言模型遥 在模型训练上袁GuwenBERT是基于继续训练技术袁 在中文RoBerta的基础上袁 使用殆知阁古文数据 渊包含15 694本古文书籍袁 字符数1.7B袁 所有繁体字均经过简体转换处理冤 进行迁移学习训练出的预训练语言模型袁 能够在简体中文下获得较好的古文处理性能曰SikuBERT和SikuRoBERTa是在中文BERT和中文RoBERTa基础上袁 基于领域适应训练的思想袁 使用繁体 叶四库全书曳 全文语料 渊字数达536 097 588个袁 数据集内的汉字均为繁体中文冤 训练出的面向古文自动处理领域的预训练语言模型袁 该模型更适用于繁体古籍处理曰Bert-Antient-Chinese是在中文BERT的基础上袁 基于领域适应训练的思想袁 结合古文语料进行继续训练得到的面向古文自动处理领域的预训练模型袁 训练时使用涵盖了从部尧 道部尧 佛部尧 集部尧儒部尧 诗部尧 史部尧 医部尧 艺部尧 易部尧 子部作为训练集袁 训练集规模约为 叶四库全书曳6倍大的语料进行继续训练得到的拥有更大词表的预训练语言模型 渊词表大小为38 208袁SikuBERT/SikuRoBERTa为29 791冤袁能够同时适用于繁体和简体遥支持通过向量语义相似度进行从白话文到古文的语义检索的模型只有南京农业大学的BTfhBER和ZHANG的XLsearch-cross-lang-search-zh-vs-classicical-cn遥 在模型训练上袁BTfhBER是在中文BERT的基础上袁 基于二十四史古白平行语料继续训练的古白跨语言预训练模型曰XLsearch-cross-lang-search-zh-vs-classicical-cn是在BERT-base-Chinese的基础上袁 使用约90多万句古白平行句对进行训练袁 得到的古白跨语言模型遥 二者在从白话文到古文的语义文本相似度任务上可以获得较好的效果袁 但在进行从白话文到古农书内文本的语义检索任务时袁 效果仍有欠缺遥3 数据与方法3.1 数据源简介本实验使用自行构建的古农文语义检索数据集袁其中共有古白平行语料数据9 542对袁 其中正例4 771对袁 通过随机采样生成负例4771对袁 共含汉字1535514个袁 所有汉字均为繁体字遥 将句对按8:1:1的比例分成训练集尧 验证集尧 测试集遥模型输入时袁 使用 渊xi袁 xi+袁 xi-冤 的形式袁 向模型输入原句尧 正例和负例袁 使得模型在保证正例间相似度的同时将负例的距离推远遥 最终形成训练集中含三元组数据3 808条袁 测试集和验证集中各含句对952对遥以上数据共来源于10本农业古籍原文及其译文院叶齐民要术曳叶氾胜之书曳叶管子地员篇曳叶吕氏春秋上农等四篇曳叶农桑辑要曳叶农政全书曳叶天工开物曳叶亢仓子农道第八曳叶补农书曳叶王祯农书曳遥 其中袁古农文文本数据来源于殆之阁和国学梦两个国学经典网站袁 对应的译文分别使用梁乐和许蕻翻译尧 巴蜀书社1995年出版的 叶齐民要术白话全译曳袁 韦占彬尧 张春花的 叶农政全书译文曳袁 陈恒力尧 王达的 叶补农书校释曳袁 缪启愉尧 缪桂龙的 叶东鲁王氏农书译注曳袁 国学荟 叶天工开物曳 译文袁 查字典诗词网 叶农桑辑要曳 译文袁 豆瓣如是 叶氾胜之书试译曳袁 华韵国学网 叶吕氏春秋曳 上农等4篇译文袁 书摘天下 叶管子曳 地员篇译文袁天蚨园 叶亢仓子农道第八曳遥最后袁 为了检测模型在召回任务上的性能袁 本实验还使用基于汉语古典文本数据库scripta-sinica进行微调的古汉语问答模型Bloom春华袁 对除上述10本农书之外的其他农书中随机抽取的段落进行翻译袁 构建出用于进行模型召回效果评价的数据集袁 其中共含古白句对477对遥3.2 古农文预训练模型构建本研究构建了一个古农文语义检索模型袁 能够实现使用白话文作为查询袁 检索出数据库中与查询语义相似度最高的 k 个古农文段落的功能遥 实验共分为4个部分院 语料预处理尧 模型训练尧 模型效果评价和语义检索任务测试遥实验先根据10本古农书文本数据及其译文数据的情况进行清洗和数据对齐袁 构建出古白平行语料袁 按照 野8:1:1冶 划分训练集尧 验证集和测试集遥刘楠竹,崔运鹏,王末古农文语义检索模型构建及其应用研究552023 年第 35 卷第 7 期模型训练阶段袁 根据预实验结果对训练参数进行调整袁 使用Pytorch版的SikuBERT模型和SimCSE有监督训练框架袁 在训练集和验证集上完成模型的训练遥在效果评价阶段袁 在测试集上使用文本相似度任务判断模型训练效果袁 再通过语义检索任务分析模型检索性能遥3.2.1训练模型选取BERT渊Bidirectional Encoder Representations fromTransformers冤45是2018年谷歌提出的面向自然语言处理任务的自监督预训练语言模型袁 它使用Transformer的双向编码器结构作为特征提取器袁 为了实现文本的双向建模袁BERT采用一种类似完形填空的做法来实现基于自编码的预训练任务袁 即为掩码语言模型渊MLM袁Masked Language Model冤遥MLM在预训练任务时将输入文本中的部分单词Mask并还原为原单词用以避免双向语言模型带来的信息泄露问题袁 使得模型通过被掩码词周围的上下文信息来还原掩码位置的词袁从而学习上下文敏感的文本表示遥 为了学习两断文本之间的关联袁BERT还通过下一句预测任务 渊NSP袁Next Sentence Prediction冤袁 即通过判断句子B是否是句子A的下一个句子来构建两段文本之间的关系46遥BERT通过掩码语言模型的方法训练词的语义理解能力袁 下一句预测的方法训练句子之间的理解能力袁 使得它能够很好的支持那些涉及句子间语义联系判断尧需要对文本进行深层语义理解尧 需要分析句子语义信息的下游任务47遥 而BERT的 野预训练-微调冶 训练方法也使得只需要对模型的高层参数进行调整袁 就能让模型适应不同的下游任务遥谷歌2018年发布的基础BERT主要适用于英文袁为了拓展其适用范围袁 谷歌后续又发布了使用中文维基百科训练的面向中文的预训练语言模型BERT-Base-Chinese遥SikuBERT43是在中文BERT的基础上袁 基于领域适应训练的思想袁 使用繁体 叶四库全书曳 全文语料渊字数达536 097 588个袁 数据集内的汉字均为繁体中文冤 训练出的面向古文自动处理领域的预训练语言模型遥3.2.2模型训练方法原生BERT在进行语义文本相似性等句子对回归任务时并没有计算独立的句子嵌入袁 而是通过交叉编码器将两个句子拼接成一个序列后传递给Transformer来预测目标袁 这种方式使得它在时间和计算量上都会产生巨大的开销袁 大量的实验也证明了BERT开箱即用地将句子映射到一个向量空间并不适合用于常见的相似度度量 渊如余弦相似度冤袁 直接使用原生BERT会产生很糟的句子嵌入48袁 在语义相似度任务上表现并不好遥SimCSE49是一个简单的对比学习框架袁 通过拉近语义上接近的句子尧 推远语义不相似的句子来增强句子嵌入的学习效率袁 能够极大的提高在语义文本相似度上句向量的质量遥 训练时袁 除了将给出的矛盾数据作为困难负例袁SimCSE还将批次中其它句子作为负例袁 使得在减小相似样本间距离的同时袁 增加不相似样本间的距离袁 提高向量表征遥 例如院 假如一个批次中有N 个三元组句对袁 每个句子就有1个正例和 N 个负例遥 在数据扩充的同时袁SimCSE还通过在训练过程中还通过正例对齐性 渊Alignment冤 和空间一致性渊Uni-formity冤 来衡量词嵌入的学习质量遥 正例对其性能够计算句对嵌入的预期距离袁 空间一致性能够衡量嵌入均匀分布的程度遥 有文章通过实证分析袁 对齐性和一致性与对比学习的目标一致袁 提高空间一致性能够缓解BERT的各向异性遥 一般来说袁 具有更好的正例对齐性和空间一致性的模型可以获得更好的性能遥本文分别使用BERT-Base-Chinese和SikuBERT作为基础模型袁 使用SimCSE有监督训练框架袁 在自建的古农文数据集上进行古农文语义检索模型的训练遥3.2.3模型效果评价指标斯皮尔曼等级相关系数 渊Spearmans Rank Correla-tion Coefficient袁Spearman相关系数 籽冤 是衡量两个变量的依赖性的非参数指标遥 它利用单调方程评价两个统计变量的相关性遥 如果数据中没有重复值袁 并且当两个变量完全单调相关时袁 斯皮尔曼相关系数则为+1或-1遥 即斯皮尔曼相关系数是衡量排名而不是实际分数的袁 更适合评估句子嵌入遥DOI院10.13998/ki.issn1002-1248.23-0355研究论文562023 年第 35 卷第 7 期由于本项目数据集是把句子对进行0尧1打分来区分是否相似的袁 所以在模型效果评价阶段袁 评测指标采用斯皮尔曼等级相关系数袁 即给定句对袁 模型通过计算句子嵌入的余弦相似性和黄金标签之间的斯皮尔曼秩相关性来判断两个句子的语义是否相同遥 对于样本容量为 n 的样本袁 n 个原始数据 X尧 Y 被转换成等级数据 x尧 y袁 相关系数为斯皮尔曼相关系数 籽袁 得分越高说明相关性越高遥指标计算公式如下院Recallk召回率袁 指前TopK结果中检索出的相关结果数和库中所有的相关结果数的比率袁 衡量的是检索系统的查全率遥Recallk=true positiveskall_positive其中true positicesk表示 k 个预测结果中正例的数量袁all_positive表示全库中所有的正例数遥3.2.4模型参数设置古农文语义检索模型训练时袁 使用的参数如表1所示遥4 实验结果及分析4.1 Spearman 系数直接使用SikuBERT和BERT-Base-Chinese对验证集进行模型语义相似度预测时袁 其Spearman系数分别为83.69%和69.52%遥训练后的SimCSE-BERT-Base-Chinese和SimCSE-SikuBERT在古农文模型在验证集上的Spearman系数为86.14%和86.51%袁 相比原始模型在测试集上的表现有较大提升袁 说明模型学习到了相关古农文知识遥4.2 模型效果从表2可以看出袁 训练后的SimCSE-BERT-Base-Chinese和SimCSE-SikuBERT在使用大语言模型Bloom春华进行拓展的测试集上袁 召回效果要强于直接使用基础模型遥由于SimCSE-SikuBERT的整体效果最好袁 所以本实验选择SimCSE-SikuBERT作为古农文语义检索模型遥4.3 检索效果本实验使用SikuBERT和训练后的古农文语义检索模型进行小规模的检索实验遥本实验采用双编码器结构袁 将查询和数据库中的段落分别使用相同的编码器 渊语义检索模型冤 进行独立编码袁 得到稠密表示向量遥 由于语料库中数据较少袁使用余弦相似度计算问题和语料库中所有段落的相似度袁 返回得分最高的2个段落遥在语义检索文档数据方面袁 本项目根据王毓湖超参数 解释 值 max_seq_length 最大输入序列长度 512 train_batch_size 每个批次训练数据大小 16 learning_rate 学习率 2e-5 warmup_steps 预热学习步数 训练集的 10%num_epochs 训练周期 3 表1主要超参数设置Table 1 Main hyperparameter settings模型 Recall1/%Recall5/%Recall10/%SikuBERT mean 81.55 90.15 92.03 BERT-Base-Chinese mean 54.93 70.02 76.73 SimCSE-BERT-Base-Chinese 96.02 98.56 98.96 SimCSE-SikuBERT 96.44 98.74 99.00 表2模型召回效果Table 2 Model recall effect刘楠竹,崔运鹏,王末古农文语义检索模型构建及其应用研究572023 年第 35 卷第 7 期叶中国农学书录曳 记载的中国古农书轶存情况袁 对中国古农书的数字化文本进行搜寻袁 共搜集到108本农书遥为了方便使用搜集到的古农文文本内容进行模型的训练和后续的语义检索袁 本项目对搜集到古农书文本袁即古农文袁 进行整理尧 清洗尧 分段尧 去重袁 最终得到14 133条古农文数据袁 将其作为古农文语义检索模型进行语义检索任务的文档数据遥 通过知网参考文献中有 叶齐民要术曳叶王祯农书曳叶补农书曳 等农业古籍的论文袁 查看作者引用目的袁 准备一些用现代文描述的古代农业技术知识作为查询袁 观察模型在古农文语义检索中的性能遥实验中使用的皆为中文繁体字袁 为方便查看袁 使用OpenCC将查询和检索结果转换成中文简体遥从表3可以看出袁 使用训练过的语义检索模型袁检索出的句子质量更高袁 并且除了现代文对应的古文袁还能够检索出其它意思相近的古文袁 起到知识溯源的效果遥5 结语实验结果表明袁 基于SimCSE框架对基础古文语言模型SikuBERT进行训练袁 能够使模型学习到单词的上下文信息袁 生成句子级的嵌入表达袁 提升语义检索速度袁 且其检索结果较基线模型有一定程度的提升袁能够有效提升在古农文上的语义检索效果袁 验证了双语和反翻译语料库可以为语义相似性学习提供有用的监督袁 基于BERT的 野预训练-微调冶 训练方法在SimCSE结构上是可行的遥受限于古农文语料数据数量及质量袁 使得目前古农文语义检索模型的效果依然不如预期袁 训练时使用的古农文古白句对在词汇重叠上往往比较多袁 这会影响模型的学习效率袁 使得模型在用于搜索时更容易寻找句面相似而非语义相似的句子遥 同时袁 本项目训练时使用的古白数据集是没有困难负例的袁 构造时直接SikuBERT mean SimCSE-SikuBERT Query1:在豆叶落尽的时候要全部收割,或者在豆角青黄相间的时候将植株拔出,扎拢倒置,这样成熟的小豆不受天气影响,颗粒饱满#1 下接力,须在处暑后,苗做胎时,在苗色正黄之时。如苗色不黄,断不可下接力;到底不黄,到底东可下也。若苗茂密,度其力短,俟抽穗之后,每亩下饼三斗,自足接其力。切不可未黄先下,致好苗而无好稻 夫收割之法,待其可收则刈。豆角三青两黄,拔而倒竖笼丛之,则生熟皆均,不畏严霜,从本至末,全无秕减#2 夫收割之法,待其可收则刈。豆角三青两黄,拔而倒竖笼丛之,则生熟皆均,不畏严霜,从本至末,全无秕减 叶落尽,则刈之。叶未尽者,难治而易湿也。豆角三青两黄,拔而倒竖笼丛之,生者均熟,不畏严霜,从本至末,全无秕减,乃胜刈者 Query2:为预防气候变化,应既种早谷,亦种晚谷,不宜只种一种;闰年节季稍晚,应当迟种;在正常年分,应以早种为佳,早种量应超过晚种量的一倍#1 芒种有二义:郑元谓有芒之种。若今黄穋谷是也。一谓待芒种节过乃种。今人占候,夏至小满至芒种节,则大水已过,然后以黄穋谷种之于湖田。然则有芒之种与芒种节候二义,可并用也。黄穋谷自初种以至收刈,不过六七十日,亦可以避水溢之患 凡田欲早晚相杂,防岁道有所宜。有闰之岁,节气近后,宜晚田。然大率欲早,早田倍多于晚田#2 春大豆,次稙谷之后。二月中旬为上时,一亩用子八升;三月上旬为中时,亩用子一斗;四月上旬为下时,亩用子一斗二升。岁宜晚者,五六月亦得;然时晚则种子当稍加,地不求熟故也。尤当及时锄治,使之叶蔽其根,庶不畏旱 防歲道有所宜。有閨之歲,節氣近後宜晚田,然大率欲早,早田倍多於晚 表3语义检索试验结果Table 3 Semantic retrieval experiment resultsDOI院10.13998/ki.issn1002-1248.23-0355研究论文582023 年第 35 卷第 7 期使用其它古农文的译文作为负例袁 这也会导致训练结果无法进一步提升遥 语义检索在构建段落向量时袁 向量受段落组织方式影响较大袁 合适的分段方式可以提高段落被正确检索出的概率袁 若想获得更好的检索结果还需要更合适的古农文信息组织方式遥下一步工作将继续探索合适的训练范式袁 充分利用模型袁 同时探寻将已有的古农史知识融合到模型训练中去袁 达到更好的古农文语义检索效果遥参考文献院1张波.农史研究法M.咸阳:西北农林科技大学出版社,2019.ZHANG B.Agricultural history research method M.Xianyang:Northwest A&F University Press,2019.2葛小寒.文献尧 史料与知识要要要古农书研究的范式及其转向J.中国农史,2019,38(2):12-25.GE X H.Text,history date and knowledge-The paradigms of an鄄cient agricultural booksresearch in agricultural history of ChinaJ.Agricultural history of China,2019,38(2):12-25.3何凡能,李柯,刘浩龙.历史时期气候变化对中国古代农业影响研究的若干进展J.地理研究,2010,29(12):2289-2297.HE F N,LI K,LIU H L.The influence of historical climate changeon agriculture in ancient ChinaJ.Geographical research,2010,29(12):2289-2297.4曾雄生.也释野白田冶兼野水田冶要要要与辛德勇先生商榷J.自然科学史研究,2012,31(2):201-208.ZENG X S.An alternative interpretation of Baitian(white field)andShuitian(water field):Discussion with Mr.Xin DeyongJ.Studies inthe history of natural sciences,2012,31(2):201-208.5TANG M,WANG X,HOU K,et al.Carbon and nitrogen stable iso鄄tope of the human bones from the Xiaonanzhuang cemetery,Jinzhong,Shanxi:A preliminary study on the expansion of wheat in ancientShanxi,ChinaJ.Acta anthropologica sinica,2018,37(2):318-30.6刘志国,徐旺生.叶齐民要术曳的盐史信息考探J.中国科技史杂志,2021,42(1):91-99.LIU Z G,XU W S.The information on salt history in the qiminYaoshuJ.The Chinese journal for the history of science and technol鄄ogy,2021,42(1):91-99.7ZHOU X Y,ZHU L,SPENGLER R N,et al.Water management andwheat yields in ancient China:Carbon isotope discrimination of ar鄄chaeological wheat grainsJ.The holocene,2021,31(2):285-293.8CHEN S C.Exploring the use of electronic resources by humanitiesscholars during the research processJ.Electron libr,2019,37:240-254.9WANG S Y,CUI D A,LV Y N,et al.Cangpu oral liquid as a pos鄄sible alternative to antibiotics for the control of undifferentiated calfdiarrheaJ.Frontiers in veterinary science,2022,9:879857.10 XIA X Y,LIN Z C,SHAO K P,et al.Combination of white tea andpeppermint demonstrated synergistic antibacterial and anti-inflam-matory activitiesJ.Journal of the science of food and agriculture,2021,101(6):2500-2510.11WANG N,LIU X,LI J G,et al.Antibacterial mechanism of thesynergistic combination between streptomycin and alcohol extractsfrom the Chimonanthus salicifolius S.Y.Hu.leavesJ.Journal ofethnopharmacology,2020,250:112467.12 李明杰,陈梦石,孟彬.中国古代科技文献整理出版七十年回望(1949-2019)J.出版科学,2019,27(5):22-29.LI M J,CHEN M S,MENG B.Review on the collation of ancient Chi鄄nese scientific and technological documents in the past 70 yearsJ.Publishing journal,2019,27(5):22-29.13 曹玲,常娥,薛春香.农史研究的新工具要要要中国农业遗产信息平台的设计与构建J.中国农史,2006,25(1):127-133.CAO L,CHANG E,XUE C X.A new tool of agricultural historyresearch-Design and construction of agricultural inheritance in鄄formation databaseJ.Agricultural history of China,2006,25(1):127-133.14 LIU S C,XIAO F,OU W W,et al.Cascade ranking for operationale-commerce searchJ.arXiv:1706.02093,2017.15 PEDERSEN J.Query understanding at beingR.Invited Talk:SIGIR,2010.16 FAN Y X,XIE X H,CAI Y Q,et al.Pre-training methods in infor鄄mation retrievalM.Beijing:Now Publishers,2022.17 CHEN R C,GALLAGHER L,BLANCO R,et al.Efficient cost-awarecascade ranking in multi-stage retrievalC/Proceedings of the 40thInternational ACM SIGIR Conference on Research and Development刘楠竹,崔运鹏,王末古农文语义检索模型构建及其应用研究592023 年第 35 卷第 7 期in Information Retrieval.New York:ACM,2017:445-454.18 LIANG D,XU P,SHAKERI S,et al.Embedding-based zero-shotretrieval through query generationJ.arXiv preprint arXiv:200910270,2020.19 FURNAS G W,LANDAUER T K,GOMEZ L M,et al.The vocabu-

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开