第43卷湖北师范大学学报(自然科学版)Vol43第2期JournalofHubeiNormalUniversity(NaturalScience)No2ꎬ2023基于ConceptNet语义的伪相关反馈信息检索方法潘敏1ꎬ刘宇1ꎬ裴全力2ꎬ李腾1(1湖北师范大学计算机与信息工程学院ꎬ湖北黄石435000ꎻ2约克大学信息技术学院ꎬ安大略多伦多M2J4A6)摘要:伪相关性反馈技术在信息检索领域应用广泛ꎬ在考虑词频和逆文档频率等重要特征时ꎬ传统的信息检索方法容易忽略查询词本身的语义信息ꎮ提出了一种基于语义的伪相关性反馈信息检索方法SPRF(Se ̄manticPseudo-RelevanceFeedback)ꎬ充分利用ConceptNet获取语义信息ꎬ不仅考虑了查询词在文档中的词频重要性ꎬ还将查询词的语义信息整合到伪相关反馈框架中ꎬ以改善查询扩展词的选择ꎮ在6个TREC数据集上实验结果表明:SPRF方法对比较强基线模型和几种基于神经网络的方法在P@10和MAP两个指标上具有显著提升ꎮ关键词:ConceptNetꎻ伪相关反馈ꎻ查询扩展ꎻ信息检索中图分类号:TP391文献标志码:A文章编号:2096-3149(2023)02-0028-10doi:10.3969/j.issn.2096-3149.2023.02.0050引言在信息检索的过程中ꎬ用户为了方便ꎬ用作检索的查询词通常很简短ꎬ这增加了系统理解用户的真实意图的难度ꎮ伪相关反馈(Pseudo-RelevanceFeedbackꎬPRF)技术针对上述问题提供了一种可行的解决方法ꎬ大量基于PRF技术的检索模型[1~9]已被证明能帮助检索系统更好地去理解用户的查询意图ꎮ因为自然语言的多样性ꎬ会导致一词多义和多词同义的问题ꎮ考虑查询词的解释词、同义词和属性词能够获得更多信息去帮助选择查询扩展词ꎬ进而提高检索结果的精准度ꎮ因此本文考虑了将ConceptNet知识图谱的信息引入到伪相关反馈的查询扩展词的选择中ꎮ具体来说ꎬ在PRF的基础上将ConceptNet作为查询的外部知识库ꎬ将ConceptNet的语义信息融入到查询词中ꎬ来提升伪相关反馈模型的检索性能ꎮ1相关工作PRF一般从第一轮检索的伪相关文档中选择查询扩展词ꎬ并通过对扩展后的查询词进行二次检索来提高检索系统性能[10]ꎮ1971年Rocchio等人在SMART检索系统中的实验发现了伪相关反馈的有...