基于哈希学习算法的非结构化数据检索方法_廖祟阳.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 967.07 KB
约3页
2023-07-04
收藏
评论
点赞(0)
海报
举报

２０２３．０３／基于哈希学习算法的非结构化数据检索方法廖祟阳余少锋严鑫钟建栩席凌之（南方电网调峰调频发电有限公司信息通信分公司）摘要：常规的数据检索方法主要根据数据语意划分检索类别，不完整的数据很难根据语意划分，导致检索ｍＡＰ值降低。因此，设计了基于哈希学习算法的非结构化数据检索方法。提取非结构化数据的关键词，剔除多余符号与停用词，并对数据中的词频进行分析，便于后续检索。利用哈希学习算法，构建非结构化数据检索模型，将非结构数据按照固有结构检索，并根据相似数据表征剔除相似数据，最大限度地提高数据检索精准度。采用对比实验的方式，验证了该检索方法的ｍＡＰ值更高，检索效果更佳，能够应用于实际生活中。关键词：哈希学习算法；非结构化数据；检索方法；关键词；检索模型；ｍＡＰ值０引言非结构化数据就是不完整或无规则的数据，在检索过程中较为困难。针对此类数据，研究人员设计了多种解决方法。其中，基于Ｅｌａｓｔｉｃｓｅａｒｃｈ的非结构化数据检索方法，与基于Ｍａｐｒｅｄｕｃｅ的非结构化数据检索方法的应用较为广泛。基于Ｅｌａｓｔｉｃｓｅａｒｃｈ的非结构化数据检索方法，主要是利用开源软件构建数据库，在数据库中对数据进行语义检索，提高检索效率［１］。基于Ｍａｐｒｅｄｕｃｅ的非结构化数据检索方法，主要是利用矩阵分解的方法，将非结构化数据转变为中间变量，从而找出数据间存在的联系，通过相似度计算的方式提高检索效率［２］。以上两种方法均能够进行数据高效检索，但是检索准确度相对较低。哈希学习算法，主要是利用哈希代码进行学习，利用哈希函数将数据编码，能够提高检索精准度［３］。因此，本文结合哈希学习算法，设计了非结构化数据检索方法。１非结构化数据的哈希学习算法检索设计１.１提取非结构化数据的关键词数据检索在本质上属于利用相似性查找问题，使用检索方法检索出的数据能够帮助人们快速得到答案［４］。本文将非结构化的数据按照文本、信息等架构进行分类，提取出来的数据存在大量的符号与词条，不具有代表文本的关键信息［５］。因此，本文在进行关键词提取的过程中，剔除多余符号与停用词之后，对数据中的关键词出现的频率进行分析，公式如式（１）所示。Ｔｉｊ＝ｎｉｊ∑ｋｎｋｊ（１）式中，Ｔｉｊ为关键词的词频；ｎｉｊ为词条ｉ在数据ｊ中出现的次数；ｎｋｊ为第ｋ类的词条在数据ｊ中出现的次数。Ｔｉｊ值越大，证明该关键词出现在用户的检索中次数较多，...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容