温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
学习
算法
结构
数据
检索
方法
廖祟阳
基于哈希学习算法的非结构化数据检索方法廖祟阳余少锋严鑫钟建栩席凌之(南方电网调峰调频发电有限公司信息通信分公司)摘要:常规的数据检索方法主要根据数据语意划分检索类别,不完整的数据很难根据语意划分,导致检索 值降低。因此,设计了基于哈希学习算法的非结构化数据检索方法。提取非结构化数据的关键词,剔除多余符号与停用词,并对数据中的词频进行分析,便于后续检索。利用哈希学习算法,构建非结构化数据检索模型,将非结构数据按照固有结构检索,并根据相似数据表征剔除相似数据,最大限度地提高数据检索精准度。采用对比实验的方式,验证了该检索方法的 值更高,检索效果更佳,能够应用于实际生活中。关键词:哈希学习算法;非结构化数据;检索方法;关键词;检索模型;值 引言非结构化数据就是不完整或无规则的数据,在检索过程中较为困难。针对此类数据,研究人员设计了多种解决方法。其中,基于 的非结构化数据检索方法,与基于 的非结构化数据检索方法的应用较为广泛。基于 的非结构化数据检索方法,主要是利用开源软件构建数据库,在数据库中对数据进行语义检索,提高检索效率 。基于 的非结构化数据检索方法,主要是利用矩阵分解的方法,将非结构化数据转变为中间变量,从而找出数据间存在的联系,通过相似度计算的方式提高检索效率 。以上两种方法均能够进行数据高效检索,但是检索准确度相对较低。哈希学习算法,主要是利用哈希代码进行学习,利用哈希函数将数据编码,能够提高检索精准度 。因此,本文结合哈希学习算法,设计了非结构化数据检索方法。非结构化数据的哈希学习算法检索设计.提取非结构化数据的关键词数据检索在本质上属于利用相似性查找问题,使用检索方法检索出的数据能够帮助人们快速得到答案 。本文将非结构化的数据按照文本、信息等架构进行分类,提取出来的数据存在大量的符号与词条,不具有代表文本的关键信息 。因此,本文在进行关键词提取的过程中,剔除多余符号与停用词之后,对数据中的关键词出现的频率进行分析,公式如式()所示。()式中,为关键词的词频;为词条 在数据 中出现的次数;为第 类的词条在数据 中出现的次数。值越大,证明该关键词出现在用户的检索中次数较多,对该类数据进行检索更符合用户需求。.基于哈希学习算法构建非结构化数据检索模型本文将上文中提取的关键词,利用哈希算法形成哈希代码,并使用 、位编码的哈希代码表示高维数据,利用低维二进制表示映射函数,通过哈希函数将数据编码成二值,便于后续检索 。检索流程如图 所示。图 哈希检索流程简图如图 所示,图片 可以变换为任意数据,数据则为 中的非结构化数据。将数据 与图片 的语义结合,将关键词作为标签信息,利用哈希代码进行检索 。二值表示的哈希学习存在数据损失,假设、对应的是 、的哈希代码,则损失函数表示为:电气技术与经济 技术与应用 (,)()()()式中,(,)为损失函数;、为损失数据;为汉明距离度量;为 、的数据相似性指标。在此条件下,构建检索模型,表达式如下:()()()(,).,()式中,为检索模型表达式;、为第 个哈希代码;.,为二进制约束。在此模型约束条件下,二进制表征效率更高,关键词检索精准度更高。实验为了验证本文设计的检索方法是否能够应用于实际生活中,本文对上述方法展开了实验。最终的实验结果将文献 基于 检索方法、文献 基于 检索方法,以及本文设计的基于哈希学习算法的检索方法进行对比,保证实验的有效性。.实验过程本次实验在数据集、上进行,并对检索实验有效性进行评估。在实验进行之前,设置了三个实验参数,实验中最大的迭代次数设定为 ,检索方法使用完整的训练集进行实验。其中,、数据集中分别包含了 、个训练样本,可以保证实验的有效性。本次实验选用 与 两类非结构化数据进行检索,在 次迭代之内,对 与 检索任务的收敛情况进行分析,如图 所示。图 与 检索任务的收敛情况如图 所示,检索任务的精度较高,检索任务的精度较低,由此证明,检索任务比 检索任务更快收敛,非结构化数据中存在的相似数据较少。也就是说,检索任务的检索精确度会比 检索任务高。在此条件下,本文对检索方法的 值进行分析,公式如下:()式中,为数据检索方法的均值平均精度;为所有类别数据的检索平均精度;为所有类别;表示为 值,该值越大,检索越精确。.实验结果在上述实验条件下,本文随机选取出两类检索任务,分别为 与 。为了确保实验的准确性,本文将其生成更具有区分性的哈希代码,哈希编码长度为 -、-、-、-。在其他实验条件均一致的情况下,本文将文献 基于 检索方法的 值,文献 基于 检索方法的 值,以及本文设计的基于哈希学习算法的检索方法的 值进行对比。实验结果见表。表实验结果检索任务检索方法哈希编码长度 -文献 方法的 值.文献 方法的 值.本文设计方法的 值.文献 方法的 值.文献 方法的 值.本文设计方法的 值.电气技术与经济 技术与应用 如表所示,值代表均值平均精度,值越高,数据检索精准度越高。本文随机选取两类检索任务,分别为 与 。在其他条件均一致的情况下,检索任务中,文献 基于 的检索方法的 值在.的范围内变化,值相对较低,很难将数据完整地检索出来,影响数据检索效果。文献 基于 的检索方法的 值在 .的范围内变化,值较之文献 方法有所提升,但该值仍在 .以下,数据中存在的相似数据较多,检索效果仍存在问题。而本文设计的基于哈希学习算法的检索方法的 值在 .的范围内波动,值相对较高,更加适应非机构化数据的检索环境。在 检索任务中,上述三种方法的 值均有所提升,而本文设计的基于哈希学习算法的检索方法的 值在 .的范围内变化,值无限趋近于“”。由此证明,使用本文设计的检索方法,检索到的相似性数据较少,数据检索的准确度较高,可以保证实际数据检索的可行性,符合本文研究目的。结束语近些年来,信息化技术发展较为迅速,图像、文本、音频、视频、网络等数据较多,数据存储量较为巨大,很难检索。为了从大量的数据中找出自身需要的数据,就需要进行数据检索。在检索数据的过程中,仅能够将完整的数据检索出来,不完整或不规则的数据检索效果不佳。因此,本文利用哈希学习算法,设计了非结构化数据检索方法。通过检索模型,剔除相似数据,并将不完整的数据根据上下文语意连接起来,使检索准确性更高。参考文献 梁爽,赵宝军,张海霞基于 的海量数据入库及快速检索方法研究 测绘与空间地理信息,():-魏秀卓,赵慧南基于 的多源多模态大数据检索方法研究 计算机仿真,():-许爱东,朱静,蒋屹新,等面向智能电网边缘计算的密文多关键字检索方法 计算机应用与软件,():-,汪芳君,陈富光,谭龙,等一种嵌入式终端日志数据的存储与检索方法 单片机与嵌入式系统应用,():-黄冰倩,卢鹏,岳彩荣基于镶嵌数据集进行海量栅格数据库构建及空间可视化检索方法的探索 林业科技通讯,():-周青云,夏爽,邱钟涛,等基于决策树算法的多级冗余数据智能检索方法研究 电子设计工程,():-,赵鹏,马泰宇,李毅,等融合全模态自编码器和生成对抗机制的跨模态检索 计算机辅助设计与图形学学报,():-(收稿日期:-)电气技术与经济 技术与应用