分享
基于特征融合的无监督跨模态哈希_梁天佑.pdf
下载文档

ID:2251997

大小:1.72MB

页数:8页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 特征 融合 监督 跨模态哈希 天佑
第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于特征融合的无监督跨模态哈希梁天佑,孟敏,武继刚(广东工业大学 计算机学院,广州 510006)摘要:已有的无监督跨模态哈希(UCMH)方法主要关注构造相似矩阵和约束公共表征空间的结构,忽略了 2个重要问题:一是它们为不同模态的数据提取独立的表征用以检索,没有考虑不同模态之间的信息互补;二是预提取特征的结构信息不完全适用于跨模态检索任务,可能会造成一些错误信息的迁移。针对第一个问题,提出一种多模态表征融合结构,通过对不同模态的嵌入特征进行融合,从而有效地综合来自不同模态的信息,提高哈希码的表达能力,同时引入跨模态生成机制,解决检索数据模态缺失的问题;针对第二个问题,提出一种相似矩阵动态调整策略,在训练过程中用学到的模态嵌入自适应地逐步优化相似矩阵,减轻预提取特征对原始数据集的偏见,使其更适应跨模态检索,并有效避免过拟合问题。基于常用数据集 Flickr25k 和 NUS-WIDE 进行实验,结果表明,通过该方法构建的模型在 Flickr25k数据集上 3种哈希位长检索的平均精度均值较 DGCPN 模型分别提高 1.43%、1.82%和1.52%,在 NUS-WIDE数据集上分别提高 3.72%、3.77%和 1.99%,验证了所提方法的有效性。关键词:无监督;跨模态;检索;哈希;深度学习开放科学(资源服务)标志码(OSID):中文引用格式:梁天佑,孟敏,武继刚.基于特征融合的无监督跨模态哈希 J.计算机工程,2023,49(2):90-97.英文引用格式:LIANG T Y,MENG M,WU J G.Unsupervised cross-modal hashing based on feature fusionJ.Computer Engineering,2023,49(2):90-97.Unsupervised Cross-Modal Hashing Based on Feature FusionLIANG Tianyou,MENG Min,WU Jigang(School of Computer,Guangdong University of Technology,Guangzhou 510006,China)【Abstract】Most of the Unsupervised Cross-Modal Hashing(UCMH)methods focus on the construction of a similarity matrix from the pre-extracted features and the structure control of the common representation space.However,two critical problems need to be addressed.First,the complementarity among different modalities is ignored in most studies.Second,the structural information in the pre-extracted features is partially compatible with the cross-modal retrieval task,which may cause a negative transfer.To address the first problem,this study proposes a multimodal fusion architecture.By fusing the embeddings from different modalities,the information from each modal can be integrated effectively;thus,the expressiveness of the hash codes can be improved.It also proposes a cross-modal generation mechanism to serve as an out-of-sample solution for test query data.For the second problem,this study proposes a dynamic updating strategy of the similarity matrix,which adapts it gradually with the learning embeddings in the training procedure to relieve the Bias in pre-extracted features towards the original dataset and make the similarity matrix suitable for the cross-modal retrieval task.Experiments are conducted on two widely used datasets,Flickr25k and NUS-WIDE.Consequently,the proposed method achieved improvements of 1.43%,1.82%,and 1.52%in terms of mAP on the Flickr25k dataset with three different hash code lengths,and 3.72%,3.77%,and 1.99%on NUS-WIDE,which demonstrates the efficacy of the proposed method.【Key words】unsupervised;cross-modal;retrieval;hashing;deep learningDOI:10.19678/j.issn.1000-3428.00638410概述 互联网和自媒体的兴起使得网络上充斥着海量的数据,且数据形式多样而复杂(图像、文本、声音、视频等)。为了能以灵活的方式从庞大的数据库中找到感兴趣的信息,跨模态检索成为一项重要技术,基金项目:国家自然科学基金(62172109)。作者简介:梁天佑(1997),男,硕士研究生,主研方向为跨模态检索;孟敏(通信作者),副教授;武继刚,教授。收稿日期:2022-01-25 修回日期:2022-03-16 Email:人工智能与模式识别文章编号:1000-3428(2023)02-0090-08 文献标志码:A 中图分类号:TP37第 49卷 第 2期梁天佑,孟敏,武继刚:基于特征融合的无监督跨模态哈希近年来引起研究者广泛的研究兴趣。哈希技术因其计算速度快、存储需求低而成为跨模态检索的热门技术,称为跨模态哈希(Cross-Modal Hashing,CMH)。总体而言,CMH 的目标是为每种数据模态学习一个哈希函数,用哈希码对数据进行编码,使得内容相关的数据汉明距离更短。已有的 CMH 研究可以分为 2 类:有监督的跨模 态 哈 希(Supervised CMH,SCMH)1-7和 无 监 督的 跨 模 态 哈 希(Unsupervised CMH,UCMH)8-14。SCMH 方法假设每个训练数据都有相应的人工标注,而这些标注可以导出数据之间真实的相似性关系,从而引导哈希函数的学习。这种设置往往能取得较好的检索性能,但因为标注成本大而难以扩展到大规模数据集。UCMH 方法则不依赖于人工标注,一般借助其他任务的预训练模型进行知识迁移,构造较弱的监督信息(如关系图或相似矩阵)。笔者主要关注 UCMH 方法。虽然近年来这方面研究取得了较好的进展,但现有方法依然存在以下 2 个问题:第一个问题是现有方法在设计哈希函数时,往往为不同模态设置独立的哈希函数,在生成哈希码时只关注单一模态的信息,然而不同的模态数据往往包含互补的信息,例如图像信息可以对场景、物体进行细节描绘,而文本、自然语言更抽象,且可能包含对多个实体、概念之间关系的描述。模态独立的哈希函数并不能有效捕捉并综合这种模态间的互补信息,从而导致生成的哈希码表现欠佳。第二个问题是现有多数方法9-12,14在构造完相似矩阵之后整个训练过程都保持不变,然而生成预提取特征的预训练模型往往是在不同的数据集、用不同的任务进行训练的,因此,预提取特征会带有对原数据集和原训练任务的偏见,其结构信息并非完全适合跨模态检索任务。例如,图像的预训练模型一般都是在 ImageNet15数据集上按分类任务训练的,文本 Word2Vec16模型的 skip-gram和 CBoW 模型也并不是为跨模态检索任务所设计,简单地完全沿用预提取特征的结构信息会带来负面迁移的效果。为解决上述 2 个问题,本文分别提出多模态嵌入融合策略和相似矩阵动态更新策略。为不同模态设置单独的嵌入函数,之后再设置一个嵌入融合模块用于融合来自不同模态的嵌入并生成统一哈希码,从而充分利用不同模态信息。在训练过程中,提出一种对预构建的相似矩阵进行动态更新的策略,在保留预提取特征中有用结构信息的同时,逐步缓解相似矩阵对原数据集和原训练任务的偏见,使其更适合跨模态检索任务,并避免因过度更新导致对训练集过拟合、泛化性能变差的问题,保证在测试集上的泛化性能。最后在 2个常用数据集上对所提出的模型进行实验和分析,验证本文方法的有效性。1相关工作 1.1有监督跨模态哈希传统浅层的跨模态哈希方法使用手工设计的数据特征进行学习。文献 1 将哈希码学习转化为最小化汉明距离分布和标签相关度分布之间的KL散度。文献 2 则构建真实相似矩阵的似然函数并最大化,且使用了非对称的哈希码学习方法。文献 3 也用了非对称的方法,同时把映射矩阵拆分成公共部分和模态独有的部分,挖掘不同模态之间的内在联系。深度学习的兴起使得跨模态哈希得到长足发展。文献 4 是深度跨模态哈希的一个经典工作,其以端到端的方式把表征学习和哈希码学习统一到一个框架内。文献 5 引入标签网络学习多标签表征,从表征和标签2个层面监督哈希函数的学习。文献 6 在进行表征学习时用图卷积网络17建模局部流形结构。文献 7 引入注意力18模块学习表征,并使用非对称的哈希码生成方式。与无监督方法相比,有监督方法一般效果会更好,但往往需要大量的专家标注信息,难以扩展到大规模数据集。1.2无监督跨模态哈希由于没有标签信息,无监督跨模态哈希的一个重要问题是监督信号的构造,一般是利用预提取特征构建关系图或相似矩阵。文献 8 利用对抗学习的思想进行训练,其中判别模型用预提取特征以 k 近邻法构造关系图,将相互连通的数据点视为相关数据。文献 10,12 简单地融合 2个模态预提取特征的距离信息来构造相似度矩阵。文献 9 则在聚合 2个模态的余弦相似度之后,进一步基于扩散过程计算二阶相似性。文献 11 首先融合 2个模态的余弦相似度,然后分别用正态分布和拉普拉斯分布拟合数据对的相似度分布,并利用拟合分布的参数对相似度分级和加权。文献 15 则提出同时考虑余弦相似性和邻域结构。这些方法的问题在于关系图或相似矩阵完全由预提取特征确定,简单沿用预提取特征的结构信息而没有考虑预提取特征对原数据集的偏向,以及原训练任务与跨模态检索任务之间的差异。文献 13 首先用k近邻构建关系图,然后在训练过程中逐步用数据嵌入更新边的权重,但没有考虑邻域结构信息和过度更新可能造成的过拟合问题。现有方法的另一个问题是,各模态的哈希函数是独立的,在生成哈希码时只用到单个模态的数据,无法有效综合多个模态的信息。根据以上分析,现有方法在相似矩阵构造和哈希函数设计 2个方面依然存在不足。下文将详细介绍本文针对这 2个方面的改进。2本文方法 不失一般性,本文考虑图像和

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开