分享
多模态特征融合与词嵌入驱动的三维检索方法_关日鹏.pdf
下载文档

ID:2370272

大小:1.72MB

页数:8页

格式:PDF

时间:2023-05-10

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
多模态 特征 融合 嵌入 驱动 三维 检索 方法 关日鹏
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程多模态特征融合与词嵌入驱动的三维检索方法关日鹏,况立群,焦世超,熊风光,韩燮(中北大学 大数据学院,太原 030051)摘要:在基于点云和图像的三维模型分类检索中,现有特征融合方法忽略了模态内的特征信息和模态间的互补信息,存在融合特征丢失的问题,且分类标签和预测特征之间缺乏高维相关性,检索准确率较低。针对该问题,提出一种多模态特征和词嵌入联合驱动的网络结构,以对三维模型进行分类检索。在特征提取过程中,利用特征提取器提取来自点云和视图的三维模型特征,通过共享空间来对齐不同模态的特征。在模态融合过程中,计算不同模态之间的余弦相似度以增强模态特征,将增强特征进行拼接得到融合特征。在模型特征分类的过程中,通过建立词嵌入模型与分类标签的高维相关性实现三维模型特征的统一表示和分类检索。在 ModelNet10和 ModelNet40数据集上进行实验,结果表明,该网络的平均检索精度均值分别达到 92.9%和 91.5%,可以获取精准的三维模型特征描述符,与 VoxNet、SCIF、MVCNN等检索方法相比,其能显著提高三维模型的检索精度和分类准确率。关键词:三维模型;特征融合;词嵌入;深度学习;特征提取开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(4):101-107,113英文引用格式:GUAN R P,KUANG L Q,JIAO S C,et al.Retrieval method of 3D models driven by multi-modal feature fusion and word embedding J.Computer Engineering,2023,49(4):101-107,113.Retrieval Method of 3D Models Driven by Multi-modal Feature Fusion and Word EmbeddingGUAN Ripeng,KUANG Liqun,JIAO Shichao,XIONG Fengguang,HAN Xie(School of Data Science and Technology,North University of China,Taiyuan 030051,China)【Abstract】In 3D model classification and retrieval based on point clouds and images,the existing feature fusion methods do not consider the feature information in the mode and the complementary information between modes.Additionally,fusion feature loss occurs,no high-dimensional correlation is indicated between classification labels and prediction features,and the retrieval accuracy is low.Hence,a network structure driven by multi-modal features and word embedding is proposed to classify and retrieve 3D models.A feature extractor is used to extract the features of a 3D model from point clouds and views,and the features of different modes are aligned through a shared space.In terms of modal fusion,the cosine similarity between different modes is calculated to enhance the modal features that are then spliced to obtain the fusion features.In terms of model feature classification,a unified representation and classification retrieval of 3D model features is realized by establishing a high-dimensional correlation between the word embedding model and classification label.Experiments on ModelNet10 and ModelNet40 datasets show that the mean Average Precision(mAP)of the network is 92.9%and 91.5%,respectively,and that accurate 3D model feature descriptors can be obtained.Compared with VoxNet,SCIF,MVCNN and other retrieval methods,the proposed method can significantly improve the retrieval and classification accuracies of 3D models.【Key words】3D model;feature fusion;word embedding;deep learning;feature extractionDOI:10.19678/j.issn.1000-3428.0064951基金项目:国家自然科学基金(62106238);山西省回国留学人员科研项目(2020-113);山西省科技成果转化引导专项(202104021301055)。作者简介:关日鹏(1996),男,硕士研究生,主研方向为人工智能、计算机视觉;况立群(通信作者),教授、博士;焦世超,博士研究生;熊风光,副教授、博士;韩 燮,教授、博士。收稿日期:2022-06-10 修回日期:2022-08-01 Email:人工智能与模式识别文章编号:1000-3428(2023)04-0101-07 文献标志码:A 中图分类号:TP391.42023年 4月 15日Computer Engineering 计算机工程0概述 随着计算机辅助设计与计算机视觉的快速发展,三维模型成为继文本、音频和视频之后的又一种重要信息载体1,同时,3D 重构、3D 打印等技术的不断创新也使三维模型的制作变得越来越简便2。三维模型数量快速激增,人工已无法完成对三维模型的大规模检索和匹配,因此,理解、识别和检索三维模型3是 CAD、VR/AR、自动驾驶等诸多应用领域的基础,成为当前的研究热点4-6。为避免重复劳动,众多领域涌现出了三维模型数据库及相应的分类检索技术7。三维模型存在多种模态的表达形式,包括网格、点云、体素、多视图等,针对这些模态数据出现了很多可用于三维分类检索任务的深度学习网络结构8-10。其中,有些深度学习网络直接在三维模型数据上提取特征,如 3D ShapeNets11、VoxNet12、PointNet+13、DGCNN(Dynamic Graph Convolutional Neural Network)14等,但是它们都存在当模型分辨率较高时丢失几何结构信息的问题,性能表现较差。另外一些深度学习网络使用二维图像获得三维模型特征,如 MVCNN(Multi-View Convolutional Neural Networks)15、GVCNN(Group-View Convolutional Neural Networks)16等,它们虽然可以很容易地利用二维卷积神经网络来学习,但都存在相邻视图和偏远视图之间信息传递的问题,在遮挡的情况下可能会检索失败。上述方法都只关注三维模型数据的单一模态,没有充分利用三维模型内在特征和模态之间的互补信息,忽略了不同模态之间的相关性。而在多模态的分类网络中,PVNet(Point-View Neural Network)17、MMFN(Multi-Modal Information Fusion Networks)18等网络忽略了模态内特征信息和模态间的互补信息,存在融合特征丢失、检索准确率较低的问题。此外,在深度学习领域,目前三维模型分类和检索方法基本是从单个模型中获取高维特征数据表示19,缺乏对分类标签和预测特征之间高维相关性的关注。然而在学习模型特征时,由高维向量表示的分类标签对于检索任务极其重要。本文提出一种多模态特征融合与词嵌入联合驱动的三维模型分类检索方法。在特征提取方面,使用 DGCNN 和 MVCNN 网络分别对三维模型的点云特征和视图特征进行提取。引入一个多模态融合网络,有效对齐不同模态的特征,以获得更加鲁棒的三维模型融合特征描述符。为了解决 one-hot编码带来的稀疏性问题,同时使得网络获得更好的泛化能力,以词嵌入的方式对多模态融合分类网络进行指导训练,从而实现三维模型特征的统一表示和分类。1相关工作 目前,三维模型检索领域出现了许多优秀的深度 学 习 模 型,包 括 DGCNN14、MVCNN15等。DGCNN是基于点云模态的代表网络,它通过构建局部邻居图维持局部几何结构,然后将类卷积应用在节点与其邻居相连的边上,通过一个三维空间变换网络、若干个 EdgeConv层以及一个最大池化层来聚合特征,从而提高三维模型的检索精度。基于视图模态分类网络的代表是 MVCNN,该网络首先将三维模型投影成多个二维视图,然后利用共享相同参数的卷积神经网络分别对每个视图进行特征提取,最后利用最大池化层将多个视图聚合成三维模型描述特征。上述网络都只应用于单模态数据集,无法利用不同模态之间的相关性,不能发挥其他模态的优势,而多模态特征融合网络使模态间的特征信息形成互补,可提高检索精度和分类准确率。PVNet17即为利用三维模型点云模态和视图模态进行融合的分类网络,它分别通过 DGCNN 和 MVCNN 对点云和视图进行特征提取,然后利用注意力机制将视图对应的全局特征投影到点云特征的子空间内,得到注意力视图特征,之后将其与点云特征进行融合,得到最终的三维模型特征描述符,以此提高检索精度。在自然语言处理领域,词嵌入是利用语境和语义信息将一维空间嵌入到连续矢量空间,并将其映射成实数域上的矢量。最近几年,在草图的跨域检索任务中,DEY 等20发现通过嵌入外部语义信息有助于语义转移,进而提高检索精度。DUTTA 等21通过自动编码器将文本和层次化的边信息相结合,以提高图像检索精度。DENG 等22通过词嵌入来约束投影特征之间的关系,然后将特征映射到公共空间供后续检索。ZHANG 等23使用条件变形从视觉信息生成语义信息。引入词嵌入可以将标签信息映射成高维矢量,从而提高检索精度,有效解决由 one-hot编码带来的稀疏性问题,增强模型的泛化能力。2三维模型分类与检索方法 本文提出一种多模态特征融合和词嵌入联合驱动的三维模型检索方法,该方法由多模态特征提取、多模态特征融合以及基于词嵌入的融合特征分类 3 个部分组成,其训练框架如图 1 所示。首先通过特征提取器分别提取点云数据和视图数据的三维模型特征,利用公共子空间来对齐不同模态的特征;之后计算两种模态特征之间的余弦相似度,通过增强各模态特征并对增强模态进行拼接,从而获得融合特征;最后引入词嵌入模型对融合特

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开