温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
多模态
数据
语义
检索
关键技术
研究
研 发 应 用产业创新研究 2023.6 第12 期118基金项目:榆林市科技计划项目“基于多模态数据语义检索的关键技术研究”(项目编号:CXY-2022-95)。作者简介:杜鹏举,男,陕西榆林人,博士研究生在读,副教授;研究方向:应用语言学。基于多模态数据语义检索的关键技术研究杜鹏举(榆林学院外国语学院,陕西榆林 719000)摘要:多模态数据的语义检索指利用多模态数据对不同模态之间的相似性进行度量和排序,最终以满足用户需求为目标的检索过程。多模态数据的语义检索技术是近年来计算机科学和信息科学的研究热点之一。随着互联网技术的快速发展,大数据成为互联网最重要的特征之一,如何在海量、动态复杂的多模态数据中快速地找到用户感兴趣、有价值的信息是一个非常重要和有挑战性的课题。本文主要研究了多模态数据语义检索过程中可能存在的问题和相应解决方案,并对基于这些问题和解决方案所涉及的关键技术进行了详细描述。关键词:多模态数据;语义检索;关键技术一、引言近年来,随着互联网技术的发展,我们生活中已经离不开各种不同的终端设备,手机、电脑、平板等各种电子设备已经成为我们工作和生活中不可或缺的工具,这些电子设备可以帮助我们在工作与生活中节省很多的时间,提升效率。但是随之而来的问题就是这些设备越来越多,各种各样的数据越来越庞大,人们也变得越来越忙碌了。为了更好地管理各种设备上产生的海量数据并方便检索与查询,人们逐渐提出了语义检索技术,多模态智慧搜索可以为用户提供更为便捷化的体验和更加优质有效的服务内容。二、多模态数据分析中面临的问题(一)维数灾难随着计算机的飞速发展,数据分析成为一门科学,并广泛应用于各个领域。但是在大数据时代下,如果我们在分析数据的时候只考虑单一的数据,而忽略了对于数据之间关联对数据的影响,那么这些多模态数据所反映出的规律就有可能是错误的,这也是如今很多数据挖掘工作者经常遇到的问题。例如,通过一个样本来推断另一个样本就有可能出现偏差,因此在做多模态数据挖掘时要想更好地获取高质量的知识并不容易,我们要想获得高质量模型就必须进行维灾管理。维灾管理(FaultManagement)指针对某一特定场景或事件对相关信息流实时控制和管理,以保证其在特定场景或者事件发生时能够正常工作,在进行多模态数据挖掘中所需要做的维灾管理就是为了防止数据异常情况发生而进行的一种维护工作1。文本作为多模态数据存在的广泛的数据形式,文本作为一种非结构化的数据类型,计算机是无法直接对其进行分析,为此需要对其进行特征提取。具体包括分词,分词结果将作为文本的特征变量,需要通过分析获取相应的特征变量的特征数值,如 TF、TF-IDF 等,分词数据也是文本特征变量的维度,尤其是在海量样本中生成的特征维度将达到上万维,这将增大对海量文本特征的分析的难度,面对这一问题,需要有效提升分析效率,降低整体的计算量,避免发生维数灾。(二)复杂图像语义内容在多模态数据分析中,图像是重要的数据来源,我们通常需要将复杂的图像转换成简单明了的形式进行展示。因此,多模态数据分析中往往会出现一种现象,即同一场景中不同的像素点代表了不同的视觉效果,这一现象对处理复杂图像很有帮助,因为如果仅仅对同一场景进行同一视觉效果描述,那么我们很难理解到该图像所反映的真实世界的含义。同时在图像中包含着非常丰富的视觉信息,相较于文本图像更加地直观且丰富,基于神经网络技术的发展,单标签图像分类任务取得了突破性的发展,但是在实际生活中,图研 发 应 用INDUSTRIAL INNOVATION 产业创新研究119片更多的是以多标签的方式存在,这会出现如物体的尺寸变化、物体间遮挡等,在面对多标签、复杂的图像时,计算机很难对其理解,这就导致符合正确、快速地分析出复杂图像语义成为图像识别研究的重点2。三、基于本体的多模态数据标注文本数据处理一般指文本内容的提取、识别和分析处理,其包括三个主要阶段:文本预处理、文本内容分析和文本表达。在处理文本数据的过程中,基于领域本体的文本数据处理技术在文本预处理层面发挥着重要的作用。基于领域本体的文本数据处理技术可以帮助我们快速准确地从文本中提取有用的信息,进行模式识别和智能分析。其基础是本体模型,即将文本描述的知识映射到一种有形的表示模型中,借助本体模型,可以让文本数据做出更加准确的表示,使文本数据更加容易和更加有效地进行处理。文本数据标注是指在研究领域中,由研究者和专业的计算机或信息技术人员,对需要进行训练或模拟计算的文本,在一定范围内(如一定程度),按照特定的标注规范进行规范化,一般是指对特定目标下的文本内容进行标注。文本数据标注包含两个方面:人工标注和自动标注。人工标注主要是为了解决问题所需,也就是通常意义上说的 AI项目里需要做的事。自动标注是一个相对比较新的概念。在中文信息处理领域里,主要指从文本中提取有用内容的任务,例如,基于内容提取的问题;基于数据分析的问题;基于深度学习的问题等。以文档的内容语义信息标注为例,进行算法分析:对标注领域文档进行预处理,如中文分词、去停词,并统计切分好词汇词频,获得高频的核心关键词,组成待标注的关键词集合体,后将领域本体库中的实例词语概念词进行本体映射,在数据库中对待标注的关键词进行检索,并进行关键词集合与本体最底层实例进行匹配,匹配成功将获取实例上层概念。基于本体模型的文本数据处理技术的另一重要应用是中文分词,分词是自然语言处理的基本技术,通过分词,可以将文本分解成独立的词,使文本内容更加易于理解和处理。基于本体的词语分类技术,可以将文本中的每个词语识别出来,并将它们组合起来,以达到简单、有效的分词效果,这样可以更好地分析文本流,并获得用于分析文本数据的更有用的信息。以双向最大匹配算法对文本数据进行处理,这两种切法比较依赖词库,在具体应用中会出现切分词汇歧义现象,为了消除歧义,可以将双向最大匹配算法中的词汇替换为领域本体知识库,以此来减少分词期间语义歧义的问题,进而增强文本数据标注量。文本数据标注技术是基于本体模型的一种技术,它可以用来对文本信息进行语义分析,主要目的是自动将文本信息标注为合适的类型,以便更有效地进行搜索和分析。文本标注技术的核心在于使用本体模型,利用本体中的概念和属性,来进行文本的语义分析,可以根据文本中的词语识别文本的实体及其属性,并根据词语之间的关系,对文本进行语义分析,从而将文本信息标注为合适的类型,以便更高效地进行搜索和分析。当获取到文本数据关键信息的概念语义后,可以对文本数据进行标注,在标注文档中含有文档的基本信息和语义描述信息3。四、基于本体的图像数据处理图像标注是将人们对于图像理解通过标签的方式表现出来,图像内容信息的准确标注,将提升图像检索的精准度,计算机可以帮助理解图像的底层特征属性,如颜色、形状,但是随着发展,人类对图像的理解不再局限于底层特征,更多的是在追求深层次的语义内容,表现为图像的对象、对象之间的关系以及图像场景和情感等内容。图像标注是将图像中的实体及其属性用本体模型表示的过程,其目的是帮助计算机分析和识别图像中的实体,从而实现图像语义分析。例如,可以使用本体模型来描述图像中的实体部件,如人物、物体等,以及它们之间的关系,如位置、颜色等。而且,这些实体部件和它们之间的关系可以被它们的描述和属性(如行为、性格、状态等)精确表示出来,通过图像标注,可以将图像中的实体及其属性转化为有意义及可处理的本体模型,从而使得图像处理更加便捷和准确4。基于本体的图像数据处理是一种将本体模型应用于图像处理的技术,其主要目的是通过利用本体模型对图像信息进行分析,以自动识别图像中的实体及其属性,并根据实体之间的关系,对图像信息进行语义分析,以提取出图像中的隐藏信息。该技术可以有效地利用本体模型中的概念和属性,对图像进行分析和处理,从而更有效地提取图像中的信息,为图像的搜索和分析提供有效的支持。对图像进行语义标注的时候,需要借助图像本体描述的模型构建图像原始数据与属性之间的联系,通过本体标注图像的方式实现图像的语义检索、图像共享以及重用等。图像对象和场景标注是一项为图像内容加上元数据的工作,它主要是采用相关技术将图像中的每一个对象和场景进行分类、描述和标记,从而将图像的内容精确地描述出来。例如,可以应用本体模型对对象进行标注,对人物进行性别判断;可以采用深度学习技术将场景标记为室内、室外、景观等不同类型;可以为图像中不同部位标记不同的位置等。通过图像对象和场景标注,可以将图像中的内容详细描述出来,从而实现图像的语义分析,从而实现更复杂的图像分析、搜索和检索功能。在获得具体的对象语义和场景语义后,就可以对图像进行标注,以此来获得对应的图像语义描述,文档标注可以获得图像基本信息、语义描述信息(语义信息、场景语义信息以及对象空间位置关系等)。研 发 应 用产业创新研究 2023.6 第12 期120五、基于本体的视频数据处理视频标注也是一种为视频内容添加元数据的工作,它是在视频内容的分割、分类和描述的基础上,对视频中的每一帧中的对象和场景进行分类、定位和标记,从而让视频中的内容可以精确地描述出来。使用视频标注可以利用视频序列中每一帧的数据信息,精确地定位和标记每一帧的内容,实现视频的语义分析和复杂的检索功能。基于本体的视频数据处理是一种基于本体的语义技术,它利用本体的结构和语义来分析和描述视频数据,它将视频数据中的相关元素施以逻辑标签,组织并描述视频数据,从而使视频中的信息可以被精确地识别和理解,同时该技术还可以将视频数据与已有的本体知识进行比较,从而发现视频中隐藏的信息。基于本体的视频数据处理技术为跨文化视频信息检索和视频智能分析提供了强大的支持,也为自然语言处理、图像分析、情感分析等视频技术提供了基础支撑。其具体的过程包括对视频进行预处理,将镜头分割,提取关键帧,并对提取后的关键帧图像进行视频的语义标注,在该过程中可以使用高斯混合模型对帧序列图像进行处理,以此来提取对应的前景图像,视频内容的标注也可以视为是对关键帧标注与前景图像标注相结合。镜头分割是基于本体的视频数据处理中的一项技术,旨在将视频中的视频数据,例如动作、表情等分割为一系列独立的画面,这样可以更容易地检查分析并针对特定的应用场景。此外,基于本体的视频数据处理技术还可提取关键帧,通过提取关键帧可以获得视频的外观、结构、连接信息,从而进一步提取视频信息,帮助视频理解和分析。常见的镜头分割包括根据两镜头切换以此来区分突变和渐变两种检测方式,前者可以采用直方图法、像素比较法等,后者则可以使用阈值法、聚类法等。基于本体的视频数据处理将视频中的信息提取为更高层的概念,从而实现更加有效的计算机视觉系统。视频运动目标提取就是其中一种技术,即可以从视频中提取出运动目标,并追踪相关运动。这种技术使用检测器来识别视频中的运动目标,通过检测器可以识别出特定目标的运动轨迹,从而可以对其进行更为精确的分析,如可以借助高斯混合模型的方法对其进行建模,获得镜头内不同时刻下帧序列的图像,对像素点进行特征表示。在获得对应的视频关键帧对象语义后,需要对视频进行相关数据的标注,标注文档有视频基本信息、视频语义描述信息。六、基于本体的多模态数据标注基于本体的多模态数据标注技术主要是通过采用基于本体的技术方法来对多模态数据进行标注,该技术通过建立一种本体,该本体由一组术语和关联构成,这些术语和关联为机器提供了有用的语义知识,有助于改善机器识别系统的准确性和鲁棒性。本体还可以用来构建定义性的多模态信息标注,可以在各种应用中更准确地探测对象的特征和行为。以交通领域本体为例,将交通领域整体划分为七个部分即交通标志、道路以及车辆等,对道路来说包括高速道路、专用车道、机动车道等。对象属性表示实例类与实例类相关联,每个对象属性有对应的领域和范围,在本文构建中,主要创建对象属性drivenIn、above 等,具体的关系属性。多模态数据标注信息表中提供了用于表征多模态数据的多种参数,其中包括信息的类型、格式、来源以及信息的描述信息等。从这些参数中可以得出更多关于多模态数据的深入知识,从而更好地理解数据的含