刘博宁_计算机技术.pdfVIP免费

下载本文档

阅读 0
下载 0
格式 pdf
大小 614.89 KB
约11页
2024-05-16
收藏
评论
点赞(0)
海报
举报

/11

自动索引的矢量空间模型综述刘博宁(兰州大学，730001）摘要:在文件检索，或者是存储的实体文件之间比较以及与输入模式（搜索请求）比较的情形下，最好的索引（特征）空间是存储实体之间相距越远越好；在这种情形下，一个索引系统的键值可以用对象空间的密度函数来确定；特别地，检索表现可能与空间密度反相关。基于空间密度的一种计算方法曾经常常用于为文件集合确定合适的索引值。典型的估计结果表明了这个模型的有效性。Abstract:Inthecaseofrelativelywellcomparedwiththeinputmodebetweenentitiesfileretrievalorstorage,thebestindex(feature)spaceisthedistancebetweenthefartherthebetterstorageentity;inthiscase,anindexsystemdensityfunctionkeyscanbeusedtodeterminetheobjectspace;inparticular,thesearchmaybeinverselycorrelatedwiththeperformancespacedensity.Acalculationmethodbasedonthespatialdensityhasbeenoftenusedtodeterminetheappropriateindexvaluesforthecollectionoffiles.Typicalestimationresultsshowtheeffectivenessofthismodel.关键词:自动信息检索；自动索引；文本分析；文件空间1文件空间构造设想一个文件空间由文件Di构成，每一个文件空间由若干个索引项Tj识别；每一个索引项可能会根据文件的重要程度加权，或者将权值减至0或11。在t维相异的索引项出现时，三维的例子或许可以变为t维的。在这种情况下，每个文件Di表示为一个t维矢量Di=(di1,di2,....dit)，dij表示的是第j个索引项的权值。给出两个文件的索引矢量，计算它们之间的相似系数S(Dj，Di)是可能的。S(Dj，Di)反应了对应索引项以及其系数的相似度。这个相似度的大小可能就是这两个矢量的点积，另外一个可能就是相应的两个矢量对之间角度的反函数。当索引项分配了两个完全一样的矢量时，这两个矢量之间的夹角就是0度，产生一个最大的相似度。对于每一个文件标示，并不是在坐标系中用从0开始的完全矢量表示，而是将相关的矢量之间的距离规范化到长度为一来保存的，同时假设单位圆表示矢量在空间表面的投影。在这种情形下，每一个文件可以一个单一的点描述，而这些点可以用相应文件矢量所形成的那片区域区分。具有相似文件索引项的文件用空间中响铃的两个点表示。简而言之，表示两个文件的点之间在空间中的距离与相应的两个矢量之间的相似度成反相关。由于文件空间的构造是索引项以及其权值对文件集合中每一个不同文件分配的一种函数，所以需要考虑一种...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容