分享
2015年考研中国人民大学《618信息检索》冲刺串讲及模拟四套卷精讲.pdf
下载文档

ID:3644732

大小:3.26MB

页数:177页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
618信息检索 2015 考研 中国 人民大学 618 信息 检索 冲刺 串讲 模拟 四套 卷精讲
主讲老师:张帆1中国人民大学618信息检索冲刺串讲及模拟四套卷精讲第1讲:冲刺串讲(一)1研究前沿知识点补充1冲刺阶段课程2011年真题解析研究前沿知识点补充22012年真题解析2010年真题解析21、网络环境下信息需求与信息服务 网络环境下信息服务的特点和发展趋势(1)服务范围社会化 信息服务产业化、用户需求社会化、网络资源的组织和共享(2)服务对象个人化 具有针对性(3)服务模式一体化 集咨询、检索、原文提供功能为一体(4)服务内容精品化 重视提供资料的质量和附加值而不是绝对数量(5)服务特色集成化 提供网络资源的全面性、丰富性;满足对不同信息类型和信息媒体多样化的需求(6)服务过程科学化(7)服务层次立体化(8)服务体系网络化3 网络环境下的信息需求(1)信息需求的观念日益更新 市场化、技术化(2)信息需求全面(3)需求量大幅度增加(4)对信息内容的要求越来越高(5)多样化、综合化、社会化、国际化(6)模糊性(7)马太效应、罗宾汉效应4 网络环境下图书馆的发展对策(可类比图书馆、档案馆、博物馆)(1)提供共建共享(2)完善服务设施(3)优化服务资源(4)变革服务模式(5)深化服务内容(信息导航、信息检索、信息鉴别、信息组织、信息管理)(6)转变服务角色 变被动为主动(7)制定数字发展战略(8)发展趋势:IC 信息中心52、知识组织 什么是知识什么是知识?知识是经过浓缩加工、系统化、理论化的信息。因而,知识是信息的一个子集,是信息组织的结果。没有信息组织活动,知识便无法形成。另外,要有效地利用知识,知识也要再组织,这种组织包括按外表特征(如载体形态等)和内容特征进行组织,这种组织既有信息组织的内容也有知识组织的内容,但都属于信息组织,是其重要的构成部分。因而,信息组织活动室知识创造中的基本活动、必经环节。信息组织的质量直接关系到知识的价值,从而直接影响着经济活动的效益。6 知识组织的原理具体说,知识组织的原理可从以下几个方面考察:知识重组(语法学原理):知识重组是知识组织的初级的、重要的方法,是对知识对象的知识因子和知识联系进行语法结构上的重新整合、结果生产出新的知识产品。它包括知识因子的重组和知识联系重组。知识表示(语义学原理):知识表示是将知识对象中的知识因子和知识联系表示出来,便于人们识别和裂解。知识表示是知识重组的前提。知识表示包括采用分类标题引表示法和主题标引表示法表示的知识因子表示法和谓词逻辑表示法、产生式规则表示法、框架式表示法、语义网络表示法表示的知识联系表示法。知识记忆(语用学原理):知识组织最终要为用户认识和记忆,分类法和主题法近似模拟了人脑识记的机理和结构,但要达到较好的效果,还应建立后控词表和利用超文本技术,最重要的是要发展神经网络技术,使知识的重组好表示更接近人脑的记忆原理。7 知识组织的方法知识组织方法多种多样,其中最常用的是依据知识组织的语言学基础,分为语法和知识组织方法、语义知识组织方法和语用知识组织方法:具体的知识组织方法有7种:知识表示、知识重组、知识存检、知识聚类、知识编辑、知识布局和知识监控。9 知识组织的前景由于人们迄今仍未找到语义和语用信息的表示和测度方法,使我们只能借助信息概念和知识因子的字面含义来组织信息知识,这是一种线性的低效率的信息知识表示,用户往往不能有效地识别和记忆,建立在高度发达的信息技术基础上的个人全文检索系统、多媒体异构信息系统、超文本系统和超媒体系统,从不同角度、不同侧面展示信息结构,为知识信息的组织提供了一定的技术支持,使人们有可能超越知识信息组织理论的约束,按知识和信息的逻辑结构来组织知识信息,通过对信息知识进行深层次的揭示和挖掘,以尽量达到完全满足用户需求的目标,这完全改变了传统的知识信息组织模式,形成了知识信息组织、获取、传输和利用新格局。10 1、吸收知识管理理念,注重隐性知识的挖掘 2、摒弃保守的观念,推动知识的共享 3、档案部门要努力形成学习型组织 4、发挥专业优势,做知识管理的积极践行者 总之,面对知识管理的热潮,档案工作者绝不能视而不见,必须清醒地认识到仍我行我素地固守一隅,就会与社会脱节,最终失去自己的专业优势与工作阵地,只有积极主动地吸收新的管理理念、改进工作方法、实现由知识的保管者向知识的提供者的转变,才能提升自己的工作价值,扩大档案工作的影响。知识管理对档案工作的启示113、CIO与CKO比较 CIO 含义:负责制定公司的信息政策、标准、程序的方法,并对全公司的信息资源进行管理和控制的高级行政管理人员,主管信息技术、信息系统等方面的工作,主要关注战略层面、执行层面、沟通层面的问题。职责范围:(1)提供技术:计算机技术资源(2)与用户有关职责:为用户提供设备、软件培训(3)与提供者有关职责:与硬件、软件、服务者提供发展伙伴关系(4)与管理有关职责:制定战略、挖掘信息资源、维护信息安全、制定规章制度(5)与技术有关职责:信息系统的维护。要求:信息技术能力、管理能力、商业运营能力、信息素养。教育方式:高校培养、在职培训。123、CIO与CKO比较 CKOchief knowledge officer 首席知识运营官知识主管 背景:知识经济的实现首先要求企业实施知识管理,一些大企业纷纷设立专职人员负责企业的知识管理工作,是一种全新的企业高级管理职位。含义:由CEO直接任命,思维大胆超前,能够看到CEO的蓝图,并提出切实可行的运作方式,不仅要在公司上层推广知识管理的概念,还要在基层和地方公司推行知识管理的运行。主要任务:传播倡导组织实施知识管理规划,将知识转化为资本,工作范围涉及企业知识库、知识更新、促进企业新知识不断产生。技术要求:(1)技术专家 有利于知识获取、存储、利用和共享。(2)环境专家 以自身的影响力、说服力、演示证明等手段使公司领导层把知识开发、共享和创新视为竞争优势的支柱,进行综合决策,实施全面管理,了解企业愿景、目标、用户需求、能力。企业的知识资源包括:员工知识、客户、组织业务流程、组织结构、文化。133、CIO与CKO比较 区别(1)产生背景:CIO伴随着信息资源管理的发展而产生,CKO是伴随着知识管理的浪潮产生的。(2)对象:CIO解决信息传播问题,CKO解决知识管理与学习的问题。(3)职能:CIO是信息技术与经营管理的组合,CKO是对知识、人员、技术与经营的组合。(4)对信息技术的依赖:CIO技术使根本,CKO依赖没有那么强烈。143、CIO与CKO比较 相同:(1)都利用信息技术(2)两者都是促进企业管理现代化重要因素,都要求其职能扩展到企业的整体经营决策及管理实践之中。154、知识管理与信息管理的关系(提供思路详情看真题)各自含义 管理对象 管理目的:信息管理的目的是信息流的共享和利用,知识管理的目的是知识的发现、创造和利用。终极目的:信息管理是信息的提供和保障,知识管理是提供解决方法和行动方案。涉及领域:信息管理涉及信息资源和信息技术 知识管理涉及信息管理、信息技术和人力资源。165、信息著录与信息标引异同 相同:都是使信息序化的过程,听过解释信息内在及外在的特征,将分散无序的信息重组,规范控制信息流向,以便于用户有效利用。不同(1)对文献分析的内容范围不同著录需要对文献的内容与形式特征进行全面分析以选出所需解释的全部特征,并把它们反映出来,标引则需准确扼要地解释文献的内容特征,为用户提供查找的线索,所以只需分析档案的基本内容。175、信息著录与信息标引异同(2)表达形式不同(根本不同)著录反映它所解释的内容、形式特征,是采用直录的方式,即利用自然语言形成款目直接表述,标引则须语言的转换:用检索语言来表达文献的主题内容,这是两者的根本区别。(3)通俗地说,信息著录是苹果的三维立体图像,而信息标引是将苹果榨成汁进行化学成分分析。18主讲老师:张帆1中国人民大学618信息检索冲刺串讲及模拟四套卷精讲第2讲:冲刺串讲(二)191、用户信息需求问题 分析方法:静态分析社会角色决定,动态分析年龄阶段。个体用户需求特点:全面性、集中性、叠加性、阶段性、马太效应、罗宾汉效应。群体用户(1)某些行业比其他行业更需要信息的支持(从事知识生产的组织)。(2)某个社会组织中某些成员比其他成员更需要信息支持(决策人员)。(3)对重点用户而言既有重点需求又有一般需求。(4)重点需求又有战略需求和日常需求。2202、我国信息政策存在的问题及对策 制定方面(1)内容基本局限在传统科技信息系统建设和工作规范中,缺乏全国性和综合性的信息政策研究(2)没有合理的目标体系(3)与国际衔接能力不强,缺乏兼容性 政策执行方面(1)各管理机构条块分割、各自为政、缺乏统一的协调和领导(2)缺乏完善的信息反馈渠道,不能对出现的问题及时反馈 研究方面(1)信息政策调控能力弱,手段单一(2)信息研究人员素质不高(3)研究基础薄弱,方法陈旧(4)用户参与程度不高3212、我国信息政策存在的问题及对策 对策:(1)确立具有中国国情的信息政策目标(2)扩充信息政策内容(3)加强信息政策评估研究,完善信息政策反馈系统(4)完善信息政策体系(5)建立统一的国家信息政策机构,建立运行保障体系(6)加强信息政策、思想和方法研究(7)信息人员的培养(8)加强与国际化兼容的步伐4223、全文信息检索技术 检索语言的发展:自然语言检索式发展方向,信息检索要走自然语言道路;人工语言不适应网络环境;目前自然语言检索技术虽然有缺点,但人工智能发展可使其逐步达到完善,满足检索的要求。自然语言检索技术包括:关键词索引及以关键词为检索标识的文献题录数据库、全文数据库、搜索引擎及由搜索引擎自动建立的网络资源数据库、自动标引、自动分类。全文检索含义:直接以全文本信息作为要处理对象,并根据数据资料的内容而不是外在特征来实现的信息检索手段。基本工作方式:能够将所有包含检索词的文献搜索出来,不管这个词出现在文献的什么位置,或者说文献中的任意一个词都可以作为检索到该文献的条件。5233、全文检索技术 实现条件:一是需要将最终信息本身输入到计算机里,二是有相应的软件支持(全文信息不仅包括书刊的文字信息而且包括图片、声音、视频信息等各种信息资料)。实现方式:(1)采用自由指定的检索项(如关键词、字符串等)直接与全文文本的一次数据高速对照,进行检索(2)对文本内容中的每个检索项进行位置扫描,然后排序,建立以每个检索项的离散码表为表目的的倒排文档(3)采用超文本模型建立全文数据库,实现超文本检索。操作步骤:第一步是分析待检索的全文本信息,对其进行索引;第二步是实际的检索过程,对用户提出检索请求,全文检索软件根据第一步得到的索引找到检索关键词出现的位置,并将相应的全文本的有关篇章或段落提交给用户。分成两步的目的主要是考虑速度的问题。6243、全文检索技术 国内自主开发的全文检索系统的功能特点主要有:(1)方便灵活的全文存储的全文存储和管理功能。(2)丰富全面的检索方式。包括支持布尔检索、位置逻辑检索等几十种检索方式。(3)系统支持GB国际码、GBK大写字符集码、BIG5繁体字码和多语种处理能力,支持中、日、西、俄及其他东方文字或者图像输入和存储。(4)支持多种格式文档资料和各种多媒体信息的管理和检索。7253、全文检索技术(5)采用数据和索引压缩技术,以提高系统的查询效率,降低空间的膨胀率。(6)支持结构化数据和非结构化话数据的存储,同时实现数字型、日期型、定长和变长字符型、文本型、文档型和多媒体数据型。(7)系统广泛的兼容性。支持目前流行的软、硬件平台中的绝大部分,以保证用户在应用方面具有优势,同时使信息服务系统的水平升级和垂直升级简便易行。(8)采用C/S体系结构,可使系统具有连高的可伸缩性和课选择性,在实际多用户环境中可以获得更高的性能,适合于以网络为中心的计算机模式和Internet应用。8263、全文检索技术 具有直接客观性,所提供存储全文文本的空间,因而能直接检查原始文献或解决问题需要的文献资料,不必进行第二次检索,既直接又保证了客观性。全文数据库的建立,无须专门人员前期进行大量标引工作,只需将已有的档案信息数据加载到全文检索软件平台上即可。用户使用时也无须提供专业化的检索条件。全文检索的广泛适用性,体现在能处理结构化和非结构化的各类文本数据,能够采集各种来源文本。允许适用任意词乃至词的片段并从文本中进行匹配查找,查出文本中全部与检索用词形式相同之处,这可以说是“计算机辅助文本浏览的方式”,是全文检索系统的特长。优势:9273、全文检索技术 语词与概念之间存在着多对多的关系,即:一个语词可以表达多个概念,同时一个概念也可以用不同的词来表达,因此全文检索可能造成大量的漏检。全文检索系统不适应与学科或专业的分类检索要求及一族事物的族性检索要求;越是被论述得多的事物,越难在全文检索系统中得到满意的检索结果。欠缺:10283、全文检索技术 网络时代,新一代自然语言将成为检索语言发展的方向,因此,中文自然语言处理仍然是关键因素,没有领先的中文自然语言处理技术,信息检索就无法在检索效果“质”的方面取得突破。从数据挖掘角度来提高全文检索的查全率和查准率,提供更容易使用的自然语言查询接口,进一步提高链接技术、后控词表技术、自然语言与分类语言相结合的检索技术等完善措施来进一步提高全文检索系统的功能。与其他领域一样,我国中文全文检索技术的研究和系统开发缺乏科学的评价,国际上TREC Conference被认为是最具权威的信息检索技术评测规范,要想得到国际上的认可,就必须参加TREC Conference。总之任何一种功能单纯的检索工具都不能满足多样性的检索要求,只有集成多种检索方法的检索系统才能较好地满足多样性的检索要求。随着相关领域知识的成熟,未来的中文全文检索将最终达到真正的语义、语用、语境层次的智能信息检索。发展方向:11294、置标语言 含义:置标就是给文档中某些具有特殊含义的部分加上标记的过程,置标的符号就是该过程的具体实现,置标一般分为程序性置标和描述性置标。程序性置标是指用专属的指令来执行对文件的处理,关注的是文件呈现的外观,包括对字体的大小、字型、字形、页面、段落注脚以及左右页边距等的设置。描述性置标所关注的是文件的内容或结构要素,而不是文件呈现的版面样式。12304、置标语言 SGML(1)是ISO在1986年所指定的描述文档资料的结构与内容、实现文档交换和共享的国际标准。它是数据描述、数据模型化和数据交换的标准,同时又是一种元语言,是一套可以用来定义其他更专门性标记语言的通用规则。(2)优点:A、有弹性。在SGML中置标是不固定的,用户可以根据自己的理解来添加置标,可以用置标来标识结构非常复杂的文档 B、非专属性。SGML与平台独立,与系统独立,不属于特定的平台和特定的应用系统。可以在不兼容的系统直接进行数据交换,避免数据交换中信息的遗失,撰写的文档能够长期保存。C、信息的再利用性。SGML文件内容可以重复利用,或者被其他的SGML文件使用,不须重新产生新内容,同一份文件可以通过不同的DTD来定义,用不同的样式表现出来。13314、置标语言(3)缺点:A、应用程序不易开发B、SGML文件不易在web上传播,要想传送SGML文件,必须有特定的DTD和样式表C、缺乏商家的支持14324、置标语言 HTML(1)HTML是一种专为WWW网页显示及浏览而设计的简易标记语言,目前是万维网网页支持的标准语言格式。HTML创造出来的文件可在不同的操作平台间移动,可移植性和简易性是HTML的两大特征,HTML文件除了包含文字信息外,还可以包括声音、影像等多媒体信息,而HTML的超链接除了网页内的链接,也包括网页之间的链接。(2)优点:DT D 的设计主要满足在浏览器上显示的需要,因此很多置标更关注信息内容呈现的细节;b.HTML 有内建的样式,所以呈现不需要专门的样式表,使用比较简单方便,但是缺乏灵活性;c.HTML作为WWW中共同的信息描述方式,可以实现不同平台的文档共享;d.HTML 文档是纯文本文件,它可以由UN IX 的vi、DOS的edit、WPS、记事本以及专门的HTML 编辑器等各种各样的编辑工具进行创建,并在WWW浏览器上都可以运行。15334、置标语言(3)局限结构上的局限性:HTML 的置标是固定的,并且是呈现导向的;在信息的利用方面:统一内容要实现不同的呈现形式需要有不同的。Web 版本;信息的交换方面,无法支持精确查询。16344、置标语言 XML(1)XML 的全称是Extensible Markup Language(译为可扩展标记语言),和HTML 一样,XML 也是SGML 的一个子集。XML的目的是要让全球信息网页的信息有一个标准又切实可行的简单标识语言。只不过XML 和HTML 的服务目标和手法不尽相同,HTML 是单一的固定的格式,而XML却是可以扩充的灵活格式;HTML 用来形容展示页面的方法,而XML 是用来形容页面的内容。17354、置标语言(2)特征 XML 具有以下特征:a.结构化。XML 文档将内容与格式分开描述,并利用样式表中的规则集对所描述的内容文档的格式进行严格的说明,这样,XML 的描述就像数据库一样具有了结构性。b.可扩展性。XML 在两个意义上是可扩展的。首先,它允许开发者创建他们自己的DT D,有效地创建可被用于多种应用的可扩展的标签集。其次,使用几个附加的标准,可以对XML 进行扩展,这些附加标准可以向核心的XML 功能集增加样式、链接和参照能力。作为一个核心标准,XML 为可能产生的别的标准提供了一个坚实的基础。18364、置标语言 c.开放性。XML 所采用的标准技术在Web 上是完全开放的,可以免费获得。XM L 文档自身也较为开放,任何人都可以对一个结构良好的XM L 文档进行语法分析,如果提供了DTD,还可以校验这个文档。d.灵活性。XML 的灵活性表现在两个方面:一是XML文档也是纯文本文件,同HTM L 一样,各种编辑工具创建的XML 文档都能被WWW 浏览器所显示;二是XML 允许自定义标签,这种优势使得HTML 应用无法与XML 的应用相比。19374、置标语言SGML、XML、HTML比较2038主讲老师:张帆1中国人民大学618信息检索冲刺串讲及模拟四套卷精讲第3讲:2012年真题解析39真题命题规律(宏观规律)命题大规律 宏观微观 2012年真题(考点分布、真题讲解、重点补充)2011年真题 2010年真题+2010年之前真题冲刺阶段 第三讲2012年真题解析240 历年考过的题还会再考(第二章检索语言每年有题)考试范围突破书上限制 试题分布各章比较均衡(很少一章出现两个题,不过也有重点章节有这个情况)341命题规律(微观)网络信息资源、信息技术成为热点 考研命题与学术研究热点联系紧密(注意学术论文的阅读)信息资源管理、知识管理成为难点(注意查看相关补充)信息共享、信息安全问题受到关注4422012中国人民大学信息资源管理学院专业课考研真题中国人民大学信息资源管理学院专业课考研真题 一、简答:每题20分1、网络资源目录的特点2、参考数据库概念及其分类3、基于图像检索技术(CBIR)的含义及其检索方式4、索引的主要类型 二、论述:每题35分1、都柏林核心元数据和机读目录的比较2、网络环境下分类检索语言的发展543考点分布考点分布 第十章 网络资源目录 第一章 信息检索基础 第六章 计算机信息检索概述 第二章 检索语言 第三章 信息著录和标引 第二章 信息检索语言644一、网络资源目录的特点(信息检索教程P291)注意:网络资源与网络资源目录;特点含优缺点 1、网络资源目录的含义、原理、类型 2、特点:优点;不足 3、主要资源目录举例(可省略,看篇幅大小而定)745二、参考数据库概念及其分类1、指为用户提供信息线索的数据库,它可以指引用户获取原始信息。参考数据库包括书目数据库(Bibliographic Database)和指南数据库(Referral Database)。2、书目数据库包含文摘、目录、题录等书目数据,有时又称为二次文献数据库。书目数据库中的数据来源于各种不同的一次文献,是经过加工和提炼的数据。书目数据库的数据结构比较简单,记录格式较为固定。在联机检索和光盘检索中,有许多书目数据库,可以满足用户回溯检索和定题检索的需要。3、指南数据库是有关机构、人物等相关信息的简要描述。包括各种机构名录数据库、人物传记数据库、产品信息数据库、软件数据库、研究开发项目数据库、基金数据库等。846三、基于图像检索技术(CBIR)的含义及其检索方式(信息检索教程P178 简析图像检索系统中的CBIR技术.pdf注意:该题包括含义和检索方式,但书上相关内容比较少,所以可以把图像的特征、基于图像检索技术的应用也写上。1、传统的图像检索主要基于对图像的描述的检索.,通过与图片描述文字的匹配来实现,其实质是文字检索。2、现在的基于图像的信息检索技术主要依据图像固有内容的特征来标引和检索。图像特征包括图像画面内容特征、图像描述对象特征、图像相关信息、图像移动和组合特征。过程:内容分析,标引索引库-用户检索请求 3、基于内容的图像检索方式主要有:颜色、轮廓、纹理图样查询;草图查询;示例查询。9474、应用目前,比较成功的应用基于内容的图像检索技术的系统有IBM公司的QBIC系统、MIT媒体实验室的Photobook系统、新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统等。1048四、索引的主要类型(信息检索教程P137 P143)1、含义索引是指把一种或多种文献中具有检索意义的内容,包含字、词、句、人名、地名、书名、篇名、主题等,按一定的顺序加以编排并注明出处以供检索的工具,主要包括书目索引、篇目索引、字句索引、主题索引、分类索引、专名索引、引文索引。2、各类索引(含义、特征、举例)1149五、都柏林核心元数据和机读目录的比较(信息检索教程P91;DC元数据与MARC的分析比较.pdf)(一)、DC的概述都柏林核心集,由联机计算机图书馆中心(OLCL)1995年提出,1996年12月定型,是描述网络信息资源的一种简单元数据。它主要由15种元素组成:1-7描述资源内容,8-11描述资源知识产权,12-15描述资源实例。DC主要优点:简单易用、运用灵活、国际通用、可扩展性。(二)、MARC概述机器可读目录。由美国国会图书馆1965年提出。1967年,第二代MARC问世。其主要特点:包括001-999各字段,999字段为自定义字段;字段内容著录详尽;字段作用强化,可检索多字段;每条字段分头标区、目次区和数据区。MARC的典型的有USMARC和CNMARC。1250(三)相同点就某种意义上说,机读目录和都柏林核心元数据都是元数据,在著录文献的相关信息上,都是数据的数据,目的是均将文献的相关信息格式化,它们都是用来描述信息资源的主题、内容特征,并通过著录的信息来提供检索的依据。(四)不同著录对象不同;著录形式不同;著录主体不同;著录详尽程度不同;标识方法不同。1351六、网络环境下分类检索语言的发展(信息检索教程P66)1、信息检索语言面临的网络环境变化信息类型变化;信息数量与质量变化;检索技术变化;信息用户变化。2、网络环境下分类检索语言的发展在形式上,实现了电子化和体系结构的多维化。在内容上,编制方法做了很大调整主要表现在聚类标准的主题化。类目划分的随意性、类目排列的非逻辑性和类名的通俗化等。1452主讲老师:张帆1中国人民大学618信息检索冲刺串讲及模拟四套卷精讲第4讲:2011年真题解析53考研真题一、简答:1.简述分类主题一体化检索语言的工作原理2.简述元数据的作用3.简述DIALOG.二、论述:1.试述影响检索效果的因素2.网络信息检索的发展趋势3.论述搜索引擎的结构和工作原理22011年真题解析54考点分布 第二章 检索语言 第三章 信息著录与标引 第七章 联机检索 第一章 信息检索基础 第九章 网络信息检索概述 第十章 网络信息检索工具三个简答,三个论述(12年为四个简答两个论述 总分不变)355一、简述分类主题一体化检索语言的工作原理 1、分类语言(含义、类型)2、主题语言(含义、类型)3、分类主题一体化语言(含义、原理、功能、代表:中国分类主题词表)456二、简述元数据的作用1、元数据是关于数据的数据,是定义和描述其他数据的数据。元数据也是数据,是专门用来描述另一种资源的数据;元数据也是一种标准,是管理和利用的工具,是系统结构的组成部分。2、元数据的主要功能:定位与检索;著录与描述;资源管理;资源保护与长期保存3、元数据的具体功能:信息资源的著录描述功能;信息资源的聚合功能;信息资源的确认与检索功能;信息资源管理的控制功能;信息资源的长期保存功能;信息系统的开发功能;数据恢复功能;信息资源的动态跟踪功能。在分析某一概念的功能、作用、特点时,都要加上对此概念的定义、发展、特点(或者功能),才能形成完整的答题思路。2011年真题解析557三、简述DIALOG.1、概况(一)是目前世界上最大的国际联机检索系统,也是运作最成功的联机商业数据库系统之一。它始建于1966年,与1972年开始商业运营。最初由美国洛克希德导弹航空公司所属的一个情报科学实验室负责建立。1981年6月,成为该公司的一个子公司,并开始独立经营。(二)DIALOG拥有900多种数据库,15TB的信息总容量,14亿条记录,方便、灵活、快捷、准确、全面地提供各种科技、商业、社科高质量的信息。专业范围涉及几乎所有的专业,数据库包括CA、INSPEC、MEDLINE、SCI、EI、A&HCI,世界著名的DERWENT专利数据库以及美国专利、欧洲专利、日本专利等数据库也可以在DIALOG中查询。658(三)DIALOG系统遍布6大洲,共有25000个既有客户遍及103个国家并拥有总数量超过200万的最终用户,至今乃是全球最大的专业信息提供商。DIALOG系统的联机数据库共有四种类型:(1)题录文摘数据库(2)名录手册型数据库(3)全文数据库(4)数值型数据库。(四)DIALOG系统在互联网上设立了网站,用户可以通过互联网检索DIALOG系统,其检索平台主要远程登录方式、Dialogclassic、Dialogweb等四种方式。759三、简述DIALOG.2、检索步骤(1)联机准备进行DIALOG系统联机检索的基本前提是要拥有该系统的使用权,也就是向DIALOG系统申请账号,并交纳应付费用。首先要做好所需的软硬件准备工作,包括终端、通信软件和调制解调器等,这为物质基础;其次要制定周全的检索策略,将用户的检索提问转化为DIALOG系统所能处理的检索语句,其核心为编写检索式。(2)选择联机方式 目前有两种方式可与DIALOG联机,过程依次为A、通过CHINAPAC(专线)与DIALOG联机,过程是:输入主机所需的分组交换网址、输入系统标识符、输入用户名、用户密码。B、通过互联网与DIALOG联机,包括两种方法:一种为使用远程登录命令TELNET DIALOG.com或通讯软件DIALOGLINK。另一种是直接利用浏览器以web的方式检索DIALOG系统。860三、简述DIALOG Internet web 界面的4种检索方法A、利用web直接上网检索 http:/优点是检索费用低,缺点是要一屏一屏地存盘,否则随着检索指令变化不及时存盘,数据一丢失。B、为专业人士提供的web界面 http:/速度快、检索过程每一屏均保留,不丢失数据便于存盘,界面为专业人员熟悉。C、非专业人员界面 http:/傻瓜界面主要针对最终用户、初学者、最终用户和不愿学习检索指令的人可以使用。D、数据库蓝页 http:/ 注意:影响效果的因素不等于衡量指标。1、检索效果含义:是指信息检索系统检索的有效程度,用来衡量检索结果对用户的满足程度,是检索系统性能的直接反应。主要有以下影响因素:2、标引质量(重点一个个展开)3、检索语言性能4、检索途径数量(检索入口)5、检索策略6、检索人员1163五、网络信息检索的发展趋势(信息检索教程P250)1、网络信息检索是通过一定的方法,从已存储的网络信息中查找用户提问相关的信息的过程。其发展趋势主要包括检索技术、检索服务和检索标准三个方面。2、网络信息检索技术发展2.1、智能检索技术基于自然语言处理的检索形式,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略,进行智能、快速、高效的信息检索。2.2、多媒体检索技术基于描述检索技术转向基于内容的检索技术2.3、P2P技术不经中介设备直接交换数据或服务的技术。基于分布式共享技术,使得每个人成为信息资源提供者。1264五、网络信息检索的发展趋势(信息检索教程P250)2.4、可视化检索技术把文献信息、用户提问各类检索模型以及利用检索模型进行信息检索的过程,展现在一个多维的可视化空间,并向用户提供检索服务。其实质是提供一个可视的语义关系。2.5、语义检索技术也称概念检索技术,不是传统的字面匹配,而是从词语所表达的概念意义层次上来认识和处理用户的检索请求。主要包括同义词扩展检索和相关概念联想两个方面。3、网络信息检索服务发展3.1、多样化信息检索服务包括信息检索形态多样化(信息的载体形式和类型)、检索语言多样化、检索服务功能多样化和一站式服务。3.2、个性化信息检索服务是针对不同用户,采用不同服务策略和方式,提供不同信息内容服务。主要有个性化推荐、个性化网站和个性化信息检索三种形式,个性化信息检索主要体现在个性化定制和用户信息推送两个方面。1365五、网络信息检索的发展趋势(信息检索教程P250)4、网络信息检索标准的发展Z39.50网关;新一代Z39.50;STARS;ZOBRA;CIP1466六、论述搜索引擎的结构和工作原理一、搜索引擎有广义和狭义之分1、广义目录型搜索引擎(网络资源目录):人工发现和分类信息。基于机器人技术的搜索引擎:自动搜索和标引来建立和维护索引库。元搜索引擎:通过调用多个独立搜索引擎的检索功能来实现互联网信息查询。2、狭义第二类,即利用自动搜索技术软件,对互联网资源进行收集、组织并提供检索的信息服务系统。1567六、论述搜索引擎的结构和工作原理二、结构1、搜索器:本质为爬虫程序,功能在于发现和搜索信息。2、索引器:对搜索器搜寻的信息进行分析与理解,依据关键词词频从中索引项,用于表示文档以及生成文档库的索引表,形成索引数据库。3、检索器:对用户请求分析,将其分解为一个或多个关键词,并转换为机器可识别的规范检索式,然后在索引库进行匹配,进行相关度评价,对将要输出结果反馈给用户。4、用户接口:输入用户请求、现实用户查询结果和提供用户相关性反馈机制。1668六、论述搜索引擎的结构和工作原理三、工作原理1769主讲老师:张帆1中国人民大学618信息检索冲刺串讲及模拟四套卷精讲第5讲:2010年真题解析702010中国人民大学信息资源管理学院专业课考研真题 一、简答:每题20分1、简述叙词的含义及其特点2、简述各种逻辑算符及其意义3、简述百科全书含义及其意义4、简述web of science 二、论述:每题35分1、比较google和dogpile2、试述中国期刊全文数据库712010年考研真题考点分布 1、第二章检索语言 2、第六章计算机信息检索概述 3、第五章参考工具书的使用 4、第十一章网络数据库检索 5、第十章网络信息检索工具 6、第十一章网络数据库检索72一、简述叙词的含义和特点 叙词是指以表示单元概念的规范化词语为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。如主题词表。特点:直观性、规范性、组配性。补充:信息检索教程P61(叙词语言的性能-含不足)。73二、简述各种逻辑算符及其意义(布尔算符,位置算符,截词算符)1、检索式是检索策略的具体体现,检索策略是指在分析检索课题内容实质基础上,选择检索系统、检索途径,确定检索词及其相互间的逻辑关系等的信息检索方案。检索式主要由检索词和各种逻辑运算符号组成,主要包括逻辑表达式、加权表达式、位置表达式、截词表达式、限制表达式。2、逻辑表达式:使用布尔逻辑算符表达,乔治.布尔发明。逻辑与“AND”,也用“*”,表示两者的重合部分。逻辑或“OR”,也用“+”,主要用于表达近义词、同义词、全称和缩写等。逻辑非“NOT”,也用“-”表示应从第一个概念中排除第二个概念。74优点:可表达与用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观。缺点:检索结果不能相关排序;不能反映表达式中检索词的重要性;课题涉及的检索词较多时,检索式太复杂。3、加权表达式是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定数值加以区分,然后对这些检索词进行加权计算,其和在阈值以上的,即被确认为命中文献。4、位置检索表达式词间的距离与位置“(W)”“(nW)”“(N)”“(nW)”754、截词表达式指在检索式中用专门符号(截词符号,一般为*或?)表示检索词的某一部分允许有一定的词汇变化,也就是说,检索词的不变部分加上由截词符号所代表的任何形式变化所构成的词汇都是合法检索词。按截断位置,截词分为前截词(后方一致)、中间截词(两端一致)和后截词(前方一致);按截断的字符数量分为有限和无限截断两种。截词使用一定要合理,截断部分要适当,不要截得太短,以免增加噪音,查出很多无关文献。5、限制检索表达式指用限制符限定检索词出现范围的检索式。一般用的字段有标题(TI)、作者(AU)、主题词(SU)、年代(PY)等。76三、简述百科全书含义及其特点1、定义:是汇集各学科或某一学科的专门术语、重要名词,以词典的方式进行编排,对每一词目都加以全面而又客观简明的阐述,并对新的研究成果加以反应的大型工具书。2、特点:概括性、权威性、易用性3、作用:提供各种资料、帮助系统求和。77四、简述 Web of Science概况:美国科学信息研究所(Institute for Scientific Information,ISI)是世界著名的学术信息出版机构,它所编制的三大引文数据库(Web of Science)由三个独立的数据库组成:科学引文索引(Science Citation Index Expanded,SCI),被公认为世界范围最权威的科学技术文献的索引工具,能够提供科学技术领域最重要的研究成果。提供6,650 种以上涵盖 150 多个学科的世界一流学术科技期刊的书目信息、作者摘要和被引参考文献。社会科学引文索引(Social Sciences Citation Index,SSCI),收录1,950 种以上涵盖 50 多个学科的世界一流学术性社会科学期刊的书目信息、作者摘要和被引参考文献。艺术和人文科学引文索引(Arts&Humanities Citation Index,A&HCI),能够访问 1,150 种以上世界一流艺术和人文期刊的书目信息、作者摘要和被引参考文献。78四、简述 Web of Science 检索功能1、基本检索2、被引文献检索3、结构检索(针对两个化学数据库):需插件。4、高级检索79五、比较Google 和 Dogpile一、Google为网络搜索引擎,主要采用自动搜索和标引方式来建立和维护其索引数据库,用户查询时可以用逻辑组合方式输入各种关键词,搜索引擎根据特定的检索软件,查找其索引数据库,给出与检索式相匹配的检索结果,供用户浏览使用。搜索引擎具有如下特点1、支持全文检索2、检索功能较为全面,检索方法多样3、检索结果按相关性排列4、查询速度快,维护更新及时5、支持关键词检索和分类目录浏览不足:1、网络信息覆盖范围有限,最完善也只能覆盖web网页的三分之一。2、索引库庞大,检索效果却不如人意,查全、查准率不高。3、对网络信息资源的组织与标引缺乏控制,没有同标准与规范。80 二、Dogpile为元搜索引擎,是一种将多个独立搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,并将检索结果一并返还给用户的网络检索工具。三、搜索引擎拥有独立的网络资源采集标引机制和相应的数

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开