分享
2015年考研中国人民大学《618信息检索》命题规律分析及常考知识点精讲.pdf
下载文档

ID:3640148

大小:36.42MB

页数:730页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
618信息检索 2015 考研 中国 人民大学 618 信息 检索 命题 规律 分析 知识点
中国人民大学618信息检索主讲老师:张帆11本课程分为两个阶段进行讲解:第一阶段:命题规律分析与常考知识点精讲1.课程导学2.命题规律以及考点分布分析3.常考知识点精讲第二阶段:冲刺串讲及模拟四套卷精讲1.真题分析及答题思路2.全真模拟4套卷精讲课程体系22主讲老师:张帆张帆中国人民大学618信息检索课程导学31.信息检索基本问题2.信息检索系统3.信息检索方法和评价4.检索语言概述5.分类检索语言6.主题检索语言7.分类主题一体化检索语言、网络检索语言8.信息著录4410.信息标引概述11.分类标引、主题标引和自动标引12.参考工具书概述13.参考工具书的使用(一)14.参考工具书的使用(二)15.参考工具书的使用(三)14.计算机信息检索概述15.计算机信息检索策略16.信息检索技术17.联机检索概述18.主要联机检索系统介绍及相关操作5519.光盘检索20.网络环境下信息资源的变化21.网络信息检索基础22.网络信息资源未来发展23.网络信息检索工具概述+搜索引擎24.网络信息检索工具网络资源目录25.网络信息检索工具元搜索引擎26.网络数据库检索27.国内外网络数据库介绍28.特种文献检索66我为什么要考人大档案学?我能考上人大么?我怎样才能考上人大?信息检索课程的重要地位88我为什么要考人大档案学?99就业前景:2009 年 4 月 6 日中国档案报刊登了题为“档案专业毕业生今年就业形势乐观”的报道,被各大网站转载,档案学专业一时成为人们关注的焦点,也因此引发了更多人关于档案学专业高就业率原因的思考和分析。网络上甚至出现了“昔日冷专业,今日金饭碗”的博文,分析该专业的就业优势。近几年,中国人民大学档案学专业研究生就业率高达 100%,就业地区 80%以上集中于北京、上海、广州、深圳等大中城市。人大档案学:中国人民大学信息资源管理学院成立于1952年,自成立之时就受到了党和国家的重视(周恩来同志提议,中共中央办公厅委托),毫不避讳地说正是由于政治上的强力支持人大档案学院(现改名为人大信息资源管理学院)迅速成长,成为档案学领域的一座标杆,学术水平一直居于全国最高水平。同时由于历史上的优势和现实中的成绩使得人大档案学不仅与国家档案局、中办等国家高级机关有着密切的联系而且成为许多地方档案馆、大型央企、外企的人才培养基地。我为什么要考人大档案学?1010我能考上人大么?年份年份英语英语政治政治专业课一专业课一专业课二专业课二最低录取分最低录取分201160609090374201260609090360201355559090367中国人民大学信息资源管理学院档案学专业历年录取分数。分析:人大管理学在诸多学科中分数较高,档案学由于其品牌效应分数也水涨船高,但由于学院对分数压得不是很低,因此每年也能出现一大批高分群,综上可知,如果认真准备好好复习还是有比较大的胜算。1111我怎样才能考上人大?具体的复习步骤和技巧将在后面的课程中详细介绍,这里先简单列举一下考试形式及考试所用书籍。人大信息资源管理学院采取统一招生的形式,招收学术性硕士的所有专业(档案学基础理论、档案保护技术、信息分析、信息资源管理、情报学、图书馆学)均采取统一命题,考试科目为:101-政治、201-英语、618-信息检索、831-信息资源管理。信息检索在初试中占150分,且在复试的专业课面试问题以及导师选择中也会有所考虑和涉及,重要性可见一斑。经过几年的观察,考生普遍反映该科目的难度要略大于信息资源管理,因此成为考研准备中的大部头。英语60/80 VS 信息检索 110/12124.1参考书目学员自行购买4.2考试点专业课标准课程内部讲义考试点专业课学员享有4.3典型与重点题及其解析学员自行购买或搜集4.4真题及其解析学员自行购买4.5学术期刊及专著学员自行查阅全程复习所用书籍资料1313主要参考书:信息检索教程(第二版)王立清中国人民大学出版社(2008-10出版)1414信息检索教程 冯惠玲等编 中国人民大学出版社2004版档案文献检索 冯惠玲编 高等教育出版社1999版人文社会科学信息检索 马文峰主编 北京图书馆出版社2004版档案管理学(修订本)邓绍兴、陈智为编 中国人民大学出版社1996版档案学概论 冯惠玲、张辑哲编 中国人民大学出版社2001版科技档案管理学(修订本)王传宇编 中国人民大学出版社1998版档案开发与利用教程 刘耿生编 中国人民大学出版社2001版辅助参考书目(只需大体浏览,以备扩充思路之用)16部分笔记16虽然题目90%都能从信息检索中找到,这并不意味着,背好这本书你就能取得90%的分。人大的题目十分具有开放性,信息检索六个题目,考生却能相差6、70分,关键就在于个人所掌握的知识面程度不同。除了对课本知识进行讲解外,我还针对真题考点,阅读了其他参考书目以及相关论文,结合研究生的课程对知识点进行丰富,为考生节省宝贵时间以求开拓你们答题的思路最终取得最优的成绩。17本课程意义17谢谢信息检索的概念和原理信息检索的概念和原理中国人民大学618信息检索命题规律分析及常考知识点精讲第1讲:信息检索基本问题主讲老师:张帆张帆重点:此章内容是整个信息检索的入门一章内容也是整本书的基础,因此成为历年考试的重点,几乎出现在每年的考题之中,包括2014年简答1、2012简答2、2011论述1、2009简答1、2008简答1、2007论述1、2006简答1、2006论述1。难点:对于刚刚接触信息检索的同学来说可能理解上有一定的难度,但只要从基础开始,循序渐进,就可以很好地掌握。本章共有五节分别为信息概述、信息检索的概念和原理、信息检索系统、信息检索方法、信息检索效果,分为三讲进行学习。内容框架信息检索基本问题信息概述信息检索概念和原理信息检索系统1、信息的含义(广义、狭义)实际也是本体论和认识论上的不同含义2、信息的特征(信息检索):可存储性、可传递性、可转换性、可处理性、可共享性、可识别性、依附性、普遍性。+信息的特征(信息管理基础):存在的普遍性与客观性、信息产生的广延性和无限性、信息在时间和空间上的传递性、信息对物质载体的依附性和相对独立性、信息对认识主体的相对性、信息对利用者的共享性、信息的不可变换性和不可组合型、信息产生和利用的时效性。+信息的特征(人文信息检索):资源价值性非排他性(与物质能量的不同)。一、信息的含义及特征信息概述信息概述二、信息的功能和类型1、信息的功能:传承人类文明,推进社会发展;提供决策依据,提高决策效益;保障有效控制,保证系统秩序;发挥参考作用,推动知识创新。2、信息(广义)类型:产生、运动状态。信息(狭义)类型:媒体类型、加工处理程度(+思考一、二、三次信息之间的关系 参考人文信息检索 P40)、信息内容、出版发行特点、+信息性质(语法 语用 语义)信息概述PS:真题 08简答 按信息加工方式可以分为哪几种类型,特点是什么?三、网络环境下的信息变化+互联网对整个社会交流方式和信息组成结构产生了巨大的影响1、互联网对信息的影响(结合实际情况)(1)互联网引发了信息新的出版形式网络出版,结果是形成了对人类信息获取有重大影响的网络信息资源;(2)互联网使人类传统的交流方式发生了根本性变化,信息交流呈现明显的广泛性、开放性、交互性、实时性;(3)互联网推动了信息处理技术的发展 如数字技术、多媒体技术。信息概述信息概述2、网络环境下信息的新特点(如单独出题需增添上述第5张ppt的内容)(1)信息类型多样化:形成印刷型信息、磁光介质信息和网络型信息鼎立互补之局;(2)信息的内容和数量都得到了极大的丰富;(3)信息在分布上呈现明显的分散性:改变了传统显性组织形式,采用超文本和超媒体技术,使信息的收集、编辑、分析、发布在世界范围内进行;(4)信息共享程度提高:互联网采用TCP/IP协议,用户可以自由地选择利用各种网络服务,顺利实现信息共享。信息概述信息概述一、信息检索的概念广义上:信息检索包括信息存储和信息获取两个部分。信息存储是指通过大量无序信息的选择和收集、著录、标引等方法,建立各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程;获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。存储是获取的前提和基础,获取是存储的目的,二者密切联系,互为依存。狭义上:信息检索指广义的信息检索的后一过程,即信息获取的过程,相当于人们所说的信息查检等。具体来说,就是通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和实施的过程,即用户根据特定要求查找所需信息的过程。信息检索的概念和原理信息检索的概念和原理PS:真题 09简答1 信息检索的定义及原理二、信息检索的原理1、信息检索原理文字表达:将特定的信息需求与存储在检索信息系统中的信息表示进行异同的比较和匹配,选取两者相符或部分相符的信息予以输出。解释:检索系统对要存储的信息,按照其外部特征和内部特征进行描述并赋予检索标识,然后存入系统;检索时将所需信息的特征标识与所存信息的特征标识进行比较,凡是两边标识一致的,就将具有这些标识的信息输出。实质:两种信息标识的匹配图形表达:见下图信息检索的概念和原理信息检索的概念和原理信息检索的概念和原理信息检索的概念和原理2、信息检索的分类文献检索 是信息检索的主题部分。以特定的文献为检索对象,包括全文、文摘、题录等,是一种相关性检索,不直接回答用户所提技术问题本身,只是提供有关文献供参考。数据检索 以特定的数据作为检索对象,包括统计数字、工程数据、图表、计算公式、化学结构式等,是一种确定性检索,能提供确切的数据,直接回答用户问题。事实检索 以特定的事实为检索对象,如某一事件发生的时间、地点、人物、过程,也是一种确定性检索,一般能直接提供用户所需的确定的事实,但有时需要对所得的事实进行必要的分析和推理,才能得到最终答案。信息检索的概念和原理三、信息检索的意义信息检索是获取人类智力资源的有效手段,是连接信息生产者与需求者的通道与接口,具体作用如下1、是有效利用信息资源,实现最大价值的科学方法。信息检索为我们提供了一整套较为完整的信息、利用和开发的方法,包括检索策略的制定,检索工具的选择和检索手段的选择。信息检索是信息分析和科技创新的基础。2、是在学习的工具,是获取知识的有效途径。能够使人们获取知识、提高自我,适应社会发展。3、能有效地提高科研工作的效率,节省人力、物力及时间。高效的信息检索可以起到事半功倍的效果,使科研人员掌握相关的进展,避免重复研究,将时间与精力集中于创新工作,多出成果,出好成果。+4、能提高信息素养(包括意识和能力)。1、手工检索:直接发源于图书馆的参考咨询工作和文摘索引工作。参考咨询19世纪下半叶美国公共图书馆和大专院校图书馆的参考工作有了很大的进展;20世纪初多数国家设立了参考咨询部门,主要利用参考工具书帮助读者查找图书、期刊或现成答案。文摘索引不断发展,检索刊物体系形成。文摘与索引成为查找科学文献最重要的手工检索工具。在这一阶段,信息检索逐渐形成一个独立的领域,并逐渐走向专门化。主要检索工具:纸本工具书四、信息检索的历程信息检索的概念和原理信息检索的概念和原理2、计算机检索(+注意补充第六章计算机信息检索概述的相关内容)1954年美国海军兵器中心建立了世界上第一个计算机文献检索系统,标志着人类开始步入用计算机进行信息检索的新的历史时期。经历了脱机检索、联机检索、光盘检索和网络检索四个阶段。特点:速度快,效率高、及时、全面、突破地理上的限制。信息检索的概念和原理信息检索的概念和原理+3、发展趋势(补充,来自相关论文阅读,书的版本限制)(1)传统信息检索向全文文本、多媒体、多载体等信息检索发展。在深度上提高管理和组织信息的能力。(2)信息资源的网络化和分布化,在广度上提高管理和组织的能力。信息检索的概念和原理信息检索的概念和原理谢谢信息检索的概念和原理信息检索的概念和原理中国人民大学618信息检索命题规律分析及常考知识点精讲第2讲:信息检索系统主讲老师:张帆张帆信息检索系统信息检索系统概念信息检索系统工作原理信息检索系统的分类内容框架数据库专题1、信息检索系统的概念:根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统。其主要目的是为用户提供信息检索服务。2、信息检索系统的形式:工具书、数据库、搜索引擎。一、信息检索系统的概念定义、工作原理、工作过程信息检索系统信息检索系统3、信息检索系统的工作原理:信息检索系统信息检索系统PS:非单向流程,而是双向进行。4、信息检索系统的具体工作过程(文字表示+图形展示)文字表示:包括存储和获取两个部分,分别对应信息的输入和输出过程(1)输入端:针对信息,依据特定的目标,按照一定的标准与方法对所采集到的信息进行组织和管理,以便信息易于识别和理解,便于回答用户的各种提问。其中,标引是最重要的环节。+输入端的具体操作:A、通过对信息的分析,选用确切的检索标识(如分类号、标 题词、叙词、人名等)用以反映文献内容的过程;B、标引结束后信息进入某种形式的信息库,标引记录进入二次信息数据库;C、在二次数据库中将标引记录按便于检索的方式进行组织。信息检索系统信息检索系统(2)输出端:针对用户,接受服务的用户群向信息中心递送各种提问,编制检索策略。输出端的具体操作:用户提问被接收以后便进入信息检索策略编制阶段。后者包括概念分析和转换两个步骤第一步是对用户的提问进行分析,确定用户实际上要找的是什么;第二步把概念分析转换成词汇,转换成该系统语言的提问并将检索提问以系统认知的检索式表达出来。(此步为核心);第三步以某种方式将检索表达式与事先存储好的数据库,进行匹配,再将得到的结果返回给提问者。如果满意,则结束,如果不满意则调整检索策略,进行再次检索。信息检索系统信息检索系统信息入选信息概念分析转换信息著录数据库转换提问用户标引编制检索策略概念分析二、信息检索系统的构成信息检索系统信息检索系统具有对信息的输入、存储、处理、输出以及控制功能,包含六个子系统1、信息选择子系统搜集相关信息资源,为系统提供充足使用的数据来源。2、信息索引子系统根据具体的词表和名词规范选择准确的信息标识。3、词表管理子系统管理维护系统中已有的此表,使它与索引子系统相链接,支持用户各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息以及输出各种形式的词汇数据或词表产品。4、检索子系统承担接收用户提问、提问校验和进行检索等功能。5、用户与系统之间交互子系统具有与用户进行交流,以便真正明确用户的真正信息需求,明确检索提问并准确表述。6、匹配子系统将检索标识与检索提问进行相符比较的子系统。三、信息检索系统的分类信息检索系统信息检索系统按检索的实现手段可分为手工检索系统和计算机检索系统。(1)手工检索系统:以印刷型检索工具为基础,可以直接进行利用,不需要依赖任何计算机或其他设备。分为书本式手工检索工具和卡片式手工检索工具。(2)计算机检索系统:依赖于计算机进行信息检索的系统,由硬件部分、软件部分和信息数据库组成。信息检索系统信息检索系统+手工检索系统相比计算机检索系统的优缺点?优:A、经过大脑判断来实施和完成检索,面对的是印刷型载体,符合人们长期形成的阅读习惯;B、可以根据需要及时调整检索策略,达到满意检索效果。缺:A、收录的范围有限B、更新速度慢C、检索效率低四、数据库专题信息检索系统信息检索系统12年简答2-参考数据库的概念和分类知识点一定不能遗漏1、数据库的概念:按照某种数据模型组织起来的并存放于计算机存储设备的数据集合。2、数据库的分类:参考数据库和源数据库。3、参考数据库概念、分类。指为用户提供信息线索的数据库,可以指引用户获取原始信息,而并非直接提供原始资料或具体数据的数据库,分为书目数据库(文摘、目录)和指南数据库(机构名录、人物传记数据库)。4、举例展开。完整答题点信息检索系统信息检索系统1、源数据库概念:能直接提供原始资料或具体数据的数据库2、源数据库分类:数值数据库可直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策和预测的重要工具。文本-数值数据库同时提供文本信息和数值数据。全文数据库可以直接检索出原始信息的全文,实现检索的一次到位。术语数据库又称电子词典。图像数据库用来存储各种图形、图像以及相关文字说明资料。多媒体数据库将文字、数值、声音、图像等不同信息存储在不同的媒体上,进行统一管理。信息检索系统信息检索系统数据库发展现状:目前,计算机检索系统是检索系统的主流,包括光盘检索系统、联机检索系统和网络检索系统。计算机检索系统的优点:速度快、效率高、数据内容新、范围广、数量大、操作简便、在网络环境检索中不受时空限制。谢谢信息检索的概念和原理信息检索的概念和原理48中国人民大学618信息检索命题规律分析及常考知识点精讲第3讲:信息检索方法及效果主讲老师:张帆1491、信息检索方法2、信息检索效果内容框架50一、信息检索方法(种类、概念、优缺点、举例)1、类型:信息检索方法有直接浏览法、常用法、追溯法、综合法2、具体介绍(1)直接浏览法概念:检索者不依靠任何检索工具或检索系统从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。最常见优点:省去编制检索工具所用的时间,可以及时获得最新文献。缺点:信息不全面、不系统且局限性较大,不能作为查找文献的主要方法。51(2)常用法(在其他参考书中也被称为间接法)概念:指用检索系统来查找信息的方法,是目前查找信息最常用的方法,包括顺查法、倒查法、抽查法。A、顺查法一般需要了解检索课题的背景和发生简况从而选择比较适宜的检索工具集检索系统,从问题产生的时间开始查起,直到最新的文献信息。查全率高B、倒查法重点放在近期信息资源上,以满足自己的信息需求为原则。优:可以最快地获得新资料、新信息、省时省力,检索效率高;缺:不如顺查法查全率高,对检索课题的来龙去脉不易掌握。;写论文通常采取此法C、抽查法抽取其中某段时间查找,关注有关课题的文献最可能出现或最多出现的时间段。优:获得相对集中、具有代表性能够反映该课题发展的文献信息,检索效率高,检索效果好;缺:要求用户基本了解该课题的大概情况,能够比较准确地选择出有关信息出现较多的时间段。52(3)追溯法:从已有文献信息后所列的参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围。例:想要在CNKI中查找关于“数字档案馆”的资料文献,在找到张宁的基于国外最佳实践对我国数字档案馆建设的几点思考这篇切题文献后,根据文后的参考文献进行进一步追踪。如图:53追溯法的优点:在没有检索工具或者检索工具不全的情况下,借助此方法可以查到一批有关的文献。缺点:原文作者引用的参考文献是有限的,不可能列出全部的有关文献,而且,有的引用文献又与原文关系较小或较远,参考价值不大,单独使用具有局限性。54(4)综合法(有文章称分段查找法、循环法或交替法)概念:先利用检索工具查出一定时期内的一批有用的文献,然后依据这些文献后所附的参考文献利用追溯法查出前一时期的文献,如此分期分段地交替使用常用法和追溯法两种查找方法,直到满足要求为止。优点:兼有两种方法的优点可以查到全面而准确的信息,适合查阅那些过去文献量较少的专业资料,并可以弥补因检索工具不全而造成的漏检,检索效果较好。55二、信息检索效果(效果评价概念、意义、评价指标、影响因素)1、信息检索效果评价(1)信息检索效果:是信息检索系统检索的有效程度,它衡量了检索结果对用户的满足程度,是检索系统性能的直接反映。(2)信息检索效果评价:用科学的方法,按照设定的指标体系,对信息检索效果进行评价的过程,包括有效性、实用性、经济性三个方面。(3)信息检索效果评价的意义(课本+导师论文):A、准确地掌握系统的各种性能和水平找出影响检索效果的各种因素,从而有的放矢的改进系统的性能,提高信息检索能力,科学地最大限度地发挥系统作用。B、发现系统存在的缺陷及原因。C、为设计和建设新的检索系统提供参考。56(4)信息检索的评价指标06简答 08简答查全率和查准率、漏检率和误检率,响应时间、其它指标。A、查全率和查准率由佩里和肯特在20世纪50年代中期提出,成为评价检索效果两个最常用的关键指标。57a 被检出的相关文献,即查准的信息b 被检出的不相关文献,即误检信息c 未检出的相关文献,即漏检信息d 未检出的不相关文献查全率:检出的相关文献信息与检索系统中相关文献信息总量的比率,反映出信息检索系统检出相关文献信息的能力。=a/(a+c)x100%查准率:检出的相关文献信息量与检出的文献信息总量的比率=a/(a+b)x100%。局限:计算查全率时,一个检索系统中总共有多少个相关文献(a+c)难以确切计算;计算查准率时,用户对文献的相关性估计与系统的相关性判断不一定吻合,且带有主观成分和模糊概念。58查全率和查准的关系互逆相关关系证明查全率与查准率之间的关系与检索提问式的结构有关,不同的检索条件下,查全率与查准率之间将呈现以下三种不同的关系:当由于检索策略的变化,使得检索到的相关记录的变化量与全部逆变关系;当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比大于相关记录数与命中记录数之比时,查全率-查准率呈现顺变关系;当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比等于相关记录数与命中记录数之比时,查全率可能变化,而查准率不变。59B、漏检率与误检率漏检率:漏检的相关文献信息量与检索系统中相关文献纤细总量的比率,与查全率相对应=c/(a+c)x100%。误检率:指误检(检出不想管)文献信息总量与检出文献信息总量的比率,是衡量信息检索系统误检成都的尺度,与查准率相对应=b/(a+b)x100%。60C、响应时间:指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间,直接反映着信息检索的速度,很大程度上依赖于检索手段和检索技术的进步。手工阶段受主观因素影响较大,取决于检索策略的优劣、检索工具的选择和检索工具使用的熟练程度。计算机阶段响应时间大大缩短,响应时间在很大程度上依赖于系统的的处理速度和运行效率。61D、其他指标检索系统的收录范围即数据库覆盖率结果输出形式文献号、题录、文摘、全文系统的易用性穆斯定理用户负担物力、财力、精力总和结果的重复链接率和死链接率622、影响检索效果的因素07论述 11论述(1)标引的质量信息标引的正确性对于信息检索的查全率和查准率有直接的影响。信息标引的结果是赋予文献信息相关的检索标识,它是组织检索工具和数据库进行检索的依据,正确的标引可以使同一主题的信息准确而全面地被检索出来,相反买各种标引误差都会对检索效率产生一定的影响,标引误差主要来自主题分析误差、标引深度误差。63(2)检索语言的性能+检索语言的作用A、对内容相同及相关的信息加以集中或揭示其相关性;B、将信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;C、便于将标引用语和检索用语进行相符性比较;D、保证不同检索人员表述相同信息内容的一致性,以及检索人员标引人员对相同信息内容表述的一致性。词表的作用-标引、检索都有影响64(3)检索途径的数量也称检索入口,主要依据信息的内容特征和外部特征来确定。检索信息内容特征的有分类、主题、全文途径。外部特征有题名、著者、文献标号等途径。途径越多越便于检索人员对信息的查找和获取。65(4)检索策略的优劣(后面章节有专门介绍,记得相互联系)检索策略是进行检索的规划和方案,是影响检索效果的重要因素,涉及检索人员对检索目的、检索范围、检索系统、检索途径、检索表达式等一系列问题的思考和定位。根据实际情况调整检索策略能达到较为理想的查全率和查准率。66(5)检索人员的素质人是检索过程中的主体,其素质对于检索效果有直接的影响,检索人员应当具备一定的检索知识,能够正确地分析检索课题,准确地表达信息需求,掌握信息检索的基本方法,了解计算机操作的基础知识、熟悉有关信息检索工具和检索系统67谢谢信息检索的概念和原理信息检索的概念和原理68中国人民大学618信息检索命题规律分析及常考知识点精讲第4讲:信息检索语言概述主讲老师:张帆169第二章共有六节分别为:检索语言概述、检索语言的理论基础、分类检索语言、主题检索语言、分类主题一体化检索语言、网络检索语言。分为五讲进行学习。此章考点也极其集中,分别出现在14年简答4、13年简答1、12年论述2、去去年简答1、10年简答1、09年简答3、08论述2、07简答2、06论述1、05名词解释-检索语言难点:先组式语言、后组式语言的含义;分类检索语言、主题检索语言的原理。70信息检索语言概述概念分类功能描述文献的特征结构或原理信息表示的组合语言规范程度理论基础71检索语言主要由词汇和语法组成。词汇是登录在类表词表中的全部标识,一个标识(分类号、检索词、代码)就是它的词典;语法是如何创造和运用那些标识(单个标识和几个标识的组合)来正确表达信息内容和信息需要以实现信息检索的一整套规则。例子:如冯惠玲、张辑哲两位老师编写的档案学概论在中国图书馆分类法中的编号为G270/6-2,G270/6-2就是一个词汇,而其中G代表“文化、科学、教育、体育”G2代表“信息与知识传播”G270代表“档案学、档案事业”层层划分,(至于/后则是更为复杂的复分等等,将在后面章节详细介绍),这一套事先确定的编号准则就是检索语言汇总的语法。一、检索语言的概念721、传统意义上:检索语言仅指根据信息检索需要而船只的人工语言,其实质是用于表达一系列概括文献信息内容的概念及其相关关系的概念表示系统,用于对文献内容进行主题标引、特征描述或逻辑分类。例如:中国图书馆分类法汉语主题词表。2、现代意义上检索语言有广义和狭义之分。广义的检索语言指信息检索过程中涉及的自然语言和人工语言。狭义的检索语言仅指根据信息检索需要按照一定规则对自然语言进行规范并专门用于信息标引和用户检索的人工语言。731、对内容相同及相关文献加以集中或解释其相关性。检索语言采用等级结构、参照系统、伦拍聚类法、范畴聚类法等概念间的方法来实现。2、标引信息内容特征及其某些外表特征,保证不同标引人员表达信息的一致性。3、使信息的存储集中化、系统化、组织化,便于检索人员按照一定的排列次序进行有序化检索,通过分类排列法、字顺排列法、分类和字顺结合的排列法将全部信息标识排列成一个有序的系统。4、便于将标引用语和检索用语进行相符性比较(结合信息检索的原理)。二、检索语言的功能表面操作层面更深操作原理741、按照描述文献的特征可以分为描述文献外表特征的检索语言和描述文献内容特征的检索语言A、描述文献外表特征的检索语言外表特征主要指文献的篇名、作者姓名、出版者、合同号、报告号、引文等,与文献实际记录的内容没什么关联。据此形成的检索语言有题名索引、著者索引、合同号索引等。B、描述文献内容特征的检索语言主要根据文献内容特征而形成的检索语言,是检索语言研究的核心部分,分为分类语言、主题语言和代码语言。三、检索语言的分类75描述内容特征检索语言分类语言:体系分类语言、组配分类语言主题语言:标题词语言、关键词语言、单元词语言、叙词语言代码语言:分子式索引、结构式索引、专利号索引762、按照结构或原理,课分为分类语言、主题语言、代码语言和引文语言A、分类语言 用分类号来表达各种概念,将各种概念按照学科性质进行分类和系统编排。包括体系分类法和组配分类法。B、主题语言采用表达某一事物或概念的名词术语,用语标引、存储、检索的一种检索语言。包括标题词、单元词、叙词和关键词。C、代码语言一般只是就事物某一方面特征用某种代码系统来加以标引和排列。包括化合物的分子式索引系统、环状化合物的环系索引系统。D、引文语言利用文献之间的相互引证关系而建立起来的一种自然语言,其标引词来自文献的主要著录项目,具有选词方便,词汇丰富的特点。773、按照信息表示的组合使用方法,课分为先组式语言、后组式语言和散组式语言(1)先组式语言:指表达信息主题词概念的标识在编制词表时就已固定组配好,信息存储和检索人员在标引和查找信息之时,依据词表选用组配好的主题标识进行操作。如标题词表中直接有“中国人民”这个组配好的组配标识。典型的先组式语言有体系分类法和标题词法。优点:标识明确,系统性好,适用于传统的文献单元方式的目录索引缺点:表达专指概念和新概念较困难,灵活性较差,容易造成词表体积庞大,检索途径少的问题。78(2)后组式语言:指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再将各个标识进行组配来表达较为复杂的主题概念。如 叙词表中有“中国”“人民”两个词,检索时将其组配成“中国+人民”的复杂主题概念。优点:能够以较少的语词来表达较多的概念和较专指的概念,可以比较及时地表达新概念,容纳能力强;可以实现概念的多项成族,多途径检索(中国+人民就将单一的途径扩大),能够灵活的扩大和缩小检索范围,其检索的灵活性好;所编制的词表体积相对较少。缺点:编制和使用的难度较大,组配语义的明确性较差。79(3)、散组式语言对于复杂的主题标识,在此表中不足陪而在标引阶段将表达主题概念的若干标识,根据一定规则组配在一起的检索语言,其性能与其检索标识是否轮排有很大关系。(优缺点见下一讲)难点:轮排 人民中国中国人民美国领土法国歌曲日本食物804、按照语言的规范程度可以分为人工语言和自然语言人工语言举例:主题词表、分类词表和某些代码词表等。自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。5、其它分类:按包括的学科或专业范围:综合性检索语言、专业性检索语言、多学科检索语言。按所使用的语言文字分为单语种检索语言、多语种检索语言。81一、概念逻辑1、概念是一种科学思维方法,通过明确各种概念及其相互关系从而揭示事物的本质属性以及各种事物之间的区别于联系。+是反映对象本质属性的思维方式,是对事物本质属性的概括。包含内涵和外延。2、概念间的关系分为相容关系和不相容关系。检索语言理论基础主要理论基础有概念逻辑、知识分类和术语学82概念间的关系(记住例子才不会漏掉关系)(1)相容关系:两个概念的外延至少有一部分重合包括:同一关系:外延相同而内涵不同,多为同义词、学名和宿命、正式名与简称。如:“计算机”与“电脑”。属种关系:概念之间的外延呈包含和被包含关系。如“书”与“故事书”。交叉关系:有部分外延相重合,重合的部分一般形成一个新概念,如“女人”和“老师”。整体与部分:如“汽车”与“发动机”。全面与某一方面关系:“素质”与“文化素质”。不相排斥的并列关系:同一属概念下两个以上同级种概念之间的交叉关系,如“文学家”和“军事家”。83(2)不相容关系:两个概念的外延没有重合部分,包括:互相排斥的并列关系:同一种概念下,两个以上外延完全不同的种概念之间的关系。例如“公共图书馆”下的“省图书馆”和“市图书馆”。矛盾关系:外延完全不同,其外延总和等于其上位概念全部外延的概念之间的关系。如“金属材料”和“非金属材料”。对立关系:外延完全不同,其外延总和小于其上位概念的全部外延的概念之间的关系。如“17世纪哲学”和“18世纪哲学”。84(3)概念逻辑方法1)概念的划分与概括(分类):利用概念内涵由反映事物本质属性的概念因素构成,概念因素的加或减可以形成新概念,对概念进行划分或概括可以形成更为专指或反之的新概念,最终形成概念等级体系。如:体系分类法。2)概念的分析与综合(组配):即利用在概念的交叉关系中两个概念外延的相同部分可以形成一个新概念,进一步发展为将一个内涵较深的概念分解为两个货两个以上内涵较浅的概念,或将两个或两个以上内涵较浅的概念合成一个内涵较深的概念的一种概念逻辑方法。如:叙词语言与组配分类法。85其实质是划分知识单元、组织知识体系。包括学科分类和事物分类,前者以信息的学科属性作为分类标准,后者根据事物属性的异同划分。学科分类是知识分类的主题,事物分类是知识分类的基础。原则:客观性、发展性。二、知识分类861、术语是在特定学科领域用来表示概念的成为的集合,或者说是通过语音或文字来表达或限定科学概念的约定性语言符号。研究概念、概念定义和概念基本规律的学科即术语学。2、检索语言是由概念标识组成的,而概念是由术语来表达的,因此术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精心组织的术语集。3、在检索语言的创制、发展及完善过程中,更多地吸收术语学的研究成果是提高检索语言质量的要求和重要途径。三、术语学87中国人民大学618信息检索命题规律分析及常考知识点精讲第5讲:分类检索语言主讲老师:张帆188分类检索语言含义类型体系分类法组配分类法含义结构例子特点含义结构例子特点89一、分类检索语言概述1、含义分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定其先后次序的分类体系。它是直接体现知识分类的概念标识系统,是对概括文献信息内容及某些外表特征的概念运用逻辑方法进行系统排列面构成的。分类法按学科、专业集中文献信息,并从知识分类角度揭示各类文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。2、类型:包括体系分类发和组配分类法两种。903、特点:(1)按学科专业知识领域集中文献(2)根据分类标记符号(分类号)编排(3)按照等级及结构、逻辑关系显示类目之间关系4、作用:(1)是进行分类标引和组织分类检索工具的规范(2)能作为对文献进行分类排架的依据(3)是检索者从分类途径检索文献资料的指南(4)是文献工作折工作中常用参考手册91二、体系分类法1、含义(也称等级列举式分类法)根据概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系。2、结构:分为宏观结构和微观结构。微观结构指分类法中类目的构成结构。类目是表达文献信息内容或主题范围的概念,是构成分类法的细胞。微观结构涉及:A、类目的划分:将一个类目分为若干小蕾,从而揭示这个类目外延的逻辑方法B、引用次序:表现为分类标准的使用次序。满足逻辑性原则、符合检索需要原则和表达性原则。92C、类目的排列:体现系统性、整体性、等级性、逻辑性、连续性和一致性。同位类的排列按照逻辑顺序、事物发展顺序、时间顺序、空间顺序。D、类名的确立:坚持科学性、确切性和简洁性。E、类目之间相互关系的处理:从属、并列、交替、相关。93宏观结构一般由类目体系、标记系统、说明与注释、类目索引组成(1)类目体系:按照类目之间关系建立起来的类目集合,由主表和复分表组成。主表是由基本部类、基本大类、简表、详表助词展开而形成的类目表。94复分表又称辅助表或附表,是将详表中按照相同标准划分某类所产生的一系列相同的字母抽取出来,配以特定号码,单独列出,有通用复分表和专用复分表两种。用途:1)缩小类表幅度,简化分类标准;2)增强主表中有关类目的细分程度,并且规范同性质类目的划分。例如:43教材,可以在之前加语文、数学等类目词组成新词。95(2)标记系统:概念:是分类语言所有标记符号的集合。作用:一方面作为类目的代号,固定类目的先后次序,以便标引和组织文献,另一方面可以显示类目之间的相互关系,便于作相符性比较要求:简短性、容纳性、灵活性、表达性、助记性、适应性分类:单纯式号码、混合式号码标记制度:是由标记符号构成分类标记的基本方法,可以分为顺序制、层累制、混合制、分面标记制以及八分法、双位法、借号法、组配法、空号法等特殊标记方法分类号与类目等级相对应的标记制度。如G270.696(3)说明和注释是对分类表结构及其使用方法的揭示,用它进一步阐释分类法的编制原理、特点和使用方法,明确类目之间的关系,确定类目的性质和范围,确定雷芬图书时的方法。主要包括编制说明、大类说明和类目注释。97(4)类目索引概念:从类目名称字顺查找相应分类号的类表辅助工具。作用:1)帮助不熟悉分类表的使用者从主题名称迅速找到相应的类目。2)集中分类表中被分散的同一事物不同方面的类目,弥补分类表按学科集中,却将同一事物的不同方面分散的不足。3)将名同实异的类目集

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开