




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 联机检索策略与检索步骤,一、用户需求及其表达 二、信息检索途径 三、检索策略及其类型 四、检索式构造及其反馈调整(重点),第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型 满足用户信息需求信息检索系统的出发点和落脚点。 信息检索的重点“数据为中心” “用户为中心” 1. 用户信息需求的层次 意大利学者米扎罗(1998)在论述信息检索的相关性问题时认为,用户信息需求可分为4个层次: (1)潜在真实的信息需求(RIN) 最原始状态,往往不能确定获取信息的途径。 (2)意识或感知到的信息需求(PIN) 对问题的认识有所深化。,第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,1. 用户信息需求的层次 (3)用户表达出的信息需求(Request) 以口头或书面语言的形式明确表达出来。 (4) 符合检索系统语法要求的提问式(Query) 用户进入系统进行查询。 图7-1示出用户信息需求的不同层次及状态转化。 实际上,检索系统处理的主要是信息提问,但可能仅仅是用户真实需求的一小部分。 可见,在信息检索领域中,人机交互十分重要。,第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型 2.用户信息需求的类型 用户的需求类型一般有三种: 第一类对最新信息的需求。 特点:新颖性。 要求:快速、及时。(时效性强) 如新闻、正在举办的体育大赛、大选结果、科技创新项目等。 第二类了解某一理论、方法、设备、过程的片断性信息。 特点:准。(查准率) 用途:有针对性,解决具体研究或设计问题。,第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,一、用户需求的层次与类型 2.用户信息需求的类型 第三类对某一课题进行系统、详尽的了解。 特点:全。(查全率) 用途:综述、评价、鉴定等。 如某研究领域综述、编写教材等。往往需要追溯较长时间跨度的大量文献资料。 另外一类需求原文需求 已知作者或文献资料的名称,希获得该文献的原件、复印件。,第七章 联机检索策略与检索步骤 7.1 用户需求及其表达,二、用户需求的分析与表达 模糊的情报需求 明确的情报提问 例:要检索“智能信息处理领域20022004年间出版的外文资料”。 如何分析与表达? 要求: 内容准确、全面。正确揭示和描述用户情报需求。 形式简单。便于书写,且易于计算机处理。,第六章 联机检索策略与检索步骤 7.2 信息检索途径,2.主题途径 以课题的主题内容为出发点,利用主题检索语言(如主题词、关键词、叙词、标题词等)来查找文献。 各学科领域的有关课题的信息按字顺集中于同一主题。使用时像查字典一样找到主题词。 优点:直接、准确,采用的概念易于理解,查寻时便于选取。 3.题名途径 按已知的书刊名称、论文篇名等来检索文献信息。 利用题名检索工具,如书名目录、篇名索引、期刊名称文档等。,第六章 联机检索策略与检索步骤 7.2 信息检索途径,4.著者途径 按照已知的文献作者名来检索文献信息。 著者包括个人著者、团体著者、专利权人等。 国外对著者途径非常重视,许多系统作为最基本的检索功能。 著者检索的特点: 检索者或科研人员通常熟知自己从事的领域中的知名学者、专家、同行,以及竞争对手企业的名称。通过该途径检索,可系统地发现这些作者或机构的研究成果或进展的最新信息,达到多快好省的检索效果。,第六章 联机检索策略与检索步骤 7.2 信息检索途径,5.代码检索 通过已知文献或信息的专用代码查找信息的途径。其前提是已掌握欲查信息的代码。 如,ISBN、ISSN、专利号、合同号、产品代码等。 利用具有全球唯一性的ISBN或ISSN,可迅速从数据库中查询图书或期刊;利用SIC(美国标准工业代码),可快捷地检索出美国企业商场的产品。 6.其它途径 如出版日期、出版国别、语种等。,第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,一、检索策略的概念 检索策略:在分析情报提问实质的基础上,确定检索途径与检索用词,并明确各词间的逻辑关系与查找步骤的科学安排。 检索策略的实质是对整个检索过程的谋划,以反映用户检索意图,实现检索目标。 检索策略涉及:检索课题的目标、范围,选择的检索系统,检索途径,检索标识和组配,检索反馈调整措施等。 要构造一个良好的检索策略,需要多方面的知识和技能。由于检索分为手工和计算机两种,相应地检索策略有两种: 手工检索检索策略以隐性的方式存在于人脑中(眼看、手翻、脑子判断) 机器检索检索策略需要事先制定,相对固定化和形式化(计算机自动实现),第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略 美国人鲍纳(C.Bourne)提出5种联机检索用的检索策略。 1. 积木型策略 含义:用户检索请求或检索课题剖析成若干不同的概念面,先分别对几个概念面检索,并用“OR”连接成子检索式,然后再用“AND”把所有子检索式连接起来,构成一个总检索式。(类似与拼积木) 例如,检索课题“未成年人的毒品滥用”。 可分解成两个概念组面:未成年人、毒品滥用。 上述两个概念组面涉及到的各种词汇可构造为两个子检索式S1和S2,总检索式S=S1 AND S2. 特点:适合复杂的多概念检索课题,但缺乏交互性。,第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略 2. 引文珠形增长型策略 含义:从少数几个专指词开始检索,以便至少检索出一篇命中文献,然后审阅检出的文献,从中选出一些新的相关词,补充到检索式中去。从而查出其它新的命中文献。不断重复上述过程,直至找不到相关附加词,或已获得了满意的检索结果。 (类似“滚雪球”) 例如,查找“中国学者对哥德巴赫猜想的研究贡献”的资料。 从数学家“陈景润”入手找到陈景润的相关论文,查阅内容和参考文献其他中国学者如潘承洞、王元的工作和成果. 特点:直接、灵活,交互性好,可提高查全率和查准率。但要求用户有较丰富的领域知识。,第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略 3. 逐次分馏型策略 含义:先确定一个相当大、范围较广的检索初始对象集合,然后再提高检索的专指度,得到一个较小的命中结果集合;继续提高检索的专指度,一步一步缩小命中结果集合,直至得到数量适宜、用户满意的结果。 (类似于“剥竹笋”,逐步逼近核心部分) 特点:该策略有利于确保检索的全面性。,第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略 4.最专指面优先型策略 含义:检索时先从课题中最专指的概念面入手,浏览检索结果后如果发现检索出的文献已经比较专指,则停止检索;如果检出的结果不够专指,再将课题中其它概念面加入检索式中并进行逻辑组配。 例如,检索课题“高等教育中学分制的由来与发展”。 可选择“学分制”这个概念面,它比“高等教育”较专指。 特点:该策略简洁、查准率高,节省时间。,第六章 联机检索策略与检索步骤 7.3 检索策略及其类型,二、常用联机检索策略 5. 最低登录量面优先(lowest postings facet first)策略 登录量: 一个索引词在倒排文档中的出现次数。 该策略的含义:首先查找数据库的倒排文档,确定检索词的登录量值,然后以登录量最少的概念面为检索入口开始检索。如果命中文献数量相当少且符合检索要求,就不必再继续检索其它的概念面。 这一策略与“最专指面优先”策略相似。 说明:以上5种检索策略并非彼此独立的,可以结合使用,尤其对大型检索课题,常常将多种检索策略融合在一起。,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,一、检索式的概念 检索式:检索策略的逻辑表达式,指计算机检索过程中用来表达用户检索提问的逻辑表达式,由检索词和各种逻辑算符及其它组配连接符号组成。 检索式举例: (国防 AND 科技) NOT 贸易. 意义:检索式是检索策略的逻辑表达和具体体现,其质量高低直接影响到检索的成败。 检索式的基本类型:布尔逻辑检索式、位置算符检索式,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,二、检索式的构造 构造检索式主要涉及2个问题:选词、组配。 1检索词(或检索项)的选择 常用的检索词可分为两类:受控词,非受控词。 (1)受控词(control term) 受控词:一种事先规范化的语言,取自主题词表、叙词表等。 标引文献时使用词表对自然语言中词汇的同义性进行规范和控制;联机检索时受控词作为基本词汇。 特点:针对性强(专门领域);词表反映词与词间的相互关系(同义词、近义词、相关词、代用词等)。 主要优点:易于选择宽度适当的概念;便于用户检索时选取。 缺点:受控词表的收词个数有限,有时不适应用户需求。,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,1检索词(或检索项)的选择 (2)非受控词(uncontrol term) 取自文献篇名、文摘、和某些索引字段(作者、机构等)。也称为自由词。 主要优点:可任意选词,弹性较大;可选专指性较强的词;可及时使用新词汇来检索新文献。 主要缺点:缺乏词汇控制,不能解决词间关系问题;有时用户感到检索难度大。 选择检索词需要注意的问题: 注意所选检索词的全面性、专指性、一致性;因选词不当造成检索结果不满意时,要分析选词失误原因,根据具体情况来决定换词、增词、删词。,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,二、检索式的构造 2组配 把选好的检索词用系统规定或允许使用的符号连接组配起来,就构成了一个检索式。 如检索美国专利方面的文献,可构成如下检索式: America AND patent 常用连接组配符号: (1)布尔算符。如AND,OR 、NOT等 (2)截词符。对单元词加工修饰,如检索词的单复数,同一词根派生出的名词、动词形容词等。 如 brows* 后截断 organi?*ation 中间截断,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,2组配 常用连接组配符号: (3)位置算符。表示所连接的各个单元词间的位置关系,如限制两个检索词在文中出现的先后顺序、相隔距离,算符有W、N、X等。(表7-1) 如检索式 digital(W)library economic(2N)recovery (4)括号。构造检索式还常常用到括号,用来规定运算的优先次序。 (5)其它连接符。 注:不同检索系统有不同的规定。用户需了解和熟悉具体使用系统的规则。 思考题:用户欲检索2005年以来发表的智能检索技术方面的英文文献。试编制一个检索式 。,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,三、检索式的反馈调整 信息检索通常是一个不断调整、逐步求精的过程。为此,检索式的构造就是一个不断修改和完善的过程。 当用户对检索结果不满意时,可采用各种调节方法和反馈途经对检索式进行修改和完善。(闭环) 一般方法是通过查全率和查准率两个评价指标进行分析。 具体方法是调整检索式中泛指词、专指词和相关词的数量,及其逻辑组配关系,以达到来改善检索效果的目的。,第六章 联机检索策略与检索步骤 7.4 检索式构造及其反馈调整,三、检索式的反馈调整 对于需要较高查全率的检索课题,主要从扩检入手; 而对需要较高查准率的检索课题,一般是进行缩检。 (1)扩检提高查全率 采用的调整方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版旅游景点花卉景观鲜花采购协议
- 早读课件内容
- 二零二五年度旅游服务合同详细条款
- 二零二五年度钢筋材料仓储与物流合同范本-建筑工程专用
- 二零二五年度成都物业小区维修基金管理服务合同
- 二零二五年度建筑工程项目管理合作协议
- 二零二五年零售终端产品陈列与营销合作合同范本
- 2025版建筑工程项目管理咨询合同
- 2025至2030年中国间溴苯甲醛行业市场竞争格局及投资前景展望报告
- 二零二五年客户信用评价单方保密协议
- 结构方程模型的初级应用
- GA 1805-2022危险化学品经营企业反恐怖防范要求
- 全国中小学生语文素养展示活动组委会
- 工程变更管理制度含旧产品变更管理流程图
- 《氧化还原反应》完整版课件
- 做一名新时代的优秀教师课件
- 幼升小语文习题
- 伤寒论原文-可直接打印版(可编辑修改word版)
- 现场安全文明施工管理标准化手册
- 技术经济学概论整套课件完整版电子教案课件汇总(最新)
- 4-1第七章市场价格比较法
评论
0/150
提交评论