中南大文献信息检索教案_第1页
中南大文献信息检索教案_第2页
中南大文献信息检索教案_第3页
中南大文献信息检索教案_第4页
中南大文献信息检索教案_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教案科目:文献信息检索任课教师姓名:授课对象:四年制专业:医学信息学学年制:4年级:20级人数:次数:1授课章节、内容:第一章文献信息检索基础授课时数:150分钟学时:3[目的与要求]了解文献、知识、信息的概念及其相互关系。了解文献信息数据库的类型、结构及检索途径。熟悉科技文献信息的特点。熟悉文献信息检索的类型和检索途径掌握文献的类型和级别。掌握文献信息检索的涵义、原理掌握文献信息检索技术和检索策略。[重点]文献的类型、级别。信息检索技术及检索策略的构建。[难点]文献信息检索的原理信息检索技术及检索策略的构建。[板书设计的要求]第一章文献信息检索基础第一节信息检索概述(50分钟)一、文献、信息概述(20分钟)二、信息检索概述(30分钟)第二节信息检索原理(40分钟)一、信息检索工具(20分钟)二、信息检索模型(10分钟)三、信息检索效率(10分钟)第三节检索途径与技术(30分钟)一、检索途径(10分钟)二、检索技术(20分钟)第四节检索策略(30分钟)一、检索策略的涵义(5分钟)二、检索策略的构建(15分钟)三、检索策略的调整与修正(10分钟)[教学教具]多媒体教学课件直接上网[详细教案]第一章文献信息检索基础第一节信息检索概述一、文献、信息概述(P1)1.文献、知识和信息的概念(P1)文献(Literature,Document):是记录有知识的一切载体。记录知识的具体内容记录知识的手段:如文字、图像、符号、声频、视频等;记录知识的物质载体:如纸张、光盘、录像带等记录知识的表现形态:如图书、期刊、专利说明书等知识(Knowledge):是人们在认识和改造客观世界的实践中所获得的认识和经验的总和。是人们对客观事物的本质和规律的认识。信息(Information):是物质存在的一种方式、形态或运动状态,是事物的一种普遍属性。2.文献的类型(P1)(1)按载体类型划分:印刷型、电子型、视听型和缩微型。(2)按出版类型将文献划分:图书、期刊、专利文献、会议文献、学位论文、科技报告等。图书(P275)期刊专利文献(P184)会议文献(P199)学位论文(P193)科技报告(P211)同一研究常存在不同的出版类型如湘雅医学院徐绍锐博士对黑胸大蠊的研究就先后以会议论文、博士学位论文、期刊论文、专利文献等多种形式出现。博士论文:《黑胸大蠊生物学特性及药用价值研究》专利:如CN200510031439.1《黑胸大蠊提取物在制备抗炎免疫药物中的应用》期刊论文:如《黑胸大蠊室内繁殖发育的生物学特性研究》会议论文:如《黑胸大蠊特异性抗原生化免疫学特性分析》3.文献的级别(P3)(1)零次文献(ZeroDocument)零次文献指未经正式发表或未进入学术交流的最原始的文献。(2)一次文献(PrimaryDocument):是指作者以其本人的研究成果(如实验、观察、调查研究等的结果)为基本素材写成的原始创作,如专著、期刊论文、科技报告、学位论文等。(3)二次文献(SecondaryDocument):是将大量无序、分散的一次文献收集、整理、加工、著录其特征,如著者、篇名、分类、主题、出处等,并按一定的顺序加以编排,形成供读者检索所需一次文献线索的新的文献形式,如索引、文摘、目录以及其相应的数据库等。因其具有的检索功能而称之为检索工具或检索系统。(4)三次文献(TertiaryDocument):是科技人员围绕某一专题,借助于二次文献,在充分研究与利用大量一次文献的基础上,经过阅读、分析、归纳、概括,撰写而成的新的文献。表现形式主要有:综述(Review)、述评(Comment)、进展(Progress、Advance)、现状(Update)、发展趋势(Trend)等期刊文献和百科全书、年鉴、手册等参考工具书。4.科技文献信息的特点(P4)数量庞大,增长迅速。文种繁多,但呈明显的英文化趋势。文献分布既集中又分散,但呈专题化或专集化趋势。知识老化加快,文献寿命(半衰期)缩短。交流传播速度加快。二、信息检索概述(P5)1.概念广义的信息检索包括信息的存储和检索两个过程(StorageandRetrieval)。信息存储是指将大量无序的文献信息集中起来,根据信息源的形式特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统.信息检索是指运用编制好的检索工具或检索系统,查找出满足用户需求的特定信息。狭义的信息检索是指根据用户的需求,利用检索工具或检索系统,查找出符合用户特定需要信息的过程。2.类型(P5)(1)检索手段手工检索计算机检索联机检索光盘检索网络检索(2)数据格式和检索技术文本信息检索多媒体信息检索超媒体和超文本检索3.意义与作用(P6)是获取科学知识的最佳捷径。避免科研工作重复、少走弯路。提高科研、生产的效率,节省时间。提高信息素养。第二节信息检索原理一、信息检索工具(P6)(一)印刷型检索工具1.主要类型目录检索工具:《全国新书目》、《全国总书目》、馆藏目录、资料来源目录。题录检索工具:美国《医学索引》(IM)。文摘检索工具:BA、CA、EM。参考工具书:词(辞)典、字典、百科全书、年鉴、手册、名录。2.结构编辑说明部分正文部分辅助索引部分附录部分3.常用印刷型检索工具(二)计算机检索工具1.系统构成逻辑构成:信息选择与采集子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。物理构成:硬件、软件、数据库、通讯网络。例:Dialog(P109)中的CA文档例:文档说明例:记录例:字段2.数据库类型(1)书目数据库(bibliographicdatabase):是二次文献数据库,主要存贮相关主题领域的各类文献资料的书目信息,包括机读版的文摘、题录、目录、索引等。用户可从大量文献记录中筛选出有参考价值的文献源,并依据记录提供的来源指示获取一次文献。举例:中国生物医学文献数据库(P74)、PubMed(P84)、EMBASE(P93)等。(2)事实型数据库(FactDatabase):提供有关事物、人物、机构等方面的事实性信息。举例:ClinicalTrials(临床试验数据库)是通过对自愿接受试验患者的临床研究,观测药物、诊断方法、疫苗和其他治疗方法对某一种疾病或症状是否安全和有效。(P258)(3)数据型数据库(NumericDatabase):提供数值性信息,包括各种统计数据、科学实验数据、各种测量数据等。举例:WHOSIS:可以获取以下统计数据和资料:疾病负担统计、死亡原因统计、世界卫生报告年度统计、卫生从业人员统计、人口统计、HIV/AIDS信息与数据、精神病死亡率统计、免疫接种统计等统计数据,以及疾病负担计划、国际疾病分类法及WHO术语信息系统、卫生系统成就、全球酒精数据库(GlobalAlcoholDatabase)等与卫生和卫生统计有关的资料。(P264)美国疾病控制与预防中心(CDC)的DataandStatistics等。(P266)(4)全文型数据库(Full-textDatabase):收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。优点:集文献检索和全文提供于一体;提供全文字段检索。举例:中国学术期刊全文数据库(CNKI)、万方数据资源的数字化期刊、OVID全文数据库、ElsevierScience的SDOS等。(5)多媒体数据库(MultimediaDatabase):是数据库技术与多媒体技术相结合的产物,是文本、图像、声频、视频等多媒体信息的集合。举例:NLM的可视人计划(TheVisibleHumanProject)、哈佛大学医学院的全脑图谱(TheWholeBrainAtlas)、Utah大学的病理学图谱(WebPath)等。(P252)(6)知识库(Knowledgebase):是按一定要求存贮在计算机中的相互关联的某种事实、知识的集合,是经过分类和组织、序化的知识集合,是构造专家系统(ES)的核心和基础。举例:基因百科全书的GenCard。二、信息检索模型(P10-12)1.定义:信息检索模型是反映信息检索过程及相关因素之间规律的一种抽象的数学表达。2.作用:用数学表达式定量地阐述其本质的特征、运行机制和变化发展规律。揭示检索系统的信息与用户信息需求之间的复杂的匹配、计算和比较规则。分析和预测信息检索各种相关影响因素及作用的大小,以此来指导用户提出和设计最佳的信息存储形式及信息检索提问。使信息检索系统能最大程度地便利用户检索,用户的信息检索需求能获得最大程度地满足,促进检索效率的提高。3.类型布尔检索模型(BooleanLogicRetrievalModel)向量空间模型(VectorSpaceModel)概率检索模型(ProbabilisticRetrievalModel)模糊检索模型(FuzzyRetrievalModel)逻辑检索模型(LogicRetrievalModel)概念检索模型(Concept-basedRetrievalModel)案例检索模型(Case-basedreasoningRetrievalModel)三、信息检索效率(P12-13)信息检索效率是研究信息检索原理的核心,是评价一个信息检索系统性能优劣的质量标准,它始终贯穿信息存储和检索的全过程。衡量信息检索效率的指标:查全率、查准率、漏检率、误检率。理想的检索效果是查全率和查准率同时达到100%。但事实上很难达到全部检出和全部检准的要求,而只能达到某个百分比。第三节检索途径与技术一、检索途径检索途径为检索系统的检索入口,即检索系统所提供的、用以查寻获取资源的各种标识,在计算机检索中通常表现为字段检索。常见的计算机检索途径有以下8种:1.缺省途径指自动在检索系统预先设定的多个字段中同时进行检索。如CBMDisc的缺省字段包括中文题名、关键词、主题词、文摘、刊名、特征词等字段进行检索。2.分类途径分类途径是利用文献在分类体系中的位置(类目名称或分类号)作为检索入口查找文献的途径,可满足用户从学科、专业等内容出发获取文献的需要。3.主题词途径是利用主题词(SubjectHeadings)作为检索入口查找文献的途径。主题词是经过优选和规范化处理的词汇,由主题词表来控制,常见的医学主题词表有美国国立医学图书馆编制的《MedicalSubjectHeadings》及《中医药学主题词表》主题词途径有助于提高查全率与查准率,但维护成本高。目前支持主题词检索的检索系统主要有CBMDisc和Pubmed.4.自由词途径自由词途径是利用自由词(TextWord)作为检索入口查找文献的途径.自由词是检索工具中所出现的任意词汇(通常除开无实质意义的词汇),主要包括题名词、关键词、文摘词和全文词等有实质意义的词。自由词检索用词灵活、自由、直观、符合用户习惯,因而应用广泛。但自由词不能反映概念间的一一对应关系,也不能反映概念间的等级从属关系,因而自由词检索时应同时考虑使用所选自由词的同义词、近义词、专指词等相关词进行检索,避免漏检文献。5.著者途径是利用文献上署名的作者、编者或机关团体名称作为检索入口查找文献的途径。查外文数据库时,须注意外文数据库对著者姓名的特殊处理方式。6.题名途径利用题名(如书名、刊名、篇名)作为检索入口的查找文献的途径。检索方式有题名浏览和提问检索两种方式7.引文途径从参考文献入手查找文献的途径。8.序号途径利用文献特有序号查找文献的途径.常见序号有专利号、报告号、化学物质登记号等。二、检索技术1.布尔逻辑检索逻辑与(AANDB)、逻辑或(AORB)A、逻辑非(ANOTB)、逻辑异或(AXORB)2.截词检索用截词符号“?”、“*”或“$”加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率。主要用于西文数据库检索。中文数据库通常不使用这种技术。举例查找“全脸移植术”相关的研究文献“变脸”后“变脸”前(帕斯卡尔·科勒,6岁,神经纤维瘤)法国顶尖整形医生劳伦特·蓝提耶利的杰作(2008,3,新华网)3.限定检索4.相关反馈检索5.跨库检索第四节检索策略一、检索策略的涵义广义的检索策略是指用户根据检索需求选择相应的数据库、确定检索方式、检索途径及相应检索表达式进行检索的一系列操作或方案,是用户检索目标的体现。狭义的检索策略指用户确定检索表达式进行检索的系列操作。检索策略的重要性二、检索策略的构建1.分析课题,明确实质需求2.选择合适的检索工具或数据库选择检索工具时要考虑是否与文献需求紧密结合、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的工具以及检索系统的检索功能是否完善等。根据检索需求,选择数据库:(1)强调“准确”:这类检索需求的针对性强,多是解决某个具体问题,此时应选择提供的数据比较准确、权威的数据库。(2)强调“全面”:这类检索需求要求全面了解某一特定领域的基本知识、现状及发展趋势,因而应选择覆盖文献年限长、收录某一特定领域文献较多的数据库,必要情况下还需要选择多个相关数据库。(3)强调“全文”:可选择全文数据库或提供全文传递服务的数据库。(4)强调“新颖”:即需获取最新的信息,检索年限不要太长,应选择数据更新快、包含最新信息的数据库。(5)强调“深入”地获取某数据库信息,应选择单库检索,强调“广泛”地获取某方面的信息,应选择跨库检索,节省检索时间。(6)强调“类型”:即用户想获取某一特定类型的文献,如期刊论文、学位论文、专利文献、循证医学证据,应根据需求灵活地选择包含相应资源的数据库。3.概念分析并转换成系统检索词4.拟定检索提问式和检索途径拟定好检索式后,就要选择检索途径或检索入口或检索字段,常用的检索入口有题名、著者、主题词、关键词、引文、文摘、全文、出版年、分类号等。检索途径正确与否决定着检索结果的数量和质量,如使用全文检索,结果数量大,但相关性差;使用题名或文摘检索,结果数量少但较准确。三、检索策略的调整与修正优化检索策略的方法P19扩检:对检索数量比较少的结果,扩大检索范围,提高查全率。增加补充检索词及近义词、同义词、上位词、缩写、全称等;扩大概念组配范围,变逻辑“与”为逻辑“或”;取消或放宽检索限定,如年限或核心刊与否;增加或修改检索途径,如改题名检索为文摘检索或全文检索等。缩检:对检索数量过多的结果,缩小检索范围,提高查准率。细化主题与分类,更多地采用下位词或下位类;通过浏览结果选择更专指的词;缩小概念组配范围,利用and,not,with,near等加以限制或排除;指定检索字段,及从年代和地理及语言,文献类型上进行限制。科目:文献信息检索任课教师姓名:胡德华授课对象:本科生专业:医学信息学学年制:4年年级:2006级人数:53次数:1次授课章节、内容:第二章文献信息检索语言授课时数:150分钟学时:3学时【目的与要求】了解文献信息检索语言的定义、表现形式、功能和种类。熟悉分类检索语言及其应用。熟悉主题描述语言及其应用。熟悉医学信息检索语言及其应用。了解UMLS的历史沿革、目标及主要组成部分。掌握超级叙词表的结构、收词特点、概念间关系的表达模式。掌握语义网络、语义类型和语义关系。熟悉UMLS在医学信息检索中的应用。熟悉UMLSKS的使用。掌握本体的概念、组成、作用。熟悉本体与分类表、主题表的联系与区别。熟悉本体表示语言和本体构建工具。掌握本体开发步骤。【重点】UMLS的结构、收词特点、概念间关系的表达模式;本体表示语言和本体构建工具。UMLS和本体语言在文献信息检索系统中的应用【难点】UMLS的结构、收词特点、概念间关系的表达模式;语义网络、语义类型和语义关系;本体的开发步骤。【板书设计的要求】第二章文献信息检索语言文献信息检索语言及其应用(50分钟)文献检索语言及其种类(10分钟)二、分类检索语言及其应用(15分钟)三、主题检索语言及其应用(15分钟)四、医学信息编码及其应用(10分钟)第二节一体化医学语言系统(50分钟)一体化医学语言系统概述(5分钟)超级叙词表(15分钟)语义网络(10分钟)专家词典(10分钟)知识源服务器的使用(5分钟)一体化医学语言系统在信息检索中的应用(5分钟)第三节本体语言及本体的构建(45分钟)一、本体(Ontology)的概念(5分钟)二、本体(Ontology)的组成(5分钟)三、Ontology的作用(5分钟)四、本体与分类表、叙词表的联系与区别(5分钟)五、本体与知识库(5分钟)六、本体表示语言(5分钟)七、本体构建工具(5分钟)八、本体的开发步骤(10分钟)[教学教具]多媒体教学课件直接上网[详细教案]文献信息检索语言第一节文献信息检索语言基础知识及其应用一、文献信息检索语言及其种类1.定义检索语言是用于描述信息系统中信息的内容特征或外表特征和表达用户信息提问的专门语言,是人与信息系统对话的基础。文献检索语言就是文献信息检索系统中的标识系统,能提供多种多样的检索点,如著者名、分类号、主题词、关键词等。2.表现形式一套词汇(如主题词表)一套分类代码(如分类法)一套代码(如代表化合物的多种代码)3.作用对文献和网络信息的内容进行逻辑分类、主题标引特定信息的描述和揭示提供检索点,如分类号,主题词等4.种类(1)文献外表特征检索语言文献题名索引系统,如书名目录,收录期刊一览表著者索引系统,如著者索引、专利权人索引文献序号索引系统,专利号索引、技术标准号索引引文索引系统,如美国SCI、中国科学引文数据库(2)文献内容特征检索语言分类检索语言主题描述语言二、分类检索语言及其应用1.定义:将各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列,以代表类目的分类号(如字母符号、数字等)作为文献标识的一类检索语言。2.主要分类法《中国图书馆分类法》(《中图法》)美国《国会图书馆分类法》(LibraryofCongressClassification,LCC)、《杜威十进分类法》(DeweyDecimalClassificationandRelativeIndex,DDC)《美国国立医学图书馆分类法》(NLMC)3.应用图书馆藏书排架组织目录体系其它文献如期刊论文的分类文献数据库和数字图书馆联机信息检索系统的组织与检索网络信息资源的组织与检索4.自创分类法的代表:Yahoo的类目体系根据大类拥有的信息量及知识组织的需要,每一个基本类目下又细分为不同层次的次一级类目,形成“树状”分类结构,级别越低的类目中的网站其主题越明确;再根据不同用户的习惯,以及不同的分类方式,把不同类目下“相关”的类目用参见“@”链接起来,形成“网状”分类体系,从而构成“纵向成枝、横向成网”的类目体系。5.缺陷和不足,类目涵盖面窄;类目划分标准模糊;未设分类标记;三、主题描述语言及其应用1.定义:用于表达文献主题内容的词语标识系统,应用较多的是主题词法和关键词法。2.主题词法特点:采用指定的词语;采用参照系统指向意义相关关系;多方面显示词间关系;主题词不断有增删修订定期更新。最具代表性的主题词法:MeSH(《医学主题词表》)3.关键词法(1)关键词(Keyword)是指出现在文献或网页的标题(篇名、章节名)或文摘、全文中,能表达文献实质内容的,或者能被人们作为检索入口的关键性名词术语。在计算机检索系统中,关键词法得到更广泛深入的应用。提供更多的检索入口。(2)优点语词直接采用出现在最新文献或网页中的专业自然语言,一些在科学发展中最新出现的专业名词术语能及时进入索引系统。计算机编制关键词索引还具有速度快、时差短。(3)缺陷:①关键词法用词不作规范或稍作规范,未标明其等同关系,从而导致同一主题文献信息因为用词不同而分散,容易造成漏检;②若平均每篇文献信息标引的关键词较多,误检的可能性会增大;③关键词法难以准确揭示文献实质内容,检索的准确性较差。四、医学信息检索语言及其应用1.定义:表达医学信息的语言、文字、图形、图像等都必须赋予有一定规律性、易于人和计算机识别与处理的代码,即数字、字母、字符等符号。2.主要的医学信息编码系统:国际疾病分类(ICD)国际系统医学术语集(SNOMED)当代操作术语集(CurrentProceduralTerminology,CPT)UMLS第二节一体化医学语言系统(UMLS)一、基本概况1.UMLS的全称UnifiedMedicalLanguageSystem-开始于1986年-主持机构:NLM2.目标:提高计算机程序“理解”生物医学词汇涵义的能力,并运用这种理解帮助用户通过多种交互检索程序,克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题。3.组成超级叙词表(Metathesaurus)语义网络(SemanticNetwork)专家词典(SpecialistLexicon)二、超级叙词表1.收录了1,268,035概念(concepts)5,963,467概念名称(uniqueconceptnames(AUIs))概念间关系(Inter-conceptrelations)2.来源于133词表约80个术语表多种译本(e.g.,MeSH,ICPC,ICD-10)变异本(variants)(American-Englishequivalents,Australianextension/adaptation)不同版本(ICD:9-10;DSM:IIIR-IV)一般术语表解剖学术语表(UWDA,Neuronames)药物术语表(RxNorm,FirstDataBank,Micromedex)医疗机械术语表(UMD,SPN)学科专业术语表临床术语(SNOMEDCT)信息科学(MeSH,CRISP)管理科学术语(ICD-9-CM,CPT-4)数据交换术语(HL7,LOINC)护理学(NIC,NOC,NANDA,Omaha,PCDS)牙科学(CDT)精神病学(DSM,APA)不良反应(COSTART,WHOART)保健(ICPC)基因组学(GO,OMIM,HUGO)-知识库(AI/Rheum,DXplain,QMR)3.组织形式Concept(~1.2M) CUI-同义概念Term(~4.2M) LUI-正式名称String(~4.8M) SUI-不同概念名称Atom(~5.6M) AUI-某一来源词表的概念4.概念的变更概念永不变更(原则上)-CUIs是概念永久标识码概念消失(现实中)概念可能合并或分离导致新概念的产生和旧概念的删除4.概念间关系同义关系:~9Mpairsofconcepts统计关系:~7Mpairsofconcepts

(co-occurringconcepts)映射关系:100,000pairsofconcepts分类:概念与语义类型之间的关系来自于语义网络SymbolicrelationsRelationPairof“atom”identifiersTypeAttribute(ifany)Listofsources(fortypeandattribute)Semanticsoftherelationship:definedbyitstype[andattribute]5.概念组织概念间关系:来自各词表的体系冗余:多个路径一张图替代多棵树(多重继承)三、语义网络1.语义类型(135种)树型结构2个顶层Entity(物)PhysicalObject(实体物)ConceptualEntity(概念物)Event(事)Activity(活动)PhenomenonorProcess(现象或过程)2.语义关系语义关系(54种)等级关系(isa=isakindof)amongtypesAnimalisaOrganismEnzymeisaBiologicallyActiveSubstanceamongrelationstreatsisaaffects非等级关系SignorSymptomdiagnosesPathologicFunctionPharmacologicSubstancetreatsPathologicFunction语义关系继承3.语义结构4.语义网络四、专家词典处理和管理医学术语的词汇变异主要词典工具NormalizationIndexesLexicalVariantGenerationprogram(lvg)知识源服务器的使用超级叙词表的查询语言义网络的查询专家词典的查询数据下载六、在信息检索中的应用在生物医学文献数据库中的应用PubMedNLMGatewayEntrez2.在医学专业搜索引擎中的应用本体语言及本体的构建一、本体(Ontology)概念1.起源于哲学领域Ontology是研究“存在”(Being)的科学,包括研究“存在”的本质和“对客观世界存在的系统化描述”。本体论,又叫存在论2.人工智能领域1991/Neches等:本体是由一些术语、术语间关系和规则组成,其中术语和术语间关系是用来描述相关领域的知识,而规则是用于术语和术语间关系的推理。1993/Gruber:概念模型的明确的规范说明;1997/Borst:共享概念模型的形式化规范说明;1998/Studer:共享概念模型的明确的形式化规范说明3.特征(1)概念模型(conceptualization)通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态(2)明确(explicit)所使用的概念及这些概念的约束都有明确的定义。(3)形式化(formal)Ontology是计算机可读的。(4)共享(share)体现的是共同认可的知识,是相关领域中公认的概念集,它所针对的是群体而不是个体。二、本体(Ontology)的组成一个本体的组成:类(classes)或概念(concepts)及其关系属性(properties)或槽(slots)属性限制条件(restrictions)或分面(facts)实例(instances)或个体(individual)公理(规则)三、Ontology的作用Tosharecommonunderstandingofthestructureofinformationamongpeopleorsoftwareagents(在用户或软件代理之间共享信息组织结构的共同理解)Toenablereuseofdomainknowledge(有助于专业领域知识的复用)Tomakedomainassumptionsexplicit(使专业领域内的假设更加明确)Toseparatedomainknowledgefromtheoperationalknowledge(将专业领域知识从操作性知识中分离出来)Toanalyzedomainknowledge(有助于分析专业知识)四、本体与分类表、叙词表的联系与区别1.联系均是一种知识组织、知识管理的方式分类表和叙词表能实现的功能,本体均能实现2.区别本体具有知识推理功能:智能查询、自然语言问答、机器翻译、知识预测等;本体比分类表、叙词表对概念(术语)、关系刻画得更全面、深入、细致;本体的组织结构是立体的、网状的和多维的,而分类表、叙词表是线性的。五、本体与知识库20世纪80年代中期,知识库成为人工智能和数据库界研究热点,注重知识表示和推理机制研制。在某一专题领域或规模较小的系统有效,但是对于大型知识库系统却无能为力。本体提供一组术语和概念来描述某一领域,知识库则是使用这些术语来表达该领域的知识(事实)。例如:突发公共卫生事件本体包含“鼠疫”、“传染性非典型肺炎”等术语的名称、定义…..,但它不会包含某一具体事件的具体内容,而这些是知识库所要表达的内容。理想的领域知识库应该是建立在领域本体的基础之上的,而且本体为人们描述目标世界提供了一组通用词汇,而这种通用的词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知识的标准化。在一定程度上,本体库就是一种知识库。六、本体表示语言1.作用为本体的构建提供建模语言作为本体转换标引的工具:自然语言格式的本体转换成机器可读的逻辑格式;作为本体交换的标准格式;形式化语言表示,利用机器可读的形式化表示语言表示本体,可以直接被计算机存储、加工、利用,或不同系统之间的相互操作目前本体表示语言有20多种。基于AI(人工智能)的本体表示语言KIF、Ontolingua、CycL、Loom、OCML、FLogic等。基于Web的本体表示语言SHOE、XOL、RDF、RDF-S、OIL、DAML、DAML+OIL、OWL等。基于Web的本体表示语言的产生尽管Ontolingua、CycL、Loom等本体表示语言在知识推理方面具有各自明显的优点,但是与现有的web语言没有联系,逐渐淡出了web本体表示语言的选择行列。Web的发展,搜索引擎的缺陷浏览器和搜索引擎的智能太低,基本上还是采用关键字匹配的办法;不能理解用户的需要不能理解概念,从而进行语义关联。解决的根本方法就是变无序数据为有序知识,让计算机能够理解Web信息,同时理解用户的需求。基于Web的本体表示语言的发展基于Web的本体表示语言层次关系基于Web的本体表示语言-OWLOWL(WebOntologyLanguage,Web本体语言)是W3C推荐的本体描述语言的标准。OWL是在DAML+OIL的基础上发展起来的,作为RDF(S)的扩展,目的是提供更多的元语以支持更加丰富的语义表达,并更好的支持推理。针对不同的需求,OWL有三个子语言:OWLLite、OWLDL和OWLFull。七、本体构建工具达90多种,成熟的、知名度较高的、较常用的不足10种。常见的构建工具有:OntolinguaOntoSaurusWebOntoProtégé3.1beta本体构建工具-Protégé3.1beta(1)Protégé3.1beta由斯坦福大学为知识获取而开发的一个工具。是目前较活跃的本体工具,Protégé3.1beta可以免费下载,已经有16500多注册用户使用。它用Java语言开发,通过各类插件支持多种本体格式,甚至已经能够支持刚刚发布的,也是目前最有前途的W3C的OWL本体语言。(2)它提供了基于图形和交互式的知识本体设计开发环境,协助知识工程师和领域专家进行知识管理。本体开发人员可以直接实施导航和管理本体的操作。树型控制实现了在类层次结构中进行迅速和简单的导航。Protégé采用表单作为输入槽值的界面。Protégé3.1beta的知识模型与OKBC兼容,支持类和类层次结构的多继承,模板和私有槽,槽的任意面和定义的明确说明,明确说明包括值、基数约束、默认值、逆转槽、元类和元类的层次结构。(3)Protégé3.1beta两个重要特征:可伸缩性和可扩展性。Protégé3.1beta可以构建和使用包括150,000个框架的本体。Protégé3.1beta体系结构最主要的优势是它的开放的模块化的设计。基于组件的体系结构使系统开发者可以通过生成恰当的插件了增加新的功能。Protégé3.1beta将开发的本体可以转换成多种本体表示语言,如XML、RDF(S)、OIL、DAML、DAML+OIL、OWL等。八、本体的开发步骤构建Ontology是一项持续的研究。Ontology包括构成所有领域知识表示基础的最普通的术语和特定领域专用的术语。例如:空间、时间等术语;而新发传染病、传染性非典型肺炎等医学领域。工具的选择Protégé3.1beta本体描述语言的选择OWL本体构建过程(1)确定本体领域与范围本体涵盖的专业领域?开发该本体的目的和用途?本体应该能回答哪些类型问题?这些问题可随时调整,并要保持相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论