版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、针尊机鸟通信曇忆碎科望早业殺计说碉吊基于Web的信息检索系统研究作者:刘玖明学号:06240435专业:计算机科学与技术班级:四班指导教师:庞淑侠答辩时间:2010/6/17基于Web的信息检索系统研究Based on Web information retrieval system is studied刘玖明(Liujiuming)06240435基于Web的信息检索系统的研究计算机科学与技术06240435 刘玖明 指导教师庞淑侠摘要基于Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也硏究了主流的信 息检索算法,对信息检索进行了仿真实验。匝点介绍了信息检索
2、的理论、算法和技术框架。提出了面向Web的个性化 语义信息检索技术。为了解决或减少检索算法屮Hash地址的“碰撞”,把HASH的思想和索引顺序表检索的思想,以及 二分检索法的思想结合起來提出一种基于1IASII表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。关键词:信息检索;原理;算法;软件框架AbstractBased on the Web information retrieval system, and discusses the research of information retrieval, the principle of the evaluation method
3、s and research status and development direction, and studied the main stream of in for mat io n retrieval algorithm tor infor matio n retrieval, the simulation experiment. Mainly introduces the lheory of iniormalion retrieval algorithm, and lhe technical framework. On facing lhe semantic Web persona
4、lization infoimation retrieval technology. In order to solve or reduce the Hash algorithm of collision uaddress the Hash tables and indexes of thoughts in order of retrieval, and combining the two search Hash table is proposed based on the binary search, through the theoretical analysis and experime
5、nlal results show that this algorithm is high efficiency.Key Words: Information retrieval ; Princi pie and evaluat ion methods; Based on the HASH table of search: Software framework一、前言1990年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从 1990年的Ahn Emtage等人发明的Archie 的,虽然它只可以实现简单意义上的FTP文件检索。随 world wide web的出现
6、和发展,基于网页的佶息检索工具出现并迅速发展起来。1995年基于网络 信息检索工具本身的检索工具元搜索引擎山美国华盛顿大学的Eric Sei berg等发明。伴随着网络技术 的发展,网络信息检索技术工具也収得了十足的发展,己成为人们获収信息的重要手段。本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简 单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。二、信息检索的研究目的和意义(一)研究目的随着计算机的普及和互联网的发展,要想从海最的信息屮找到0C需要的信息无疑是一项极具挑 战性的工作。显然,仅仅依靠人工搜索和提取,英操作过程将非常繁琐
7、,并口速度和效率极低,信息质杲也得不到保证。解决人们获取信息的困难,迫切需要-些自动化的工具帮助人们快速找到真正需 要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是 一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。(二)研究意义信息检索系统的研究具有以下几方面的意义:1、解决信息超载和信息饥饿的矛盾山于信息的急剧增长,使得人们在获取知识时变得越來越困难。尽管像Google.百度等搜索引擎 技术能够给用户带來不少的帮助,但他们所返冋的结果往往与用户期望的结果相差茯远。对于多数用 户來说,在Web上寻找需要的信息就如同在大海中捞针一样困难。因此一方
8、面呈现出來的是信息的超 载,而另一方面呈现出來的是信息的饥饿,具原因是当前的检索着重与检索文档中存储的字词,检索 系统返冋太多的结果以至于用户无法逐个浏览,而其检索的准确率很低,不能满足用户需求。尤其不 能对泛概念(不确定的概念)进行有效检索。2、信息检索需要不确定性推理当今自然语言处理遇到的最大困难就是概念具有模糊性、随机性和近似性,他们都会引起推理的 不确定性和演化。概念作为外部事物在主观认知中的对应物成为思维活动的基本甲元,他不是孤立的, 是同外部背呆有各种联系,是演变和流动的过程。最近儿年中多种逻辑和不确定理论被提出,最典型 的是基于模糊集合论的IRS虽然模糊集合论对不确定性和随机性处
9、理有不同成都的进步,但均没有取 得可喜的效果,源彩视模糊集合论理论有许多不彻底性:首先,作为模糊集合论理论基石的隶属函数 概念的实质以及具体的确定方法没有谁清楚;其次,隶属函数一冃通过认为假定“硬化”成精确数值 表达后,就不再有丝毫的模糊性了。针対这个问题,在传统模糊集合理论和概率统计的基础上李徳毅 院士提出了云模型,云模型是白然语言的不确定性,尤英是模糊性和随机性的处理模型即定性与定量 之间的转换模型。3、适应个性化信息检索的需求在张扬个性、倡导创造性的现代信息社会里,个性化服务更是备受人们的关注和青睐。个性化信 息这个概念可以从两个两个角度分析:第一,个性化信息是值反映人类个体特性的一切信
10、息,这些信 息包括了这个个体的一些属性描述;第二,个性化信息是指山人类个体特性所决定的其对信息的需求 的一种信息纽合以用户为中心的信息检索,主要是研究用户的行为,理解他们的主要需求,根据这 些需求改进和完善检索系统的纽织和操作,向用户主动、及吋、准确的捉供所需信息。另外,数据挖 掘技术为信息检索提供理论基础。4、为检索评价提供新方法从大量数据集中检索出信息,需要有效的方法和工具,因此,检索评价的研究是十分必要的,新 理论的发展对检索评价的研究提供了基础。检索性能评价可以使检索工具开发商使用垠好的检索策略, 为用户提供更好的检索工。5、基于语义的信息检索传统的信息检索方法分为两大类:一是基于关键
11、词匹配地方法,这种方法首先让用户以关键词的 形式提出检索谙求,然后将用户提交的关键词与文档库中的文档进行匹配,最后将那些出现了用户所 提交的关键词的文档作为检索结果返冋给用户。第二类方法称为概念信息检索,它通过对文档中的信 息进行语义层次上的处理來析収各种概念信息,并山此形成一-个概念库,然后根据对用户的问题的理 解來检索概念库屮相关的信息以提供检索的结果。这种方法克服了基于关键词检索屮不考虑语义信息 的局限性,并II具有较好的自然语言接口。但是感念信息检索检索一个不足之处就是其概念库中不包 含概念之间关系的描述因此无法处理有关感念关系的问题。因此,使用传统的搜索引擎,其检索效果远远不能令人满
12、意。这主要表现在:第一是对用户的问 题理解不够准确,导致返冋结果中有很多噪声,用八不能冇接找到自C所需的信息;第二是对信息内 容的处理大多采用的是基于某种编码过程的预处理技术或某种全文分析技术,仅仅反映一个问题的侧 面;第三是用户提出的问题与信息源的内容不可能完全一致,难以保证内容与用户问题和兀配止确率 很低 三、信息检索的原理与技术方法(一)、信息检索原理广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及 著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用八所需 的特定信息的过程。而实施检索的主要方法就是利用各种检索工具(见图3
13、. 1)0信息存储过程信息检索过程图31信息检索的原理1. 信息储存信息储存的工作内容,主要是山标引人员通过对原始文献的阅读分析,対文献中的信息进行鉴别、 提炼和浓缩,并采用特定的方式予以整理、保存起來。它大致有如下几个步骤:(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度 及英信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为 代表文献内容的若干主题概念,并确定这些主题概念Z间的关系。(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此
14、标识來表达文 献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据, 二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做 出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个 有序化的序列,即文献序列和文献标识序列。文献序列是山文献描述体或文献本身按照一定的方式纽织形成的有序化序列,构成文献库。文献 描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式 其主要作用是,使用八能够对文献内容有
15、较为全面和准确的了解,进而做出是否需要获取原始文献的 选择。随着计算机技术和通信技术的发展,现在己经有越來越多的信息检索系统釆用全文本的方式, 克接把原始文献本身纽织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发 展空间。文献标识的序列,是山文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见 的排列方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主耍是依靠字顺纽. 织,提供对文献标识的快速杏找,并与提问标识加以比较,据此做出文献是否与提问相符的判断。这 个标识比较的过程,也称为检索的匹配。2. 信息检索信息检索的工作内容,主要是山检索人员接受
16、用户的检索提问,对提问进行细致的主题分析,提 炼出检索的主题概念,并编制出相应的检索策略。英工作步骤如下:(1)用户提问。在特定的条件下,用户会把头脑中信息需求转变为具体的检索行为。(2)提问的概念分析。分析检索提问,识别检索的真止主题内容,把检索主题分解为若干概念, 并明确这些概念之间的关系。(3)词汇转换。把检索提问的主题概念转换为柑应的提问标识(或称为检索词),并以这些标识 來表达检索提问的主题内容。其依据同样有两个方面:一是対提问的主题概念分析,二是信息检索语 言。(4)检索的实施。根据所得到的提问标识,在文献标识序列中,按照其排序的规则,迅速地进行 査找,并对文献标识与提问标识进行匹
17、配比较。如果文献标识与提问标识相同,那就表明包含有该标 识的文献与用户提问相符合,该文献被作为命中文献而进行检索输出;如果文献标识与提问标识不相 同,则表明文献与用户提问不相符合,该文献被作为不命中的文献而排除。综合上述信息储存和检索两个方而,信息检索的原理是:山标引人员以文献或文献描述体构成文 献库,同时把文献压缩转换为文献标识,以此表达文献的特征和主题内容,并对这些文献库和文献标 识,按一定的方式分别予以有序化组织,从而形成信息检索系统。这也就是信息储存的过程。检索时, 把用P的检索提问圧缩转换为提问标识(检索词),以此表达提问的特征和主题内容,并将提问标识与 信息检索系统中的文献标识进行
18、対比,进而依据匹配与否,做出文献是否符合检索提问的判断。这也 就是信息检索的过程。因此,信息检索的原理就是提问标识与文献标识的对比。(二)信息检索的技术方法1. 手工信息检索的技术方法(1)手工信息检索工具在手工信息检索工具中,目前主要使用的检索工具包括:(2)目录目录是图书或其他单独出版物规律化、系统化的记载,主要用于检索出版单位和藏书单位是否拥 有信息检索者所需要的书刊。目录只涉及这些出版物的外部特征,如书名、卷数、作者、出版年月、 版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。目录是历史上最早出现的信息 检索工具,种类繁多,英中较为重要的有:国家书目、出版社目录、书店目录
19、、馆藏目录、联合目录、 专题目录等。(3)索引索引是把一种或多种书刊里的具体内容按一定的方式分别摘录,并注明出处,以便检索的一种工 具。索引的种类也很多。按寻找文献内容特征的编制方法来分,有分类索引与主题索引;按取材来源, 又分为图书索引、期刊索引、报纸索引及其他文献索引;按著录对象,可分为篇目索引、主题索引、 条目索引、词语索引及辅助索引等。(4)文摘文摘是把文献资料的主要内容,如主要论点、论据、原理、重要数据、结论、适用范围等,山有 一-定水平和经验的编者将其准确、简要地摘录出來,并注明出处后,经分类排序而编制成的检索工具。 文摘的主要作用是供快速而准确的阅读和检索,对查全率和查准率要求比
20、较高。因此,文摘的编纂远 较目录、索引來得艰口、复杂,但所含的信息量远高于目录和索引。文摘主要类型包括指示性文摘、 报道性文摘、统计性文摘等。(5)年鉴年鉴是以描述和统计的方式逐年提供某年度某一领域信息的工具书。年鉴包含的内容很丰富,从 -部商贸年鉴中可以得到专家对某一行业或市场的综述、分析、冋顾和展望,了解新出台的政策法规, 最新的统计数据和企业介绍、调研报告、经济团体和研究机构的名录、经贸知识、理论研究、重要或 最新产品、大事记、经济形势分析和预测等,因血最适合于各类现行资料的杳询。作为一种年度岀版 物,年鉴还能连续地反映事物的发展、停滞其至倒退的迤势。年鉴种类很多,如中国经济年鉴、中国
21、商业年鉴、中国广告年鉴、中国金融年鉴、中国物价年鉴、中国证券业年鉴等。(6)手册于册是汇集某一学科领域或业务部门专门知识的工具书,多是针对当前实践中的需耍,以简明扼 要的方式提供具体、实用的资料,供随吋翻检查阅,故又称便览,也常冠以概鉴”、大全”、要览”、“指南”、“必备”等名称。英文用Handbook和Manual表示,前者侧重反映“何物w (what) 一类的信 息,如数据、事实等,后者偏重“如何做(how-to)之类的问题。手册种类也相当繁多,如市场预测 实务全书、公司开办与经营手册等。(7)方科全书百科全书是荟萃一切门类或某一门类知识、以概要方式介绍为主的多功能工具书。如果说词典的 功
22、能仅仅说明某-概念,则方科全书是接着定义往下说”的工具书,它可以冋答诸如“何时”、“何 地”、“如何”、“为何”等背景性知识,内容详尽完备,杳阅、检索功能都很突出,条目多山标题、释 文、图表和参考文献纽成,有的内容专深,卷帐浩繁,是补充知识的常用工具。中国大百科全书,不 列颠百科全书等都是非常实用的检索工具。2. 手工信息检索工具的排检技术(1)字顺排检技术字顺排检技术是指将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起來的技术。(2)分类排检技术分类排检技术是指将信息素材按学科或事物性质系统地加以排列。该技术有按一种方式单独编排 的,也有与按吋间、地区排列技术相互恥合使用的。(3
23、)主题排检技术主题排检技术是指以规范化的自然语言为标识符号,來标引信息内容的排检技术。主题排检技术 的一般形式是以主题词來揭示信息素材记述的中心内容或对象,主题词本身按读音或笔画或字母顺序 加以排序。这种排检技术把属于不同学科、不同知识体系中论述同一问题的信息素材集中标引岀来, 揭示信息素材内容比较深入、广泛。(4)吋序排检技术时序排检技术是指按时间的顺序纽合信息索材的技术,多用于编制年表、年谱等检索工具。(5)地序排检技术地序排检技术是指按一定吋期的行政区域来排列信息索材的技术。这种技术可以把同一地区的有 关信息素材集中在一起,全而地反映某一地区、某一国家的历史和现状3、计算机信息检索的技术
24、方法(1)联机信息检索的技术原理联机检索起源于20世纪60年代的美国。目前,联机检索业已形成了覆盖全球的信息检索系统, 如DIALOG. 0CLC等。我国从20世纪80年代开始从事国际联机检索,经过20余年的发展也已建立起 了自己的联机信息检索系统,如ISTIC、MEIRS等。联机信息检索系统是一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传 递通信和检索信息的全过程。在信息存储的过程中,山系统按一定的规律对信息进行加工处理,并赋 予特征标识;在信息检索的过程中,山用户通过系统提供的检索指令,向系统提交含有需求特征的检 索表达式。计算机信息检索系统接收到正确的指令后,自动地将
25、相关信息集合的特征标识与用户提交 的检索特征进行“匹配”。这种匹配完全是一种字符串的类比运算。匹配结束,系统白动给出存储信息 的特征与检索提问的特征柑符的记录篇数,即命中数量。用户通过显示命中记录的内容,判断检索是 否成功,这就是联机信息检索技术的基本原理。(2)联机信息检索的服务方式联机信息检索的服务方式主要有以下几种:1)定题信息提供。这种服务是宙检索系统工作人员将用八信息需求转换成一定的检索提问式,并 将此提问式存入计算机中,信息检索系统定期从新的文献信息中为用户检索,并按用户指定的格式为 用户加以编排和打卬。利用SDI服务,用户可定期获得所需要的最新信息,及时掌握同类专题的动态 和进展
26、。2)专题冋溯检索。这是用八对检索系统中积累多年文献资料的数据库进行检索,查找一定时间范 围以内或特定吋间以前的文献,通常采用联机检索方式进行。此种服务的结果一般要求切题,但又无 大的遗漏,尽昴做到省机时、省费用。通过专题冋溯检索进行专题杏询或情报调研时,可全面系统地 了解有关文献的线索。3)联机订购原文。联机检索的结果通常是一些文摘或题录形式的二次文献形式。用户通过阅读这 些二次文献了解大致的内容,然后根据这些文献线索杳找全文或通过E-mail方式索取。4. 光盘信息检索光盘是继纸张、缩微胶片、磁存储器之后的一种用激光束记录和再现信息的存储载休。用于检索 和阅读的光盘通常为只读光盘(CD-R
27、OM)。它是一种信息载体,而要对其中的信息进行检索和利用则需 要计算机的配合光盘产品自20世纪70年代出现以来,最初只用于娱乐,直到1985年人们才研制出 第一种专用于信息服务的光盘自此,以光盘为载体的数据库产品层出不穷,为信息产业的发展注入 了新的生命力,特别是光盘与计算机的结合,使得信息检索模式发生了革命性的变化。(1)光盘信息检索技术光盘信息检索系统山微机、驱动器及连接设备、CD-ROM数据库(光盘)及其检索软件构成。 使用CD-ROM光盘需要在计算机上装配CD-ROM驱动器,驱动器可安装在诸如IBMPC、XT、AT、Pentium以及绝大多数兼容机上。驱动器是读取光盘数据的专用设备,在
28、微机扩展槽上插入CD-ROM 驱动器的接口卡就可将微机与驱动器连成-体。CD-ROM驱动器有内置式和外遗式两种,前者装在微机 机箱内。可节省台面空间,价格较便宜;后者可很方便地移动到不同的计算机上。选择驱动器时主耍 考虑以下性能:一是速度,般为185-500ms之间;二是查找速度,-般在250-400ms之间;三是数 据缓冲区越大,可直接从存储器存取的数据就越多,节省查询时间;四是数据传送速度,有单速、双 倍速乃至40倍速以上的驱动器。(2)光盘信息检索方法光盘检索系统的功能与指令与联机检索没有很大区别,但更方便。各个系统一般都有如下功能键: Help (帮助)、Index (索引)、Hist
29、ory (查阅历史)、Display (显示)、Print (打印)、Select Database(选择数据库)、Format Window (格式窗)、Qui t (退出)等。当然,系统一般不显示当前没有使用的 功能键,只列出止在使用的功能键。检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配 成一个提问逻辑式。在编制提问式时,可以用有关功能键弹出索引菜单,通过浏览各种索引获取数据 库记录中的关键词、词纽和系统提供的主题词表,以便选择拼法、可能的截断术语和查找范围。当系 统将检中的记录用标题形式显示出來时,用八可以用方向键在屏幕上移动至所需题幺,然后以全记
30、录 形式显示或打印它。系统保持着用户的一切提问和每一结果,因此,用户可以随时冋顾其杳找历史,重新使用或修改 以前的任何提问。也可以在另i数据库中选择冋顾丿力史并执行同样的检索策略,而不必重复键入或重 新处理检索术语。屏幕帮助是光盘数据库最常用,也是重要的功能之一,对计算机检索不熟悉的用户在几乎每一个 重耍步骤都可以得到指导。帮助的菜单内容一般是针对止在检索中的某一个步骤,其内容有:了解系 统功能、提问句法、检索策略、记录字段的描述、限制符、禁用词和标点、索引的使用、主题查找、 从记录中抽词、截断和排列、如何显示记录、改变显示格式、打印记录、保留记录、结束查找、获得 文献以及各种功能键的使用法。
31、5网络信息检索的技术方法(1)网络信息检索技术自20世纪90年代以来,Internet已成为世界上最大的信息资源宝库,网络信息的查找和检索, 己远远超出了信息检索领域,基于Internet的信息检索系统成为网络信息检索阶段的代表。网络信息 检索的特点是:信息检索范围宽,用户操作方便,但信息检索准确率不高。1)布尔检索即按照布尔逻辑,采用逻辑算符将检索提问转换为柑应的逻辑表达式进行检索。一般情况下,逻 辑加用“ + ”为运算符,表示概念的联合;逻辑乘以“*”为运算符,表示概念的限定;逻辑非以“-” 为运算符,农示概念的排除。计算机根据表达式给出的关系进行检索匹配,予以输出。使用布尔检索,可以利用
32、上述演算符,通过逻辑复杂的演算方式,对信息资源进行确切杏找。这 对具有海量信息的检索系统中信息资源的查找十分有效。例:以“北京*空气污染* (汽车+可吸入颗粒 物)-冬季”表示对“北京除冬季外汽车和可吸入颗粒物造成的空气污染状况”这一主题的检索。2)截词检索即采用截断的方式,利用词的片段进行检索。通帘用符号來农示截断。截词检索乂分为: 右截词,如infor*,可检索出所有以infot字符开头的语词的资源。 左截词,可检索出所有结尾为inf字符的语词的资源。 中间截词,如inflation,可检索出所有以inf头,以mat ion结尾的语词的资源。 左右截词,如*珀5泣*,可检索出所有中部具有f
33、ormat语词的资源。截词检索是一种用字面相近度检索相关资料的检索方法,具有提高检全率的作用,在英文等西文 检索中十分普遍。汉字检索时,一般只在対标引词精确匹配时才使用。此外不少系统还具有模糊检索、 容错检索等功能,这实际上也是截词检索的一种应用。3)精确检索即通过规定各种检索方式,限定和缩小检索对象范围,提高检准率。 精确匹配检索,即只能检出与一语词完全一致的资源。通常采用以”括起的短语检索。如以 “信息存储与检索”表示检索与检索提问完全一致的信息资源。 在英文检索中区分大小写字母,一般使用小写字母的检索词可以同吋检出大小写字母的语词; 使用大写字母的检索词,只能与文本中采用大写字母的对应语
34、词匹配。 相邻度检索。规定检索词与词的距离,用于限定检索的条件,例;以“信息检索near图形文 献”表示检索对彖只有在两词的距离不超过10个词或属于同一自然段吋才符合检索要求。采用精确匹配,用户可以通过対检索条件加以限定,检索特征与用户要求最为接近的信息资源。4)限定范围检索川以通过规定检索范围,针对性地选择相应的对象检索。不少网络搜索引擎领域根据资源构成成 分的特点,规定了多种限定可能,供用户选择。 规定进行检索的对象是网站还是包括网页。 规定进行检索匹陀的对彖是所有成分、还是文摘、题名述是网址(URL)。 限定检索的语言、地区、时间等的范围,以文本框的形式提供语言、地区、时间的选择列表或
35、山用户选择。 规定检索的范畴対象,如通过建立频道或选择框的形式,提供图像、新闻、产品、商业、购物、 教育、政府娱乐等类型信息资源的检索选择等。 结合类目体系进行检索,将检索限制在特定范畴下。5)相关检索即提供各种相关资料检索的于段,以提高杏全率,改进检索效果。(2)网络信息检索模式网络信息检索模式有两层含义。广义理解为如何对网络上的海量多态信息进行组织,如何对这些 信息建立索引,如何能动态地维护索引,即对索引及时更新;如何设计检索算法以对检索提问在查全、 杳准、响应时间、检索结果控制与显示方面表现良好;如何为用戸设计一个简单易用的友好界而等方 面。狭义的网络信息检索模式则只是以网络(如Inte
36、rnet)为媒介,利用网上己提供的一些信息检索 工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索杳 询的-种方法与技术。广义的网络信息检索模式是从根本上解决有效利用网络信息资源的关键。没有结构合理的索引与 高效的检索算法,就无法实现完美的信息杳询;没有对索引的动态维护与及时的信息更新,就有可能 检到信息垃圾,误导信息用户;没有友好的用户界而,用户就在选择与利用信息检索工具时,错过对 该工具的选择,即使选择了它,也可能因易用性差而得不到良好的查询结果。对于面向最终用户的信 息检索工具而言,友好的用户界而较信息服务中介的时代有着更为重要的意义。狭义的信息检索模
37、式是在现实世界中有效利用网络资源的核心。Internet 目前就己有大量的信 息查询工具为用户服务。它们不但是利用网上信息资源的重要工具,血且它们本身也是网络信息资源 的一个重要组成部分,对这些工具的开发利用,也是开发利用网络信息资源的重要内容Z。更为重 要的是在对这些工具的多次利用、比较、分析、研究的过程中,可以得出网络信息检索模式的广义内 涵,可以为开发新型的网络信息检索工具提供重要的参考依据。四、信息检索的研究现状e)、信息检索的发展历程据有关资料分析,大约在4000年前,人类为了获収与实用信息,就开始有目的的纽织信息。后 来在图书中出现了目录。随着查找信息需求的发展,又出现了一种从一些
38、词和概念指向相关信息或文 档的指针,即索引,索引也是现代信息检索系统的核心。随着计算机系统的发展,岀现了利用计算机 来建立大量索引的方法。信息检索(Information Retrieval)是在1949年国际数学会议上由Galvin W. Mooers首次 提出,在其发表的把佶息检索看作是时间性的通讯论文中指出:“信息检索是一种吋间性的通讯 形式”,“在吋间上从一个吋刻通往一个较晚的吋刻,而在空间上可能还在同-哋点”,并强调“信 息接受者是垠活跃的一方”。这一看法,揭示了信息存储与获取两个环修是一种延吋行的通讯形式。 我们可以用一句话概括信息检索的基本原理,即对信息集合与需求集合的匹配和选择
39、。在社会科学化的进程中,信息检索经历了手工检索、脱机批处理检索、联机检索、网络化联机检 索的发展过程。计算机技术的不断进步和信息量的成倍増加,使人们对信息检索技术的耍求也越来越高,尤其是 网络技术和多媒休技术的出现,促使信息检索技术也不断地发展。目前,信息检索技术止向两个方向 发展:一是传统信息检索向全文本、多媒体、多载体、多原理筹新型信息检索的发展,在深度上提高 管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、白动分类、自动翻译等; 二是信息资源的网络化和分布化,面向Internet 浩瀚无垠的资源,在广度上提高管理和组织信息 的能力。在信息检索技术研究领域中,基于概念、
40、超文本信息和多媒体信息检索技术的研究最为活跃, 并U取得了突破性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用 佶息提供更方便快捷的手段。网络信息环境的出现,使信息检索研究对象和范围不断扩大,研究队伍 也突破了原有的以图书情报领域的专家学者为主的框架,众多的计算机界专家、信息技术专家也加入 到研究开发信息检索系统的行列。可以说,网络使计算机信息检索技术进入一个崭新发展阶段,而网 络信息检索又使网上信息资源的利用率提高,信息组织更为有序和高效。基于因特网的检索系统成为 网络信息检索系统的代农。G )、国外研究情况美国政府有专门的文本处理硏究计划(如Tispstet计划)
41、,内容包括了文档检索、文档摘要、信 息提取等,以期提高政府部门的信息处理速度和质量。美国许多大学和公司研究机构都己经开展了有 计划的、长期的。系统的信息检索硏究与应用工作,并且有专门的机构纽织各种评测活动対当前的研 究进展进行评估。欧洲各国也进行了大量的有关信息检索的研究工作,如ESSTRo 洲在信息检索方面也进行了大 量的有关信息检索的研究工作,如 TRAL(information retrieval with Asian Languages)。从 TREC2003 和ESSTR上,可以了解到各个研究团体在信息检索方面的研究情况如表4-1所示。表4-1研究团体及其研究方向情况研究团体名称研究
42、方向、使用的方法和系统特征LUC/Bclgium检索评价向量检索模糊检索,统一的IR表面Microsoft Research Ltd/Cambridge信息检索评价USG/Scotland信息检索中的逻辑性和不确定性研究IMIM/Italy模糊检索模型基于web的信息检索CCS/Umaryland隐马赫尔模型,包括杳询处理,文档聚类,0 动文摘Columbia开放域的主题查询扩展U. Maryland (USA)QE和句子聚类,自动文摘,相似矩阵CAS/NLPR扩展杳询的词语相似树研究,用窗口进行相似 度计算CL Research相似成分分析,文本分词和处理,XML表示,文 档标注Mei ji
43、 Univ. /Japtin相似度计算,扩展概念的模糊集,基于if的方 法NTU/台湾南洋理工信息检索系统,动态阈值Uiowa (USA)新命名实体和NP控制CAS/ICT文本分类,用VSM进行相似性计算,特征选择 和权重计算,根据文档密度阈值的动态调報E )、国内研究情况我国在信息获収领域起步较晚,在中文信息获取需求的驱动下,出现了一些中文搜索引擎网站。 但是从国内搜索引擎的应用效果核对搜索引擎技术的掌握上与发达国家比较,还存在较大的差距,特 别是在智能搜索引擎的开发,建设和应用水平方而差距更大。这种差距主要表现在两个方而:第一, 搜索引擎的性能和搜索结果的质量与国外的搜索引擎相比存在很大的
44、差距。这也是为什么国人在选择 搜索引擎的时候普遍选择国外搜索引擎的原因。;第二,对搜索引擎与信息检索技术的掌握和应用上有 待于提高和加强,应用人才继续培养,经验有待积累和总结。前者改善应依靠与国内网络的整体改善 和先进信息检索技术的应用;而后者的改善则更多的依赖于人们対搜索引擎和信息检索技术的掌握。目前,我国中文信息检索的主耍机构有:中国科学院计算研究所、清华大学,哈尔滨工业大学, 香港大学,台湾大学等,北京大学研发的专业搜索引擎一天网搜索,己经建成了一个以索引搜索为基 础应用,以个性化搜索、专业搜索以及地域信息资源搜索为高端应用的综合搜索平台;清华大学研发 的PINS系统和Bookmark系
45、统,它门自动搜集和记录用户的习惯和兴趣,跟踪用户的信息需求;南京 大学研发的WebAccess系统,应用了机器学习。自然语言处理、超文本等技术;东南大苧提出了 Web 捜索引擎框架和用户兴趣挖掘方法;中国搜索2005年3月3日发布了网络猪3. 0,它是全球第一款集 互联网搜索、硬盘搜索、内容服务、及时通讯、商务应用为-体的综合性信息服务平台,己经取得了 令人瞩目的进展。但国内的智能信息检索系统大多只是支持简单的自然语言处理和概念检索,对机器 学习、智能代理、知识挖掘等技术研究较少。因此,信息检索技术成为信息技术核心之一的今天,如何真止找到用户感兴趣的信息和如何评价 检索性能等问题,成为信息检索
46、的新热点。(四)、语义网信息检索现状在2000年的世界XML (extensible Markup Language)大会上,万维网创始人伯纳斯-李做了题 为Semantic Web的演讲,对语义Web的概念进行了解释,并提出了语义Web的体系结构。2001年5 月,Scientific Americcin封面文章发表了伯纳斯-李徳The Semantic Web 一文,描绘了语义Web的 美好前呆,并对气其中的主要技术进行了简明的介绍。语义Web也被网格研究者们纳入信息服务网格 的研究范围。鉴于语义Web研究的重要价值,国外的很多大学、研究机构、大公司都成立了专门的项目组來推 动这项技术的发
47、展,W3C (World Wide Web Consortium )组织也成立了专门的工作组来推动语义Web 技术的发展。2001年7月,在斯坦福大学召开了题为Infrastructure and applications for the Semantic Web的学术会议。2002年7月9日、2003年10月20日、2004年11月7日、2005年11月 6日分别在意大利,美国,日本和爱尔兰/ international Semantic Web conference (ISWC)会 议;国内这方面的研究刚刚起步,2002年我国的“863计划”将语义Web技术列为重点支持项目,主 要研究团体
48、有中国科学院计算机研究所、数学研究所、自动化研究所的若干实验室,哈尔滨工业大学 计算机系以及浙江大学人工智能研究所。五、个性化检索基础理论及框架e)、相关概念1TREC中的几个术语(1) topic query在TREC (text retrieval conference)中,topic描述的是用户的需求,一般用自然语言描述。 这样可以把用户的需求表达的比较清楚。但是,对于计算机而言,他可能了解不了那么深,所以有一 个topic到杳询query的转换。自动转换常常是从topic中抽取几个NP phrase,但人的转换可能更 恰当,比如提出复杂的布尔衣达式。query是面向计算机的,query
49、 口J以使关键词、布尔表达式、正例文本等等各种形式的东西,它 的最终目的就是为了表达用户的真止需求,并且让计算机能够处理。topic和query的关系如下:topic=informaation need,用自然语言描述,面向人。query用计 算机能理解的语言描述,而向计算机,IR的理想目标就是topic二query。(2) ad hoc /routing filteringTREC垠初只有两个任务:ad hoc和wilting。前者类似于图书馆的信息检索,即书籍库(数据 库)相对稳定不变,不同用户的查询要求是千变万化的。这种查询就叫做ad hoc,基于Web的搜索引 擎也是属于这一类。后者的
50、情况与前者相对,用户的杳询要求相対稳定,在routing中用户的杳询常 曲称为profile,也就是通曲所说的兴趣,用户的兴趣在一定时间内是相对稳定的。但是数据库是不 断变化的。应该说“d hoc和routing代农了 IR的两个不同的研究方向。ad hoc的主耍研究任务包括 对数据库的索引杳询、杏询的扩展等等;而后者的主要任务不是索引,血是对用户兴趣的建模,即入 户对用户的兴趣建立数学模型。后者被称为routing是很有道理的,因为不断到来的数据流通过用户 的兴趣被分发到不同的用户中去,类似于网络中的路山寻径过程。随着TREC的不断进行,TREC的任 务有所变更,总的来说还是上而两类,不过名
51、称有所变化,后者不再称为routing |fu是叫做filteringo2. 聚类聚类(clustering)也称为白动分类,是知识发现和数据挖掘的一个重要工具。按照数据的相似 性和差异性,将数据划分为若干个纽.(组内还可以再分组),同组的尽量相似,不同纽的尽最相异。 这种対数据进行白动纽织的方法称为聚类,它有利于更好地理解大量数据。聚类在信息检索、情报学以及模式识别等领域中都引起了广泛兴趣,虽然在模式识别中文档聚类 并非重点,但是模式识别中的许多方法和思想都可以用于文档聚类。3. 自然语言处理自然语言处理(natural langutige processing, NLP)也称为自然语言理解
52、(natural language understanding, NLU)或者计算语言学(computational linguistics),是研究如何利用计算机来 理解和生成自然语言的科学,也是新一代计算机的主要突破口之一。从计算机诞生的那一天起,人们 就开始研究用计算机处理自然语言。通过儿十年的研究,人们逐渐的形成了两种基本的处理方法,或 者说基本思想和基本策略:理性主义和经验主义。自然语言处理,即实现人机间自然语言通信,或实现白然语言理解和自然语言生成是十分困难的。 造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种备样的歧义性或多义性 (ambigui ty)o一个中文
53、文本从形式上看是山汉字(包括标点符号等)组成的一个字符串。山字可纽.成词,山词 可组成词组,山词纽可组成句子,进ifuiii-些句子组成段、节、章、篇。无论在上述的各种层次:字 (符)、词、词纽、句子、段,还是在下一层次向上一层次转变中都存在着歧义和多义现象,叩形 式上-样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词纽串等,并有不 同的意义。一般情况下,它们中的大多数都是对以根据相应的语境和场景的规定血得到解决的。也就 是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行 止确交流的原因。但是一方而,我们也看到,为了消解歧义,是需要极其
54、大量的知识和进行推理的。 如何将这些知识较完整地加以收集和整理出來;又如何找到合适的形式,将它们存入计算机系统中去; 以及如何有效地利用它们來消除歧义,都是工作量极大且十分困难的工作这不是少数人短时期内可 以完成的,还有待长期的、系统的工作。以上说的是,一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是白然语言理解 中的主要困难和障碍。反过來,一个相同或相近的意义同样可以用多个屮文文本或多个汉字串來表示。因此,自然语言的形式(字符串)与英意义之间是一种多对多的关系。英实这也止是自然语言的 魅力所在。但从计算机处理的角度看,我们必须消除歧义,而口有人认为它止是白然语言理解中的中 心问题
55、,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识 的方法带來了巨大的困难,因而以这些方法为主流的自然语言处理研究儿-1 年来一方而在理论和方法 方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统 大多数是小规模的、硏究性的演示系统。最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计 方案。20 |U:纪60年代,国外対机器翻译曾有大规模的研究工作,耗费了巨额费用,但人们当时显然 是低估了自然语言的复杂性,语言处理的理
56、论和技术均不成热,所以进展不大。主要的做法是存储两 种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调幣语言的同条顺序。但日常 生活中语言的翻译远不是如此简单,很多时候述耍参考某句话前后的意思。大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,血不是如以前的研究 性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真止的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对白然语言文本 进行深层的理解,但要能从屮抽取有用的信息。例如,对自然
57、语言文本进行白动地提収索引词,过滤, 检索,自动提取重要信息,进行白动摘要等等。同时,山于强调了 “大规模”,强调了 “真实文本”,下面两方面的基础性工作也得到了重视和 加强。(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语 言统计性质的基础。没有它们,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,其至几十万词,含有丰富的信 息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。虽然上述新趋势给自然语言处理领域带来了成果,但从理论方法的角度看,山于采集、桀理、表 示和有效应用大量知识的困难,这些系统
58、更依赖于统计学的方法和其他“简单”的方法或技巧。而这 些统计学的方法和其他“简单”的方法似乎也快达到它们的极限了,因此,目前在自然语言处理界广 泛争论的一个问题便是:要取得新的更大的进展,主要有待于理论上的突破呢,还是可山目前已有的 方法的完善和优化实现?答案还不清楚。大致上,更多的语言学家倾向于前一种意见,而更多的工程 师则倾向于后一种意见。冋答或许在“中间”,即应将基于知识和推理的深层方法与基于统计等“浅 层”方法结合起來。C )、个性化信息检索系统框架及检索过程1. 基于云模型的个性化信息检索的目的为了改善信息检索与提供信息的质量,克服现有信息检索工具的不足,将泛概念云知识库和动态 用户兴趣有机结合起来提出了基于云模型的个性化信息检索系统其研发目的:(1)解决信息检索中不确定性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《GAT 974.58-2011消防信息代码 第58部分:消防水源分类与代码》专题研究报告
- 交通违法行为举报奖励制度
- 2026浙江雷博人力资源开发有限公司招聘12人(面向分包单位)备考题库附答案
- 2026湖北省定向电子科技大学选调生招录参考题库附答案
- 2026湖南邵阳市邵东市市直事业单位引进博士研究生15人参考题库附答案
- 2026甘肃陇东学院高层次人才招聘100人(第一期)备考题库附答案
- 2026福建省面向华东师范大学选调生选拔工作备考题库附答案
- 2026西藏昌都市人民医院招聘33人参考题库附答案
- 2026重庆对外建设(集团)有限公司招聘项目经理、项目总工程师等岗位11人参考题库附答案
- 2026陕西省面向中国科学院大学招录选调生参考题库附答案
- 深圳市盐田区2025年数学六上期末综合测试试题含解析
- DB5203∕T 38-2023 特色酒庄旅游服务等级划分与评定
- 四川省成都市嘉祥外国语学校2024-2025学年七年级数学第一学期期末学业质量监测试题含解析
- 华为客户分级管理制度
- 双向转诊职责与患者体验提升
- 2025年中考道德与法治三轮冲刺:主观题常用答题术语速查宝典
- 2025届北京丰台区高三二模高考语文试卷试题(含答案详解)
- 《四川省普通国省道养护预算编制办法》及配套定额解读2025
- 论语的测试题及答案
- 《机械制图(第五版)》 课件 第9章 装配图
- 教师年薪合同协议
评论
0/150
提交评论