(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf_第1页
(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf_第2页
(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf_第3页
(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf_第4页
(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

(机械制造及其自动化专业论文)个性化信息服务技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 个性化信息服务是当前网络信息技术领域的一个非常重要的研究课题,它针 对用户不同的需求,采用不同的服务方式,提供不同的服务内容,帮助用户快速、 及时、有效地获取资源信息。论文针对网络信息服务的特点和服务需求,提出了 个性化信息服务的体系框架,对w e b 文本资源特征建模、组织管理和用户建模 等关键技术进行深入研究,并将个性化信息服务技术应用于资源搜索与导航、个 性化信息定制和知识主动推送等方面。论文的主要研究内容如下: 第一章首先介绍了论文的研究背景和应用意义。针对网络信息服务的研究内 容,介绍了相关领域如搜索引擎、语义网、个性化信息服务等的研究现状,着重 对当前三类个性化信息服务系统的服务特点和技术功能进行了对比分析。最后给 出了论文研究的主要内容和组织结构。 第二章阐述了个性化信息服务的概况,对个性化信息服务的概念、逻辑流程、 特点和服务模式进行了研究。在此基础上,提出了论文研究的个性化信息服务系 统的体系结构和功能组成。 第三章主要探讨了网络文本资源的形式化描述( 特征建模) 方法,提出了一 种基于向量空间模型和知网的特征建模方法。研究了特征项权重计算、语义消歧、 语义相似度计算等具体实现技术。同时,为了实现网络资源效用的最大化,对如 何实现网络文本资源的分类进行了研究。最后,通过实验对上述理论方法的有效 性进行了验证。 第四章主要探讨了面向用户需求的用户建模技术。对数据收集、模型表示和 模型更新等三个建模子任务进行了研究,包括采用类重心分类算法建立用户模 型、基于知网优化用户模型以及应用r o c c h i o 反馈算法更新用户模型等。在建立 用户模型的基础上,研究了信息过滤技术。最后,对论文提出的用户建模技术进 行了实验验证。 第五章以宁波机械行业的w e b 资源发现与共享为应用背景,从资源搜索与 导航、个性化信息定制、知识主动推送几个方面,介绍了个性化信息服务在机械 制造行业相关领域的具体应用实例,对论文研究的技术和理论进行了初步验证。 第六章总结论文的研究工作和主要创新点,对未来的研究方向和重点进行了 展望。 关键词:个性化,信息服务,向量空间模型,知网,资源建模,分类,用户 a b s l r a e t a b s t r a c t c u r r e n t l y , p e r s o n a l i z e di n f o r m a t i o ns e r v i c ei sav e r yi m p o r t a n tr e s e a r c hi s s u ei n t h ef i e l do fw e bi n f o r m a t i o nt e c h n o l o g y a i m i n gt ot h eu s e r sd i f f e r e n td e m a n d s ,i t a d o p td i f f e r e n tm o d ea n dp r o v i d e d i f f e r e n ts e r v i c et oa s s i s tu s e ri n g a i n i n g i n f o r m a t i o nr a p i d l yd u l ya n de f f e c t i v e l y a i m i n gt ot h ec h a r a c t e r i s t i ca n dd e m a n d so f w e bi n f o r m a t i o ns e r v i c e ,t h ed i s s e r t a t i o np r o p o s e st h es y s t e mf r a m eo fp e r s o n a l i z e d i n f o r m a t i o ns e r v i c e t h ew e bt e x tr e s o u r c em o d e l i n g ,o r g a n i z i n g , m a n a g i n ga n du s e r d e m a n dm o d e l i n ga r es t u d i e dc o m p r e h e n s i v e l y t h e s et e c h n o l o g i e sa r ee m p l o y e dt o r e a l i z et h ew e bi n f o r m a t i o na s p e c t ss u c ha ss e a r c h 毙n a v i g a t i o no ff e s o u r c e s p e r s o n a l i z e di n f o r m a t i o nc u s t o m i z a t i o n , k n o w l e d g ea c t i v er e c o m m e n d a t i o na n ds oo n t h em a i nw o r ko f t h i sd i s s e r t a t i o ni sd i s s e r t a t e di nt h ef o l l o w i n g s : i nt h e 1 “c h a p t e r ,t h er e s e a r c hb a c k g r o u n da n dp r a c t i c a ls i g n i f i c a n c eo f p e r s o n a l i z e di n f o r m a t i o ns e r v i c ea r ei n t r o d u c e df i r s t l y a i m i n gt ot h er e s e a r c hc o n t e n t o fw e bi n f o r m a t i o ns e r v i c e ,t h ec u r r e n ta d v a n c e so ft h ei n t e r r e l a t e df i e l d s ,s u c ha s s e a r c he n g i n e ,s e m a n t i cw e b ,p e r s o n a l i z e di n f o r m a t i o ns e r v i c ea n ds oo n ,a r ea l s o r e v i e w e d t h es e r v i c ec h a r a c t e r i s t i ca n df u n c t i o no ft h r e et y p e so fp e r s o n a l i z e d i n f o r m a t i o ns e r v i c es y s t e ma r ec o m p a r e ds p e c i a l l y a n dt h e nt h er e s e a r c hc o n t e n ta n d a r c h i t e c t u r eo f t h ed i s s e r t a t i o na r ep r e s e n t e d i nt h e2 “oc h a p t e r , t h eg e n e r a ls i t u a t i o no fp e r s o n a l i z e di n f o r m a t i o ns e r v i c ei s a d d r e s s e d t h e d e f i n i t i o n ,l o g i cp r o c e s s ,c h a r a c t e r i s t i ca n ds e r v i c em o d ei s r e s e a r c h e d t h e n , t h es y s t e mc h a r a c t e r i s t i ca n df u n c t i o nc o m p o n e n to ft h e p e r s o n a l i z e di n f o r m a t i o ns e r v i c es y s t e mr e s e a r c h e db yt h ed i s s e r t a t i o ni sb r o u g h t f o r w a r d ht h e3 “c h a p t e r , t h ef o r m a l i z e dd e s c r i p t i o n ( f e a t u r em o d e l i n g ) m e t h o di s d i s c u s s e dc h i e f l y af e a t u r em o d e l i n gm e t h o db a s e do nv e c t o rs p a c em o d e la n d h o w n e ti s p r e s e n t e d t h em a t e r i a lr e a l i z a t i o nt e c h n o l o g i e s ,s u c ha sw e i g h t i n g m e t h o do ft h ec h a r a c t e r i s t i c e l e m e n t ,e l i m i n a t i n gd i f f e r e n t s e m a n t i cm e a n i n g s , s e m a n t i cs i m i l a r i t yc a l c u l a t i n g ,a r er e s e a r c h e d a n dt oa c h i e v et h e m a x i m i z i n ga v a i l o fw e br e s o u r c e ,t h ec l a s s i f i c a t i o no fw e bt e x tr e s o u r c ei ss t u d i e d a tl a s t ,t h r o u g h e x p e r i m e n t s ,t h ed i s s e r t a t i o nc a r r i e so nv e r i f i c a t i o no ft h ea b o v e m e n t i o n e dt h e o r i e s a n dm e t h o d s i nt h e4 “c h a p t e r , t h ed i s s e r t a t i o nd i s c u s s e st h eu s e r - o r i e n t e du s e rm o d c l i n g t e c h n o l o g y t h r e es u b - m i s s i o n so fu s e rm o d e l i n g ,c o v e r i n gd a mg a t h e r i n g ,m o d e l 1 1 a b s w a c t d e s c r i b i n ga n du p d a t i n g ,a r cr e s e a r c h e d t h ek e yt e c h n o l o g i e sa r es t u d i e d ,i n c l u d i n g u s i n gc e n t r o i d - b a s e dc l a s s i f i c a t i o nm e t h o dt ob u i l du s e rm o d e l o p t i m i z i n gu 蝌 m o d e lb a s e do nh o w n e ta n de m p l o y i n gr o e e h i of e e d b a c ka l g o r i t h mt ou p d a t eu s e r m o d e l t h e nt h ei n f o r n l a t i o nf i l t e r i n gt e c h n o l o g yi ss t u d i e d f i n a l l yt h eu s e rm o d e l i n g t e c h n o l o g yg i v e nb yt h ed i s s e r t a t i o ni sv a l i d a t i n gt h r o u g he x p e r i m e n t s i nt h e5 忸c h a p t e r , t h ed i s s e r t a t i o nt a k e sw 曲r e s o u r c ed i s c o v e r ya n ds h a r i n ga s t h ea p p l i c a t i o nb a c k g r o u n d ,a n di n t r o d u c e st h ee x a m p l e sa b o u ti n t e g r a t i o na p p l i c a t i o n o f p e r s o n a l i z e d i n f o r m a t i o ns e r v i c ei nm a n u f a c t u r i n gi n t e r r e l a t e df i e l d ,w h i c h i n c l u d e ss e a r c h & n a v i g a t i o no fr e s o u r c e s p e r s o n a l i z e di n f o r m a t i o nc u s t o m i z a t i o n a n dk n o w l e d g ea c t i v er e c o m m e n d a t i o n t h et h e o d e sa n dm e t h o d ss t u d i e db yt h e d i s s e r t a t i o na r ev a l i d a t e db a s i c a l l y n 塘l a s te h a p l 髓s u n l n l a r i z e $ t h ea c h i e v e m e n t sa n di n n o v a t i o n so f t h ed i s s e r t a t i o n , a n dp r o s p e c t st h ef u t u r ew o r k k e y w o r d s :p e r s o n a l i z e d ,i n f o r m a t i o ns e r v i c e ,v e c t o rs p a c em o d e l ,h o w n e t , r e s o u r c em o d e l i n g ,c l a s s i l y i n g ,u s e rm o d e l m 举粤2 口步口和6 ;学号z 口9 口子。0 , 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 卉荔 、j 签字日期:2 口口7 年月莎日 学位论文版权使用授权书 本学位论文作者完全了解迸鎏盘堂有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权滥江盘鲎可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 签字日期:2 口口7 年乡月莎目 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名 劢确击 签字日期:知柙年0 月6 日 电话: 邮编: 第一章绪论 1 1 引言 第一章绪论 2 1 世纪是知识信息时代,信息产业正在以前所未有的速度向前发展。准确的 信息、快捷的信息获取方式,成为现代竞争中制胜的重要因素。随着网络技术的 飞速发展,硬件、软件设施的不断提高,互联网逐步成为获取信息的主要手段之 一。自1 9 9 3 年以来,i n t e m e t 一直以惊人的速度发展着,从最早仅联接美国的少 数几所大学和科研机构,到现在己经几乎触及世界的每个角落,全球w e b 站点 不断增加。据o c l c ( o n l i n ec o m p u t e rl i b r a r yc e n t e r ) 统计,至2 0 0 6 年1 1 月,全 球接入i n t e r n e t 的站点数已经超过l 亿,1 9 9 8 年初i n t e m e t 中的网页总数为3 2 亿,1 9 9 9 年2 月这个数字上升为8 亿,目前这个数字已经高达2 0 0 0 亿,而且仍 在以每天7 0 0 万的速度增加。网络信息的信息量和信息复杂度也迅速增长。同时, 信息的分类、管理和获取方式也不断发展变化,并且已经成为网络信息技术发展 的标志。面对浩瀚的信息海洋,用户如何才能方便、快捷、准确地获取相关信息, 成为网络信息技术研究中一个重要的课题。 一个完整的信息获取过程,涉及到三个相关的主体:信息、用户和信息获取 方式。只有协调处理这三个相关主体的关系,才能有效地获得准确的信息。在传 统i n t e m e t 信息服务模式下,搜索引擎( s e a r c he n g i n e ) 是w e b 上最常见的信息发 现工具,用户可以利用搜索引擎获取有效的信息,因此搜索引擎在一定程度上解 决了w e b 上资源发现的问题。但随着信息技术的不断发展,搜索引擎面临以下 闯题: 首先,网络资源多样性和多变性的特点越来越突出。一方面,其内容覆盖了 不同学科、不同领域和不同语言,包括了文本、图像、声音、视频、软件、数据 库等信息资源:另一方面,网络资源没有统一的组织管理和规范结构,虽然局部 网络资源是有序的,但整体却处于无序状态。此外,网络信息资源的内容、链接 地址等经常变动甚至消亡,也给用户检索和信息获取带来不便。 其次,用户个性化差异。用户个体的不同,如各个用户年龄、身份、发展背 景、生活习惯、语言文化等的不同,导致其浏览信息的目的、对信息的需求不同; 另外用户的生活环境、用户个性的变化,也导致其兴趣需求不断变化。 为解决以上问题,适应用户需求和网络信息的不断变化,在网络信息技术领 域掀起了研究个性化信息服务的高潮,以弥补搜索引擎的不足,从根本上改善网 络资源组织管理和用户信息获取等一系列问题。在目前的搜索引擎中,信息获取 方式大都是被动的,即用户“被动地”去寻找相关的信息。正是这种以信息为中 第一章绪论 心的思想,导致了被动型信息获取方式,出现了所谓的“信息爆炸”现象。个性 化信息服务系统,以用户为中心,开辟了新的天地。在当前状况下,网络通信的 两端保存了大量的信息,为研究个性化信息服务创造了必要的条件。同时,信息 过滤、用户建模技术的发展,也为个性化信息服务提供了技术上的支持。如何更 好地满足用户个性化的信息需求,为用户提供更加满意的资源信息,是当前个性 化信息服务研究的热点问题。 论文以面向用户需求的w e b 信息服务为目标,运用信息检索、知网及个性化 信息服务等理论与技术,对网络资源的特征建模、组织管理、用户建模及信息过 滤技术等进行了系统和深入的研究。 1 2 研究背景和意义 1 2 1 研究背景 随着i n t e m e t 的飞速发展和在世界范围的普及,越来越多的数据库和资源信息 不断加入网络,网络上的信息量正以指数级的速度增长。i n t e m e t 已经发展为当 今世界上资料最多、门类最全、规模最大的资源库和全球范围内传播信息的主要 渠道,w w w 以超文本的形式呈现给用户各种各样的信息,构成了一个异常庞大 的具有异构性、动态性和开放性等特点的分布式资源库。 然而,在信息极大丰富的同时,用户也面临着信息过载和资源迷茫等问题。 i n t e m e t 上的信息过于庞杂,而且具有不稳定和变动快的特点,没有而且也不可 能有一个权威机构能对这些信息进行全面的组织和管理。因此,面对缤纷复杂的 w e b 空间,面对浩瀚的信息海洋,用户往往感到无所适从,不知道如何去获取自 己需要的内容。 人们上网获取信息的一种普遍方式是浏览。i n t e m e t 上的文档一般都是通过 超链接互相联系起来的,人们借助i n t e m e t 浏览器来浏览w e b 页面的内容。这种 浏览方式适合于目的不明确、时间不紧迫的情况,当用户需要查找一个具体的内 容时,该方式效率则很差,一般不能在短时间内获得所要的信息,特别是对 t n t e m e t 不太熟悉、缺乏上网经验的用户。因此,用户试图通过浏览w e b 来发现 信息已经变得非常困难,往往花费了很多时间和精力却所获甚少,人们期待更先 进、效率更高的信息服务工具的出现。 自从1 9 9 4 年4 月第一个搜索引擎w e b c r a w l e r 在网上正式发布并开始服务以 来,搜索引擎已经成为发展最快、最引人注目的网络服务之一。当时的搜索引擎 数据库容量小,查询方式简单,效率不高,但改变了传统的检索方式。1 9 9 6 年 后,搜索引擎开始进入“容量建设期”,出现了一些著名的搜索引擎,如a l t a v i s m , 2 第一章绪论 l y c o s ,h a r v e s t 等,网页数量都超过了百万甚至千万。目前,搜索引擎正经历着 从“数量累积阶段”向“质量精炼阶段”的变革。随着i n t e m e t 上的信息海量地 涌现,信息垃圾也越来越多。如何向用户提供质量好且数量适当的检索结果成为 了搜索引擎技术发展的方向之一。由于大多数搜索引擎的搜索范围是综合性的, 他们的s p i d e r 尽其可能地把各类的网页抓取回来,仅仅经过简单的处理后就存放 到数据库中;另外,搜索引擎提供的用户检索接口大都是基于关键词匹配的,返 回给用户的就是所有匹配的文档,检索结果中有很大一部分是与用户需求不相关 的,让人感到束手无策。这也就是现在经常谈论的“信息爆炸”、“信息过载”等 现象。其实,这就是搜索引擎的突出缺点:智能性不够,不能通过“学习”提高 自身的检索质量。 个性化信息服务技术就是在这样的背景下开始受到研究人员重视的。个性化 信息服务技术的目的就是让搜索引擎具有更多智能性,能够更加深入、更加细致 地参与到用户的整个检索过程中。从关键词的选择、检索范围的确定到检索结果 的过滤,帮助用户在i n t e m e t 上找到真正需要的信息。现在,i n t e m e t 上已经有一 些运行着的个性化信息服务系统,并有很多这方面的研究文献,这些都表明了个 性化信息服务技术对于网络的发展和应用具有重要的研究意义。 1 2 2 应用意义 个性化信息服务是根据用户的信息需求,利用信息检索、数据挖掘、自然语 言处理等技术,主动向用户提供具有针对性的能满足用户个性化需求的信息和服 务。它针对不同的用户需求,采用不同的服务方式,提供不同的服务内容,实现 服务内容、方式、时空的个性化,具有广泛的应用意义。 ( 1 ) 资源搜索与导航( r e s o u r c es e a r c ha n dn a v i g a t i o n ) 网络资源的主要载体是网站、论坛等。网络资源多维性、动态性、交互性的 特点,使得网络资源体系缺少逻辑性和规范化,不能揭示资源之间的逻辑关联, 影响用户获取信息的效率。资源搜索与导航服务是利用信息检索、文本分类、自 然语言处理等技术,实现对网络资源的有效组织管理,从根本上解决用户“信息 过载”、“资源迷茫”等问题。 网络是由w e b 站点依靠超链接构成的。通过分析这种链接结构,有助于挖掘 网络资源的分布规律,优化资源搜索策略,从而建立主动、高效和准确的网络资 源搜索平台。同时,通过合理划分资源的内容层次和主题分类,实现有效的资源 导航服务,帮助用户快速获取真正需要的信息。此外,资源搜索与导航服务采用 信息主动推送服务,使用户及时了解网络资源的当前状态,并根据自身需求来选 择合适的资源对象,促进资源有序、高效地利用。 第一章绪论 ( 2 ) 知识发现( k n o w l e d g ed i s c o v e r y ) 知识发现的且标是实现对知识资源的挖掘、交流和共享,帮助企业解决知识 共享和再利用问题。有效的知识发现是知识管理( k n o w l e d g em a n a g e m e n t ) 的基 础。互联网的时空压缩性和互动性使得企业间的知识流动和共享变得容易和迅速 顾新建,2 0 0 1 。互联网存在数据库、论坛及网站等不同形式的知识源,其中隐 藏着丰富的知识。个性化信息服务技术挖掘和处理各种结构化和非结构化w e b 知识源,如数据库、网页、技术文档等,通过对其中显性或隐性知识的识别、提 取和组织,推送满足用户兴趣需求的知识信息,也为企业产品设计、加工制造、 供应链管理( s u p p l yc h a i nm a n a g e m e n t ) 、产品全生命周期管理( p r o d u c tl i f e c y c l e m a n a g e m e n t ) 、电子商务等业务提供知识支持。 ( 3 ) 企业竞争情报系统c i s ( c o m p e t i t i v ei n t e l l i g e n c es y s t e m ) 企业竞争情报系统,主要指的是为企业收集、存储、加工、分析、发稀竞争 情报的计算机信息系统。它利用计算机技术处理来自各个信息源的与企业竞争有 关的信息,并使这些信息有序化,从中提取出对企业有用的知识。企业竞争情报 系统的应用目的是在市场竞争环境中企业为保持或增加利润,围绕企业的经营战 略目标,通过竞争情报系统为其获取有关企业内部、竞争对手、竞争环境的信息, 并加以存储、处理、分析、研究,竞争情报分析研究结果最终对企业经营战略目 标确立与实施产生调整作用。企业竞争情报系统是以i n t e r n e t 为主要信息情报 源,如电子商务网站、行业门户及企业网站等,包含了企业产品研发、生产能力、 原材料、营销等动态信息。个性化信息服务采用主动推送的方式为企业提供信息 和情报服务,由企业自主定制资源需求,实现个性化的资源信息和情报服务,使 得企业把握市场脉搏,掌握先机,在一定的程度上规避市场风险,并且根据市场 变化、客户及竞争对手情况制定相应的策略,在日趋激烈的环境中立于不败之地。 综上所述,随着网络技术的发展,互联网的不断普及,以及信息交流的日益 频繁,个性化信息服务的研究越来越显示出其优点与魅力。 1 3 相关领域的国内外研究现状 1 3 i 搜索引擎( s e a r c he n g i n e ) 搜索引擎是w e b 上最常见的信息发现工具,也是个性化信息服务的基础和核 心,在一定程度上解决了用户获取有效信息难的问题。当前,搜索引擎己经成为 发展最快、最引人注目的网络服务之一。按照搜集信息的方法和提供服务的方式, 搜索引擎可分为以下几种类型: ( 1 ) 爬虫搜索引擎( s p i d e rs e a r c he n g i n e ) 4 第一章绪论 爬虫搜索引擎是由被称为“蜘蛛”( s p i d e r ) 的智能软件程序以某种策略在互联 网中自动搜集、处理和索引网页信息的系统。这类搜索引擎能够实现信息的全面 获取和即时更新。g o o g l e ( h t t p :w w w g o o g l e e o m ) 和百度( h t t p :w w w b a i d u t o m ) 等 商业搜索引擎均采用这种方式。但这种方式没有对网络资源的主题属性做进一步 分析,因而难以实现搜索结果和用户需求的精确匹配,例如,搜索计算机技术等 专业领域信息,这些搜索引擎的搜索结果往往包含大量不相关的垃圾信息。 ( 2 ) 目录式搜索引擎( d i r e c t o r ys e a r c he n g i n e ) 目录式搜索引擎如y a h o o 、d m o z ( h t t p :d m o z o r g ) p a n t g ,2 0 0 2 是通过人工 方式来划分网络资源的主题,如网站类目,资源的学科分类等。这种方式对网络 资源搜索具有一定的准确性、科学性和系统性,用户可以根据分类导航目录,直 接定位到所需资源。但是人工分类效率低,分类资源的规模和覆盖范围有限,信 息量小,而且内容更新困难。随着互联网规模的进一步扩大,完全依靠人工对 w e b 资源进行高质量地分类已经不大现实。 ( 3 ) 元搜索引擎( m e t as e a r c he n g i n e ) 元搜索引擎是将用户的查询请求同时向多个独立搜索引擎递交,按照一定的 关联运算法则对返回信息进行去重、重新排序等优化处理后,最终确定搜索结果。 v i v i s i m o ( h t t p :v i v i s i m o c o r n ) 是这类搜索引擎的典型代表。这种方式虽然在一定 程度上解决了单个搜索引擎资源覆盖范围有限的问题,扩大了搜索范围,但依然 无法解决专业领域资源搜索的准确性问题。 ( 4 ) 主题搜索引擎( d o m a i n - s p e c i f i cs e a r c he n g i n e ) 与上述三种通用搜索引擎相比,主题搜索引擎的研究重点不是基于关键词的 索引,而是利用机器学习、数据挖掘和自然语言处理等技术对专业领域资源进行 识别、分类和提取 m c c a l l u m a ,1 9 9 9 1 。 嚷1 1 通用搜索引擎和主题搜索引擎区别 i n t e m e t 中隐藏着大量的领域资源和知识,通过对混杂、分布的w e b 资源进 行信息提取、概念关联和分类聚类分析,建立专业资源库和知识库,这种方式 能够提高信息服务质量,有效降低网络负荷和信息处理量。例如,c o r a 利用隐 马尔可夫模型呷i d d e nm a r k o vm o d e l ) 实现了针对特定网页内容的识别和提取,提 供了计算机科学方面的论文主题搜索 t i m o t h yrl ,1 9 9 7 1 ;c i t e s e e r 通过挖掘 w e b 学术论文库,从中提取论文作者、文章名称、摘要和参考文献等特征参数, 第一章绪论 并建立了论文间的主题关联 b o l l a c k e rk d ,1 9 9 8 。主题搜索技术在搜索引擎的 研究和实现中得到越来越多的重视。 1 ) 中文搜索引擎的发展现状 从1 9 9 7 年国内开始发展面向中文信息检索的中文搜索引擎 都云程,1 9 9 9 , 到目前已经投入使用或试运行的主要有以下几个: ( 1 ) 搜狐( h t t p :w w w s o h u t o m c n ) 搜狐是由爱特信公司于1 9 9 8 年2 月2 5 日在北京隆重推出的有“中文网路神 探”之称的大型网上中文查找工具,其技术是由麻省理工学院支持的。它是以提 供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用 习惯相结合,由编辑人员分类,因而分类质量较高,但更新速度慢,查全率较低。 ( 2 ) 天网( h t t p :e p k u e a u c n ) 天网是由北京大学计算机系统网络研究室开发的网络资源索引、检索服务系 统,是c e r n e t “九五”攻关项目的一部分,信息来源是国内c e r n n 、c h i n a n e t 、 c a s n e t 、g b n e t 四大网络,采用s p i d e r 自动收集信息。该系统有中、英文两个 版本,可进行中英文关键词的检索,支持复杂查询,检索速度快,反馈信息丰富, 包括网址、摘要、最后修改时间、长度、相关度、编码类型等。 ( 3 ) 新浪( h t t p :w w w s i n a c o r n c n ) 新浪是目前最大的中文门户网站,收录了全球信息逾万的中文网址,并分成 娱乐休闲、商业经济、社会科学、教育就业、社会文化、参考资料、政法军事、 体育健身、科学技术、新闻媒体、文学艺术、电脑网络、医疗健康、生活服务、 参考资料、国家地域等1 5 大类,其下分多个小类,并提供了中文关键词的搜索 功能。 ( 4 ) 百度( h t t p :w w w b a i d u c o m ) 百度搜索引擎由1 9 9 9 年底成立于美国硅谷的百度公司开发。采用了基于超 链分析的方法进行相似度评价,能够客观分析网页所包含的信息,提高了检索结 果相关性。同时为用户提供“网页快照”功能,在快照中对用户的查询字符串用 不同颜色在网页中标记,方便了用户的查询。 ( 5 ) 搜索客( h t t p :w w w c s e c k t o m ) 1 9 9 7 年1 1 月3 日,c h i n a b y t e 公司在北京发布了中文搜索引擎“搜索客”。 它采用机器人自动搜索技术,快速、准确地自动抓取新增站点,并及时更新己抓 取的站点。它还兼容中文简体( g b k ) 和中文繁体( b i g 5 ) 两种编码方式。 ( 6 ) 悠游( h t t p :w w w g o y o y o t o m e n ) 悠游是由香港联克公司和北京优联克科技开发有限公司合作开发的。它能追 踪网上更新的信息,进行自动搜索、识别,并将这些资源信息分成电脑、科技、 社会、时事、财经等1 2 个主题。“悠游”不仅仅是一个中文搜索引擎,而且能 第一章绪论 利用先进的技术,减少人工工作量,进行大规模的中文信息处理。 ( 7 ) 雅虎中m ( h t t p :y a b o o t o m e n ) 雅虎中国是雅虎公司于1 9 9 8 年5 月4 日新设立的中文搜索引擎。它并非英 文版的全文翻译,而是按照英文版的铺排方法,将l 万多个中文网址以1 4 个类 别列出,提供i n t e m e t 上的中文站点目录导航和信息检索服务,用户可以利用繁 体或简体中文进行搜索,返回的结果有序而连贯,但对结果的描述比较概要。 2 ) 搜索引擎的不足 由于网络资源无序、异构、动态等特点,搜索引擎虽然在一定程度上解决了 用户获取信息的问题,但存在以下不足: ( 1 ) 搜索引擎对自然语言缺乏语义理解能力。目前,大多数搜索引擎只提供 基于关键词匹配的全文检索方式,不支持自然语言语义理解,不能正确处理人类 语言,并据此做出人们期待的各种正确响应,当然也就达不到智能化,因此资源 信息查准率不高。 ( 2 ) 网络信息不断更新与搜索引擎索引库更新相对不便之间的矛盾。i n t e m e t 上的信息是动态更新的,搜索引擎索引库无法及时相应地更新,使得用户检索得 到的仍然是陈旧过时的信息。目前,i n t e m e t 上网页总数已经高达2 0 0 0 亿,而且 仍在以每天7 0 0 万的速度增加,更新速度如此之快,而搜索引擎的信息索引库一 般每3 0 天更新一次,更新速度远远不够的,这导致了信息更新快而检索结果陈 旧之间的矛盾。 ( 3 ) 没有用户个性化服务。搜索引擎没有考虑用户之间实际需求的差异,不 同用户输入相同的关键词,返回的检索结果是一样的。而且对用户一贯查询的信 息进行重复查找,没有对用户的需求进行跟踪,获取用户对检索结果的反馈,以 便对下次返回的检索结果进行调整。 ( 4 ) 用户检索意图与实际检索结果的矛盾。用户在向搜索弓 擎提出检索请求 时,对如何用若干个关键词来表达其检索意图常常感到困难。如何帮助用户清晰 地表达其信息需求是目前系统所欠缺的。这就造成了在实际返回的检索结果中, 有很多是与用户检索意图不相关的垃圾信息。 ( 5 ) 此外还有资源收集范围有限、网络拥挤及服务器响应速度慢等问题。 1 3 2 语义 网( s e m a n t i cw e b l 2 0 0 1 年,万维网创始人t i mb e m e r s - l e e 在 s c i e n t i f i ca m e r i c a n 上提出了 语义网的概念 b e m e r s - l e et ,2 0 0 1 :语义网是一个由大量机器可以理解的数据 所构成的体系结构,在这个体系结构中,数据之间的关系是通过各种术语来表达 的,这些术语之间又形成错综复杂的网络关系,计算机能够通过这些术语获得数 7 第一章绪论 据的含义,并且可以在形式化语义关系的基础上,进行逻辑推理操作,从而使计 算机能完成大量自动处理工作。语义网是对当前万维网的延伸和扩展,语义网上 的信息具有定义良好的语义,计算机能够根据概念的定义声明和逻辑推理规则发 现资源对象的含义,使得人一机器、机器一机器之间能够更有效地交互合作;在 语义网中定义的数据能够被各种不同的应用程序综合、重用和自动处理。 t i mb c m e m l e e 在叽2 0 0 0 大会上描述了语义网的基本体系结构,如图1 1 所示。 因巨 p r o o f r d f + r d f s c h e ma x m l + n s + x m l s c h e ma u 1 1 i c o d elu r i 图1 1 语义网体系结构图 在语义网体系结构中,u r i 和u i l i c o d e 位于最底层,是语义网的基石。语义 网采用统一资源标识符u r i ( u n i f o mr e s o u r c ei d e n t i f i e r ) 来标识资源及其属性,采 用u n i c o d e 作为字符的编码解决方案,成功解决了万维网上资源定位和跨地区字 符编码格式问题。可扩展标记语言x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 作为语义网 的语法层,提供了w e b 数据编码的语法依据;资源描述框架r d f ( r e $ o u r c 七 d e s c r i p t i o nf r a m e ) 作为元数据层,用于描述w e b 资源及其类型,为w e b 资源描 述提供一种通用框架和实现数据集成的元数据解决方案;本体o n t o l o g y 作为词 汇层,则提供语义交换的桥梁,在不同智能体之间实现概念共享和理解。三者为 w e b 资源的机器理解和互操作提供语义支持,是整个语义网的核心和关键。 语义网具有良好的概念层次结构和对逻辑推理的有效支持,并且能从语义和 知识层次上描述资源的概念类型,因此被广泛地应用于信息智能检索、个性化信 息服务等领域。例如,欧洲的o n - t o k n o w l e d g e ( h t t p :w w w o n t o k n o w l e d g e o r g ) 利用语义技术实现w e b 知识管理,包括基于本体的知识共享工具、表示平台和 搜索引擎以及元数据提取工具等,实现了从分布式资源中发现具有普遍意义的知 识,实现了管理决策知识化 d a v i e sj ,2 0 0 2 1 。k b g r i d 是一个建立在语义网上的 大规模知识库系统,实现了w e b 资源的组织、发现、使用和管理,并支持知识 共享、语义浏览和推理等服务功能 w uz h ,2 0 0 3 】。 第一章绪论 1 3 3 个性化信息服务技术 鉴于搜索引擎不能满足用户不同背景、不同目的、不同时期的信息需求,个 性化信息服务技术以其智能性、以用户为中心、主动推送信息等特点越来越受到 相关研究人员的重视,并迅速发展起来。目前国内外存在着许多个性化信息服务 系统曾春,2 0 0 2 ,根据信息服务的特点,可分为以下三类:基于规则的系统, 如:i b m 的w e b s p h e r e 、b r o a d v i s i o n ( h t l p :w w w b r o a d v i s i o n c o r n ) 等;基于内容 过滤的系统,如s y s k i l l & w e b e r t p a z z a n im j ,1 9 9 6 、l e t i z i a l i e b e r m a nh ,1 9 9 5 1 、 i f w e b a s n i c a rf ,1 9 9 7 】、s i f t e r m o s t a f aj ,1 9 9 7 】、p v a c h e nc c ,2 0 0 1 】、 w e b m a t e c h e nl ,1 9 9 8 】、w e b a c e h a ne h ,1 9 9 8 】、e l f i s c h w a bi ,2 0 0 0 等; 协作过滤系统,如g r o u p l e n s k o n s t a nj ,1 9 9 7 】、f i r e f l y s h a r d a n a n du ,1 9 9 5 】、 s e l e c t a l t o n - s e h e i d lr ,1 9 9 9 、l i k e m i n d s ( h t t p :w w w m a e r o m e d i a e o m ) 等。这 些系统以各种思路实现了个性化信息服务。 ( 1 ) 基于规则的系统 基于规则的系统通过规则来决定系统在不同情况下如何提供不同的服务。一 个规则本质上是一个i l t h e n 语句,规则一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论