




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)个性化智能元搜索引擎的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
四川师范大学硕士学位论文 个性化智能元搜索引擎的研究与设计 计算机软件与理论专业 研究生孟刚指导教师王玲 信息技术的飞速发展和信息网络的迅速扩展,有力地带动了全球信息资源 不可逆转的网络化发展趋势,从而对人类社会的各个方面产生了深刻的影响。 然而网上信息是无序的,搜索起来非常的困难,并且信息不断的膨胀、发展, 如何快速准确的找到我们需要的信息,将是搜索引擎面临的一个主要问题。 理想的搜索服务是按照人们需要的信息范围进行灵活的订制,它可以随时 将所关注区域内的信息动态呈现给订制的用户,搜索引擎会根据用户的不同信 息来对同一个关键词输出不同的结果。本文研究即是在这个背景下展开的。 本文的主要研究工作如下: 1 在阅读了大量文献资料的基础上,分析了个性化智能搜索的发展现状 和发展趋势,说明了本文的研究目的和意义。 2 首先对个性化智能搜索的概念和主要应用技术作了描述,然后对个性 化智能搜索的同义词识别进行分析研究。 3 对李雪梅等人提出的基于语义的个性化搜索机制的方案进行了改进, 进一步提高兴趣度识别效率。 4 ,本文构造了基于计算机科学专业中的同义词知识库以及用户兴趣关联 知识库,设计了多策略搜索机制的个性化智能搜索系统。 5 在v i s u a ls t u d i 0 2 0 0 3 开发环境下实现基于个性化条件设置的多策略智 能搜索实验系统“趣搜”。 关键字:智能搜索个性化搜索模型搜索策略同义词语义识别元搜索 引擎兴趣度 四川师范大学硕士学位论文 r e s e a r c ha n dd e s i g no fp e r s o n a l i z e di n t e l l i g e n tm e t a s e a r c he n g i n e m a j o r c o m p u t e r s o f t w a r ea n dt h e o r y a u t h o r :m e n gg a n g s u p e r v i s o r :w a n gl i n g t h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n de x p a n s i o no fi n f o r m a t i o n n e t w o r ke f f e c t i v e l yd r i v et h ei r r e v e r s i b l et r e n do fn e t w o r kd e v e l o p m e n to fg l o b a l i n f o r m a t i o nr e s o u r c e s t h i sw i l lh a v eag r e a ti m p a c to nv a r i o u sa s p e c t so fh u m a n s o c i e t y h o w e v e r , t h ei n f o r m a t i o no n l i n ei so u t - o f - o r d e ra n di ti sv e r yd i f f i c u l tt o s e a r c h m o r e o v e r , a st h ei n f o r m a t i o ne x p a n d sa n dd e v e l o p sc o n t i n u o u s l y , h o wt o f i n dt h ei n f o r m a t i o nw en e e dq u i c k l ya n d e x a c t l yw i l lb et h em a j o rp r o b l e mw em a y f a c ei nt h es e a r c he n g i n ec o u r s e t h ei d e a ls e a r c hs e r v i c ei sm a d eo u tf l e x i b l ya c c o r d i n gt op e o p l e sd e m a n do f i n f o r m a t i o nc i r c l e i tc a bp r e s e n tt h ei n f o r m a t i o ni nt h ec i r c l e sp e o p l ec o n c e r n e dt o t h e mi nad y n a m i cw a ya ta n yt i m e t h es e a r c he n g i n ec a n o u t p u td i f f e r e n tr e s u l t sf o r t h es a r f l ek e y w o r d sa c c o r d i n gt od i f f e r e n ti n f o r m a t i o nf r o mc u s t o m e r s t h i sp a p e ri s d i s c u s s e du n d e rm i sb a c k g r o u n d t h em a i np o i n t ss t u d i e di t sf o l l o w s : 1 t oa n a l y z et h ed e v e l o p m e n ts i t u a t i o na n dt r e n do fp e r s o n a l i z e di n t e l l i g e n t s e a r c ha n di l l u s t r a t et h eo b j e c t i v ea n ds i g n i f i c a n c eo nt h eb a s i so fg r e a ta m o u n to f r c f i :r e n c em a t e r i a l s 2 f i r s t l y , t om a k ead e s c r i p t i o nf o rc o n c e p t i o na n dm a j o ra p p l i c a t i o ns k i l l so f p e r s o n a l i z e di n t e l l i g e n ts e a r c h t h e n ,t oa n a l y z ea n ds t u d yt h er e c o g n i t i o no f s y n o n y m i np e r s o n a l i z e di n t e l l i g e n ts e a r c h 3 t om a k ea m e n d m e n tf o rt h ep r o j e c t ,p u to u tb yl ix u e m e ia n do t h e r so f p e r s o n a l i z e ds e a r c hs y s t e mb a s e do nm e a n i n ga n dm a k ef u r t h e ri m p r o v e m e n tf o r t h e r e c o g n i t i o ne f f e c t i v e n e s so fi n t e r e s t 4 t h i sp a p e ri sm a d eu po nt h eb a s i so fc o m p u t e rs c i e n c ec o u r s e ss y n o n y m i i 四川师范大学碗士学位论文 t h e s a u r u sa n dr e l a t e dt h e s a u r u sp e o p l ea r ei n t e r e s t e di n t h i sh a sd e s i g n e dt h e p e r s o n a l i z e di n t e l l i g e n ts e a r c hs y s t e mo fm u l t i - s t r a t e g ys e a r c hs y s t e m 5 w i t ht h ev i s u a l s t u d i o2 0 0 3d e v e l o p i n ge n v k o n m e n t ,t h eo b j e c t i v ei st o r e a l i z e f u ns e a r c h ”o ft h em u l t i m e a s u r e m e n ti n t e l l i g e n ts e a r c he x p e r i m e n ts y s t e m o nt h eb a s i so fp e r s o n a l i z e dc o n d i t i o ns e t t i n g s k e y w o r d :i n t e l l i g e n ts e a r c h ,p e r s o n a l i z e d ,s e a r c hm o d e l ,s e a r c hs t r a t e g y , s y n o n y m o u s ,s e m a n t i cc a t e g o r i z a t i o n ,m e t as e a r c he n g i n e ,i n t e r e s td e g r e e l i i 四川师范大学学位论文独创性及使用授权声明 本人声明:所呈交学位论文,是本人在导师至验l 教援2 指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任 何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。 本人承诺;已提交的学位论文电子版与论文纸本的内容一致。如因不符而 引起的学术声誉上的损失由本人自负。 本人同意所撰写学位论文的使用授权遵照学校的管理规定: 学校作为申请学位的条件之一,学位论文著作权拥有者须授权所在大学拥 有学位论文的部分使用权,即:1 ) 已获学位的研究生必须按学校规定提交印刷 版和电子版学位论文,可以将学位论文的全部或部分内容编入有关数据库进行 检索;2 ) 为教学和科研目的,学校可以将公开的学位论文或解密后的学位论文 作为资料在图书馆、资料室等场所或在校园网上供校内师生阅读、浏览。 论文作者签名: 四0 6 年6 月1 日 四川师范大学硕士学位论文 第1 章引言 1 1 研究背景 互联网从产生、技术积累到飞速发展的近十多年里,给现代社会带来了无 法估量的影响,在科研、教育、工业、经济、生活等方方面面发挥了巨大的推 动作用。随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越 成为人们上网浏览时的重要工具。据中国互联网络信息中心( c n n i c ) 2 0 0 5 年1 2 月进行的第1 7 次中国互联网络发展状况统计调查表明:浏览新闻、搜索 引擎、收发邮件成为网民最常使用的三大网络服务,三者的使用率分别为浏览 新闻6 7 9 、搜索引擎6 5 7 、收发邮件6 4 7 吐 搜索引擎从海量的、分布的网络资源库中找出与主题相匹配的资源信息, 为人们查询信息提供了极大的便利。但随着网络信息的爆炸式增长,搜索引擎 反馈的检索结果也日益增多,人们几乎需要查阅所有的结果项,这对于有着成 千上万条的结果集合来说,无疑是件繁重的工作甚至是不可能完成的任务。因 此,搜索引擎的重要价值比以往任何一个时候都体现得更为明显。如何满足用 户个性化的需求、协助用户从海量信息中找到自己所需的信息将是所有搜索引 擎面临的一个重要任务。 在搜索过程中,用户的搜索习惯一般是通过键盘“输入一个词”来实现, 但“一个词”所包含的信息量太少,往往很难准确地找到用户所需要的信息, 因此针对这个问题,未来的搜索技术可以向如下两个方向发展: 1 实现“输入一个句子”( 从输入角度改进) ,系统能够对一个长句子进行 逻辑判断和分析,精确地找到所需要的信息。这里需要涉及到自然语言的理解 和处理,限于相关研究的限制,目前的搜索引擎还没有很好的实现。 2 互动问答式搜索( 从查看角度改进) ,即在用户输入某一个词后,系统 通过对该词的相关主题进行快速分析,提示相关主题,与用户进行人机互动, 逐层缩小搜索范围,使用户更快更准的找到所需要的信息,更加人性化、智能 化、操作傻瓜化,大幅度提高搜索相关度。 第二种发展方向可看作对用户搜索意图的理解,也是本文研究的一个重要 方向。在如何提供更准确、更精练和更符合个人需求的检索结果的要求上,信 息过滤作为对现有信息检索系统的补充,不但设法提供给用户感兴趣的信息, 四川师范大学硕士学位论文 还对用户的兴趣趋向进行记录。其关键技术是用户模型f u s c r p i 娟l e ) 的构造。同 样。在搜索引擎中引入用户模型,将有利于实现自适应的检索,提供一种个性 化、智能化的服务【2 1 。 1 2 研究目的 目前的搜索引擎大都只使用关键词技术,较少引入模式识别、语义分析、 神经网络等方面技术,每次搜索时只是按照关键词进行匹配,返回的大量信息 和链接,其中很大部分是垃圾信息或者不是用户需要的信息,往往导致用户无 所适从。而门户网站或者专业网站虽然对信息进行很好的分类,但是首先要用 户记住嘲址,还要懂得分类的标准,然后逐层点击相应的分类链接,才能获得 所需的信息。这样的信息分类查询给信息服务商造成很大的工作量,服务成本 和进入门槛显著提高,而用户使用起来也不方便。 个性化智能搜索的目的是在网络环境下为搜索用户提供与众不同的个性化 服务:针对单个用户的使用记录对该用户搜索模型进行建模,结合该用户基本 信息分祈他的使用习惯、个人喜好,归纳潜在的搜索限定条件,为用户找到最 适合的信息。 如前文所晓,目前的搜索引擎并不能很好的给用户提供所需信息,而个性 化智能搜索可以给用户提供方便、快捷、准确的信息,节约用户大量的搜索时 间,同时它提供的搜索策略,让传统的许多搜索技巧能有效地被普通用户使用, 加快信息的交流、知识的发现。总的来说,个性化智能搜索的研究意义有如下 两点:1 ,提高信息获取速度、准确性;2 ,加快数据共享,提高信息易取性。 1 3 目前搜索引擎的不足与思考 目前的搜索弓l 擎将互联网上的网页信息进行了重组和集中,通过关键词或 者网站目录的方式查询,极大的简化了信息查询过程,提高了查询效率,但不 可否认,也存在如下所述的一些不足。 1 3 1 信息采集不够 目前的搜索引擎是通过“网络蜘蛛”的程序对互联网上所有网站的部分网 页或文件进行分析,因为许多网站有两层、三层以上的目录结构,而一般的“网 , 艘川师范大学硕士学位论文 络蜘蛛”程序只能分析到三层目录以内的网页或文件,这样信息的采集明显不 够,只能展示2 0 至3 0 的网络资源吼 这也使得即使搜索出的信息看起来成千上万个结果,但是并非全部,很多 时候找不到所需的信息。一般来说,由于使用了人( 专家) 来对网站进行归纳和 分类, 网站分类技术为网络信息导航带来了极大的方便,受到人们的欢迎但 是它的缺陷除了成本较高之外,对网站的描述也十分简略。其描述能力不能深 入网站的内部细节。因此用户不能查询网站内部的重要信息,造成了信息丢失。 举例说说,“武器库( h t t p :w w w b u s i n e s s 1 s c o m w e a p o n ) :是- - 个军事爱好者的个 人主页。某搜索引擎对它的分类是政府与政治,军事,武器与军备”,对它 的描述是“各种武器、火炮、坦克、导弹及军用飞机介绍”。用户用关键词“武 器”、“火炮”、“坦克”、“军用飞机”都能够检索到该站点。然而,该站点介绍 了多种反坦克导弹。如果用“反坦克导弹”作为关键词来查询,在网站分类中 就找不到这个站点了。因为对它的简略描述中没有“反坦克导弹”这个词串【4 】。 ! 3 2 目录式搜索引擎分类体系不够完善 嗣录式搜索引擎对应的分类体系按信息学分类角度来看,其划分还不够科 学。其类目的划分与排序应具有严密的逻辑性,从整体上考虑类目学科体系的 平衡,以最大限度地反映科学发展的状况,按信息学科的分布进行完整而有侧 重的涵盖。而目前绝大多少搜索引擎对其目录划分都不够详细准确,给用户的 搜索造成一定的影响。 1 3 3 信息检准率低 用户每输入一个关键词进行搜索,一般会出现大量的搜索记录,但是由于 搜索对关键词仅是机械匹配,返回的这些信息里面绝大多数是垃圾信息,没有 比较好的相关度分析算法和排序输出,对用户造成一些额外的负担需要用 户再度筛选信息,所以说其信息检准率低。 1 3 4 个性化内容少、结果雷同 目前的搜索引擎对所有用户输入的相同的关键词,返回的信息都是相同的 3 四川师范大学硕士学位论文 内容,不能根据不同用户的具体需要返回其需要的信息。当然,这也与用户有 时不知道自己要搜索的内容的贴切表达有关,很多时候选择了比较抽象的搜索 关键词,返回的结果自然不尽人意。 所有这些不足之处都是目前的搜索引擎面临的挑战,要解决这些问题,就 要发展个性化的搜索和基于自然语言处理的智能搜索,向专业化、行业化发展。 1 4 个性化智能搜索研究现状与发展趋势 1 4 1 个性化智能搜索研究现状 国外关于个性化搜索的正式研究也是最近两年才予以开展,最为著名的是 g o o g l e 公司,g o o g l e 实验室( h t t p :a a b s ,g o o g l e c o r n ) 将个性化( p e r s o n a l i z e d ) 搜索作为一个研究方向,目前( 2 0 0 6 年3 月) 己推出b e t a 版本供用户测试 ( h t t p :t w w w g o o g l e c o n v p s e a r c h ) 。g o o s e 公司为每一个用户提供一个帐号, 并记录该用户的个性化设置数据,其应用前景非常可观。 个性化搜索引擎技术可以基于用户此前搜索的内容探测用户的喜好,从而 使得搜索引擎可以为用户提供更准确的搜索结果。为此,g o o g l e 专门收购了一 家研发基于个性化和关联搜索工具的新兴企业k a l t i x 。同时,g o o g l e 为搜索广 告新增了三大服务功能,其中的跟踪工具备受业界关注,它能使广告商推测他 们的付费广告吸引用户进行在线交易的效果 5 1 。 雅虎c e o 特瑞正在将雅虎推向一个崭新的搜索领域个性化搜索。这 无疑是向g o o g l e 挑战的开始,个性化搜索将是最迫切的一次技术变革,搜索结 果将充分考虑到用户的居住地点及他的偏好等一系列重要信息。比如,一位天 文爱好者在搜索“土星”这一关键词时,得出的结果将会是与土星有关联的所有 信息,而不是汽车( 在国外土星是一个汽车品牌) 6 1 。 国内在个性化搜索研究较多的搜索公司主要是中搜公司 ( h t t p :w w w z h o n g s o u c o m ) ,其搜索引擎如g o o g l e 一样提供个人偏好设置,同 时该公司提供的网络猪可以让用户自定义搜索的主题,实时反馈搜索出的信息, 给用户一个自定义的“个人门户网站”。另外中搜公司还提供各种商业性服务, 如直接在浏览器地址栏以“品牌名称:关键词”的形式,直达目标网站或查找 内容,包括产品、商品、信息等,体验一键直达的强大功能。这些服务开创了 搜索的新起点。 四川师范大学硕士学位论文 中国搜索现已推出了第三代智能中文搜索引擎的4 0 版本。该搜索引擎继 续延续中国搜索在搜索“智能化”方向的理念,在自动分类、自动聚类的基础 上推出智能导航、概念搜索、个性化搜索功能,使搜索引擎在充分领会用户意 图的搜索基础上,进入到一个真正智能化时代。该引擎的“智能导航”功能是 通过用户的检索关键词,用导航推荐给用户。例如用户查找“猪豹”搜索引擎 会推荐用户,需要汽车分类“猎豹”还是动物分类下的“猎豹”,从而帮助用户 发现未曾意识到的信息并准确地快速定位,提高查询效率。而“概念搜索”则 通过专家知识和人工智能推理规则,对用户的查询请求进行处理,最大可能的 理解用户的意图,提高用户查询的满意度。个性化搜索则更是与用户的使用紧 密结合,能够使不同的人查询到不同的信息。 1 4 2 个性化智能搜索的发展趋势 世界知名的i t 公司如g o o g l e 、i b m 、m i c r o s o f t 、y a h o o 纷纷发展自己 的智能搜索引擎,占领市场份额。这些智能搜索引擎的一个特点就是:“从庞大 的资料库中精确地找到正确的资料”,也就是提高信息获取速度、准确性。诸如 智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大的区别。智能 搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。另一 个颇受瞩目的搜索技术就是将p 2 p 技术应用到网页的检索中。通过共享所有硬 盘上的文件、目录乃至整个硬盘,用户搜索时无需通过w e b 服务器,不受信息 文档格式的限制,即可达到传统目录式搜索引擎无可比拟的深度f 传统引擎只能 达到2 0 3 0 的网络资源 。 搜索引擎技术目前还和用户的某些期望相去甚远:它并不能智能化理解人 类的想法,并与人类的生活完全结合。实际上,众多的搜索引擎提供的各种搜 索技巧,需要用户操心得更多而不是更少。用户要迅速搜索到适合的内容,就 要定义好合适的关键词,还要了解搜索的各种技巧。而当用户不在电脑前面的 时候,就根本无法利用搜索引擎所能带来的便利。即便是很简单的检索。要想 让搜索引擎获得更为广泛的应用,就需要在周围环境的交互中形成无所不在的 网络,甚至掩盖搜索引擎的存在。前卫的g o o g l e 就开始在测试无线的购物搜索 服务,它支持w m l 的无线协议,可以通过手机来检索希望购买的商品。另外, 基于地域的搜索和当地服务的结合将会为搜索;l 擎技术的使用和商务带来巨大 四川师范大学硕士学位论文 的商机。试想一下,当用户在一个不熟悉的地方要打出租车的时候,用户可以 通过手机发出一个检索,搜索引擎便将这个请求的检索结果返回给购买这一服 务的当地出租车服务公司,出租司机可以根据手机的定位梭索系统到达目的地 给用户提供服务。多媒体的检索也将为生活带来更为便利的服务。现在的多媒 体搜索都是基于文本的检索,而真正基于语义的检索还与实用化存在很大的差 异。比如对图片本身信息的理解,对音乐旋律的识别都是非常困难的。不过在 这方面,语音识别走出了不错的一步,英国一家公司已经可以对声音文件进行 语音识别提炼出其中的文字来进行搜索了【8 j 。g o o s e 的v o i c es e a r c h 也在测试 中,未来人们将可以不用键盘输入而是通过语音便可获得更为快捷的信息。到 那时,信息资源的传播和共享速度将达到前所未有的境界。 1 5 个性化智能搜索的优异特性 1 5 1 提高信息获取速度、准确性 现在是2 0 0 6 年初,g o o g l e 搜索的互联网上的网页已超过8 0 亿张。在如此 庞大的信息库( 互联网可看做一个大的信息库) 中搜索人们需要的信息,会怎 么样呢? 据2 0 0 1 年r o p e rs t a r c h 的调查指出:3 6 的互联网用户一个星期花了 超过2 个小时时间在网上搜索;7 1 的用户在使用搜索引擎的时候遇到过麻烦; 搜索受挫中4 6 都是因为链接错误;平均每个搜搜者在1 2 分钟的徒劳搜索后就 感到恼火和受挫1 w 。本文在研究过程中也是搜索受挫,没找到2 0 0 4 、2 0 0 5 年的 此类统计数据。 面对如此竞大的信息,传统的搜索引擎在返回结果上并未加以处理,既未 按时间排序,也未按主题相关度排序,很难快速准确的找到用户真正想要的信 息。个性化智能搜索在对用户的个性化条件的分析基础上,进行用户搜索兴趣、 行为的分析,推导出相关的搜索策略,因而能较为快速、准确地找到用户需要 的信息。 1 5 2 加快数据共享,提高信息易取性 智能搜索十分重视基于机器翻译技术和基于语义理解技术的研究和应用。 机器翻译( m t ,m a c h i n et r a n s l a t i o n ) 是季4 用计算机把一种自然语言转变成另 四川师范大学硕士学位论文 一种目然语言的过程,智能搜索可以是用户搜索非母语的信息,并用母语浏览。 语义理解通过对语言学的研究成果和搜索引擎技术结合在一起,实现搜索引擎 对搜索词在语义层次上的理解,为用户提高最确切的搜索服务。当前这些还存 在很多技术难点,但一旦突破,必将对社会信息化起到巨大的推动作用。 比如,微软公司提出的一个经典例子:比尔盖茨在家里看一场棒球赛电视 节日时,觉得这场比赛很精彩,就对一个语音输入装置大喊一声:“保罗! 快看, 这场比赛很棒! ”,然后安置在比尔- 盖茨家里的智能系统分析这句话,查戎保罗 这个人,虽然在盖茨的通讯录里有很多个“保罗”,但根据这种行为的历史记录 以及其它相关信息分析,认为最有可能的是保罗- 艾伦,于是查找他的地址,连 接保罗家里的智能系统,如果保罗在家,则接通扬声器,让盖茨的话传到保罗 耳朵里,于是保罗可以正常的与盖茨对话,同时观看一个电视节目,互相讨 论。 当然,现在这个系统还没有完全实现,但它确实是智能搜索在未来要做到 的众多神奇功能之一。首先,它要对用户语音进行辨析、识别,然后分析语义, 了解用户的意图,最后按照一定的规则执行相应的操作。第二、三项是智能搜 索的主要任务,毫无疑问,这种就是搜索的发展前景一无所不能的一个事例。 个性化智能搜索就是在基于关键词层面提高到基于知识( 或概念) 层面, 对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、 短语识别以及机器翻译技术等。因而这种搜索引擎具有信息服务的智能化、人 性化特征,提供更方便、更确切的搜索服务。相应地,用户能更方便的获取共 享的数据,提高信息的易取性。 1 6 小结 从用户需求的角度来看,个性化、智能化是搜索引擎发展的一个主要方向, 因为如本章所述,当前的搜索引擎技术能够满足人们的基本运用,但依然存在 很多的不足,例如用户不能准确简单地找到用户需要的内容,需要从繁杂的内 容中挑选对自己有用的东西来,既费时,也费力,很难实质性地改善搜索引擎 的结果,满足用户更深层次的需求。因此,必须将用户的实际情况( 如个性化 条件) 以及用户的知识和智慧加入到检索过程中,才能使搜索引擎的质量产生 一个质的飞跃。 一婴业堕蔓查兰堡主堂焦笙茎 那么如何实现呢? 本文要探讨的就是将同义词的识别、兴趣度的分析等技 术引入到个性化智能搜索中,以实现对用户的知识、智慧的模拟,加入到搜索 过程中,提高搜索质量。 四埘师范大学硕士学位论文 第2 章智能搜索之同义词识别算法研究 个性化智能搜索的关键技术之一就是同义词的识别,正是因为同义词的有 效识别,使得个性化智能搜索能较好的理解搜索用户的真实意图,比如用户输 入搜索关键词“模式”,个性化智能搜索就能推导出是计算机软件技术方面的“模 式设计”以及计算机科学理论方面“模式识别”等同义词来,这样通过提示或 者相关算法分析推测用户的搜索意图,即能较好的实现用户的搜索行为。 同义词在现代汉语学中是指义位相同或相近的一组词。同义词有宽严两种 情况。严格的同义词是指概念意义完全相同的一组词,即所谓的等义词。如“西 红柿一番茄”;较宽的间义词是指概念意义基本相同但又有细微差异的一组词, 即所谓的近义词。如“爱惜一爱护”f 1 0 1 。 在本文研究中,同义词概念识别主要针对检索中出现的各种自然语言形式 的等义词、表达同一主题不同方面的反义词、一部分表达主题相似的准同义词 以及过于专指的下位词它不同于语言学中的同义词,在情报学中,同义词主 要是作为自然语言检索中的后控制服务的,目的是提供更多的检索入口,对自 然语言进行控制。因此本研究中的同义词概念并不等同于语言学中和日常生活 中的同义词概念,体现在四个方面上:1 不考虑感情和语气色彩;2 可替代性; 3 模糊性4 专业性【1 l 】。 同义词识别主要的算法有:字面相似度识别算法、基于词素的语义识别算 法。下面分别分析这两种算法,然后提出基于知网的语义相似度计算算法 并建立了系统所需的同义词知识库。 2 1 字面相似度算法分析 2 1 1 1 字面相似度箕法的主要思想 字面相似度识别算法是指根据字面相似性原理,即汉语中绝大多数同义词, 准同义词都含有相同的语素( 这里指字) 这一特点,计算词与词之间关联的程 度。吴志强【1 2 】在经济信息检索后控制词表的研制一文中提出相似度算法规 则将汉语构成的重心后移原理加入到相似度算法中,以提高同义词的识别率, 这一做法简单易行,效果较好,是一种比较有代表性的算法。 堕型堕蔓查兰婴主兰竺丝塞 这种算法对词语中各个语素表达主题概念的作用进行量化,作一加权处理: 语素越靠前,作用越小,权值也越小;语素越靠后,作用越大,权值也越大, 然后进行相似度计算,其权重设定方案如下: 假设一个词由n 个语素构成,构成该词的各个语素的权数w o r d ( i ) 由这一 语素i 在词中的位置确定,首语素权重为1 ,词素i 在词中的位置越靠后,权数 越大,词中各个语素的权数以及这个词的总权数分别为: 语素i 的权数:,f 1 + 2 + + f + + ) ( i 表示该语素在词中所处的位置) 字面相似度算法对词的总权数做如下规定: y j 一: 厶, 一 1 2 再i 五了雨+ 再五i j 酉+ +:_j3jf;_而+:_:n12 4 -n1 24 - 1 f _ 而n 。1 ( 2 1 ) 【1 1 + i + + + i + + 例如:“智能搜索”一词中各语素的权数为:1 1 0 、2 1 0 、3 1 0 、4 1 0 各个语素的权数之和为:1 1 0 + 2 1 0 4 - 3 1 0 + 4 1 0 = 1 在对待匹配词a 和被匹配词b 进行字面相似性分析,统计两个词中共同含 有的相同语素个数,同时对词a 和词b 中各个语素加权,根据相同词素在两词 中的位置及次序,统计相同语索在各个词中所占的权值,计算两词的相似程度, 其相似度匹配公式为: 塑塑盟一j - 塑旦型一 x s d :6 0 x 型竺! ! 堕竺1 2 + 4 0 d p 2 ( 2 2 ) 【1 1 这里,假设两个词之间的相似度受两方面的影响:两卜词含有相同语素的 个数的影响占6 0 :相同语素在各个词中的位置关系的影响占4 0 。 其甲: x s w o r d 表示两词含有相同字的个数 1 0 四川师范大学硕士学位论文 e t r l w o r d 表示被匹配词所含总字数 k e y w o r d 表示待匹配词所含总字数 筘器 孓! :翌堡型蚴 厶xk 掣w 。州( i ) ,一 表示匹配字在待匹配词中所处位置的权数之和。 表示匹配字在被匹配词中所处位置的权数之和。 d p 表示位置系数,其值为被匹配词与待匹配词总字数之比,如被匹配词总 字数大于待匹配词总字数,d p = k e y w o r d c t r w o r d 反之则为d p = c t r w o r d k e y w o r d 。 该相似度计算公式是通过计算匹配字串与被匹配词和待匹配词的比例的算 术平均数,以及匹配字串在被匹配词和待匹配词的位置次序关系的权数之和的 算术平均数,然后分别乘以两个影响的加权数,最终得出两词的相似度。 2 1 2 字面相似度算法的不足 字面相似度算法快捷、方便,同时达到了相对较好的识别率,另一方面电 存在一些问题,限制了其识别率的提高。其不足主要有【1 l 】: 1 以字为单位进行比较与判别不能有效区分同义词; 2 计算阀值选取上的困难; 3 不能识别非字面相似的同义现象; 4 难以应用语法规则进一步提高识别率; 5 算法设计缺乏理论上的支持,存在逻辑缺陷。 2 2 基于词素的语义识别算法分析 2 2 1 词素相似度识别算法的主要思想 字面相似度算法只适用于识别由纯汉字构成的词汇,不适用于识别纯粹由 非汉字组成的词汇。因此以词素为单位识别同义词的方法开始得到研究和应用。 首先,建立常用词索的语义词典,对识别词进行切分,在此基础上以词素 为单位,以相似性原理为依据,将词素的字面形式转换为语义代码进行相似度 判别,在考虑词组的结构关系的前提下进行同义词的识别。其中引入了表达度 这一概念,表示词的部分对整体的涵义所起的作用大小,据此进行加权。 1 1 四j l l 师范大学硕士学位论文 公式的成立首先假设以下条件为已知: 待匹配词c t f l w o r d 的信息量总和为a ; 匹配词k e y w o r d 的信息量总和为b - 两词中表示相同语义的信息量为c 1 ,c 2 ; 共同部分c 1 对a 的表达度为x , 对b 的表达度) b y 。 根据这些条件可得: 、 x = c i a ,y = c 2 b ( e l = c 2 = c 1 则相似度: x s d = 2 1 x + 1 y 】 ,y 不为0 ) ”】。 2 2 2 词素相似度识别算法实现 词素相似度识别算法的具体做法是建立以词素为单位的语义词典,将词素 按语义上的分类体系进行相c a l l 较,再将组成语词的各个词索相似度按一定的 权重计算出表达度,再通过两词的表达度计算出相似度。语义的比较必须以义 原、而不是词素作为比较单位。义原的集合根据其相互间的联系,可以组成 一个语义体系。语义体系中同一分支节点或相邻节点的范畴具有相同或相似的 含义,从而使得通过词素的语义代码进行比较成为可能。如“中央银行”( 专有 名词,不能分解、对应的义原串为“m 1 4 3 1 一m 1 4 6 0 3 2 1 m 1 4 1 ”,“m 1 4 3 1 ” 指机构范畴,“m 1 4 6 0 3 2 1 ”指金融范畴,“m 1 4 1 ”指国家范畴。 义原的比较原则上是计算类号相同节点占平均节点长度的比值。对于类号 “m 1 4 6 0 3 ”和“m 1 4 6 0 4 ”,其相关度为:相同节点数2 ,平均节点长度 ( 3 + 3 ) 2 = 2 3 = 6 6 7 。 而基于语义的词素相似度算法在数学上意义非常明确,去掉了字面相似度 算法中的d p 、6 0 o 及4 0 等主观因素,计算公式也比较简单【1 1 】。 2 2 3 词素相似度识别算法的不足 基于词素的相似度算法以词素作为同义词识别的基本单位,解决了传统字 面相似度算法中以字为单位而造成的缺陷:减少了歧义、不再出现同一词素中字 的权重有大有小的现象、引入语义辅助使识别字面不相似而含义相同的词素成 为可能。基于词素的算法从理论上较基于字面相似度的算法有较大改进,但同 四 i i 师范大学硕士学位论文 时又由于它是在一定的语义范畴体系下设计的,不可避免地存在着许多不足之 处:1 词素多义性难以消除,词素的数量要远远小于一般词汇的数量,单一类目 容易造成词素难以归类,如对于“组成”这个词素的归类对象可能是:e 1 2 1 7 、 m 4 3 、x 2 ,0 2 等,不能确定,因此适用于词素的语义范畴体系有待进一步改进。 2 人工标注词素、定义其范畴代码工作量巨大,词素标注更薪馒 1 4 l 。 2 3 基于知网的语义相关度计算分析 2 3 1 知网( h o w n e t ) ) ) 简介 知网是研究自然语言处理的主要流派之一,它由董振东和董强先生创 建,至今已开发出许多相关产品,具有较大的影响力 1 5 l 。知网是一个以英 汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概 念所具有的特性之间的关系为基本内容的常识知识库。知网系统的哲学是:“世 界上一切事物( 物质的和精神的) 都在特定的时间和空间内不停地运动和变化。 它们通常是从一种状态变化到另一种状态,著通常由其属性值的改变来体现。” 基j i 上述,知网的运算和描述的基本单位是:万物,其中包括物质的和精神的 两类,部件,属性,时间,空间,属性值以及事件【1 6 】。 知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器 翻译等方面的研究提供了宝贵的资源,这里本文主要提取其词汇语义知识库进 行专业同义词库的构建。 2 3 2 知网的结构 知网中有两个主要的概念:“概念”与“义原”。 “概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。 “概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用 的“词汇”叫做“义原”。 “义原”是用于描述个“概念的最小意义单位。 与一般的语义词典( 如同义词词林或w o r d n e t ) 不同,知网并不是 简单地将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系 列的“义原”来对每个“概念”进行插述。 四川师范大学硕士学位论文 知网一共采用了个1 5 0 0 义原,这些义原分为以下几个大类: 1 ) e v e n t 事件 2 ) e n t i t y i 实体 3 ) a t t r i b u t e i 属性值 4 ) a v a l u e i 属性值 5 ) q u a n t i t y 数量 6 ) q v a l u e t 数量值 7 ) s e c o n d a r y f e a t u r e 次要特征 8 ) s y n t a x i 语法 9 ) e v c n t r o l e 恸态角色 1 0 ) e v e r t t f e a t u r e s 动态属性 除了义原以外,知网中还用了一些符号来对概念的语义进行描述,如下 表所示: 、 表21 :知网知识描述语言中的符号及其含义 ,多个属性之间,表示“和”的关系 # 表示“与其相关” 表示“是其部分” $ 表示“可以被该v 处置,或是该“v ”的受事,对象,领有物, 或者内容 幸 表示“会v 或主要用于v ,即施事或工具 对v 类,它表示它所标记的角色是一种隐性的,几乎在实际语言 中不会出现 表示指向 表示多半是,多半有,很可能的 表示可以做“v ”的空间或时间 表示可以是“n ”的材料,如对于布匹,我们标以“? 衣服”表示 布匹可以是“衣服”的材料 f 】( 1 ) 对于v 类,置于 中的是该类v 所有的“必备角色”。 如对于“购买”类,一旦它发生了,必然会在实际上有如下角色参与: 施事,占有物来源,工具。尽管在多数情况下,一个句予并不把全 四川师范大学硕士学位论文 部的角色都交代出来 ( 2 ) 表示动态角色,如介词的定义 ( ) 置于其中的应该是一个词表记,例如,( c h i n a l 中国) 表示不存在,或没有,或不能 表示某一属性为一种敏感的属性,例如:“味道”对于“食物”, “高度”对于“山脉”,“温度”对于“天象”等 标识概念的共性属性 2 3 3 语义相关度计算算法 语义相关度是一个模糊的概念,没有明确的客观标准可以衡量。词语相关 度这个概念涉及到词语的词法、句法、语义甚至语用等特点,其中,对词语相 关度影响最大的是语义相关度。定义相关度为一个0 到1 之间的实数。 定义1 :语义相关度是在句法分析中个短语结构中的两个词能够组成修饰 关系、主谓关系、同指关系的程度。 定义2 :在知网中,设w l 和w 2 为任意的两个词,w l 有n 个义项:sl i ,s 1 2 , s 1 。;w 2 有m 个义项:s2 1 ,s 2 2 ,s 2 m ,如果存在s 1 。= s 女,1 i n ,l j m ,则w 1 与w 2 的相关度为1 【1 8 j 。 文献【l8 】同时指出,如果两个词的相似度高,它们的相关度也较高;但反过 来,两个词的相关度商,它们的相似度不一定高。例如:“吃”和“喝”这两 个词相似度高,则它们的相关度也较高;“踢”和“球”这个两词的相关度高, 但它们的相似度并不高。知网中的语义是通过义原描述的。知网将义原分成6 大类,每一类都是树状结构,各类之间又通过解释义原相互联系1 1 。义原树中 的上下位关系构成了义原的相似度;义原与毹释义原的关系形成了义原的关联 度。 在知网中,并不是将每一个概念对应于一个树状概念层次体系中的一 个结点,而是通过用一系列的义原,利用某种知识描述语言来描述一个概念。 而这些义原通过上下位关系组织成一个树状义原层次体系。这里的目标是要找 到一种方法,对用这种知识描述语言表示的两个语义表达式进行相似度计算。 竖型墅蔓查兰堡主兰竺堡苎 利用知网计算语义相似度,一个最简单的方法就是直接使用词语语义 表达式中的第一基本义原描述式,把词语相似度等价于第一基本义原的相似度。 这种方法好处是计算简单,但没有利用知网语义表达式中其它部分丰富的语义 信息。 l i s u j i a n 刚等提出了一种词语语义相似度的计算方法,计算过程综合利用 了知网和同义词词林。在义原相似度的计算过程中,不仅考虑了义原之 间盼上下位关系,还考虑了义原之间的其它关系。在计算词语相似度时,加权 合并了同义词词林的词义相似度、知网语义表达式的义原相似度和义原 关联度。由于同义词词林和知网采用完全不同的语义体系和表达方式, 词表也相差较大,因此这种算法中把它们合并计算的合理性值得怀疑。另外, 我们前面介绍过,词语相关度和相似度是两个不同的概念,把语义关联度加权 仑并计入义原相似度中,是不合适的。在应用到个性化智能搜索引擎中,只需 要对词语以及义原的的相似度进行计算,推导出相关的同义词即可。 一、词语相似度计算 对于两个汉语词语w l 和w 2 ,如果w 1 有n 个义项( 概念) :s 1 l ,s 1 2 j , s 1 。,w 2 有i t l 个义项( 概念) :s 2 1 ,s 2 2 ,s 2 m ,我们规定,w 1 和w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宿州宿城第一初级中学教育集团教师招聘考试真题2024
- 保定市唐县招聘社区工作者考试真题2024
- 电势考试题及答案
- 乞丐考试题及答案
- 中式面点制作技艺智慧树答案
- 护理管理基础模拟考试题(附答案)
- 中外教育史(长青联盟)知到智慧树答案
- 小儿上呼吸道感染的健康教育与心理护理培训考试题(含答案)
- 幼儿园食品安全知识测试题(附答案)
- 十二导心电图机应用培训考核试题(附答案)
- 2025年广元市专业技术人员公需科目继续教育考试试题及答案
- 2025年秋季学期“1530”安全教育记录表
- 2025版新能源项目保证担保借款合同
- 危大工程安全监理管理制度
- 2025年行政管理学专业试题及答案
- 校园绅士淑女教育实施纲要
- 企业安全管理机构的主要职责
- 2025至2030国内外海洋工程防腐应用趋势行业产业运行态势及投资规划深度研究报告
- 2023年生态环境综合行政执法考试参考题库(400题)
- 巡检员质量培训
- 胸腹瘘个案护理
评论
0/150
提交评论