(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf_第1页
(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf_第2页
(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf_第3页
(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf_第4页
(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)基于移动平台的个性化搜索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文 基于移动平台的个性化搜索系统研究 摘要 i n t e r n e t 技术的迅速发展使得网络逐渐成为人们获取信息、知识的重要途径, 越来越多的用户已经开始借助手机、p d a 等移动平台从w w w 上查找、获取信 息。然而,传统的搜索引擎并不能满足移动平台用户对信息服务准确化、智能化 和个性化的需求,究其原因:( 1 ) 用户提交的内容是对自己所需信息的自然语言 描述,而传统基于关键词的信息搜索已经不能满足需要:f 2 ) 由于移动平台显示 屏和短信业务的限制,返回的信息必须是简短、精确的答案,而返回大量相关文 档的方式已经不能适应该需求;( 3 ) 信息检索技术具有通用性,它不能满足不同 背景、不同目的和不同时期用户的查询需要。比较好的解决办法就是寻求一种更 加优秀的信息服务方式,使其更好地满足移动平台用户的需要。 本文围绕移动平台上智能信息搜索服务,针对其相关的自动问答和用户兴趣 自动建模关键技术展开研究,本文的主要工作和特色如下: ( 1 ) 设计了一个基于互联网的自动问答系统,它包括一个频繁问题集:针对 其中的关键技术:频繁问题集的建立与更新、问题理解、中文元搜索引擎以及自 动文摘进行研究,提出了相应的解决算法。 ( 2 ) 针对用户建模问题,在讨论了现有的兴趣建模方法的基础上,提出了基 于用户兴趣聚类的细兴趣粒度自动建模算法;最后,与文献 4 5 1 中提出的自动建 模算法进行比较,实验结果显示,本文提出的算法具有更好的性能。 ( 3 ) 提出了一个基于移动平台的个性化搜索系统原型( p a q a ) ,集成了自动问 答技术和个性化服务技术,它既能够为用户提供准确的个性化的信息服务,也能 够满足移动平台上的信息检索需求。 关键词:移动平台,信息检索,个性化服务,自动问答,自动建模 中国科学技术大学硕士学位论文 基于移动平台的个性化搜索系统研究 a b s t r a c t i n t e m e th a sb e c o m eo n eo ft h em o s ti m p o r t a n c ei n f o r m a t i o na n dk n o w l e d g e s o n r e e sa st h eq u i c kd e v e l o p m e n to fw o r l dw i d ew e b ( w w w ) t e c h n o l o g y m o r ea n d m o r eu s e r sb e g i nt oa c q u i r ei n f o r m a t i o nf r o mw w w b ym o b i l ep l a t f o r m s s u c ha s m o b i l et e l e p h o n ea n dp d ae t c b u t ,t h et r a d i t i o n a ls e a r c he n g i n e sc a n n o tp r o v i d e a c c u r a t e ,i n t e l l i g e n t i z e da n dp e r s o n a l i z e ds e a r c h i n gr e s u l tf o rm o b i l eu s e r s t h ef i r s t r e a s o ni st h a tt h eu s e r sw a n tt oi n p u taq u e s t i o ni nn a t u r a ll a n g u a g e s w h i l et h ei n p u t s o ft r a d i t i o n a ls e a r c he n g i n e sa r ec o m b i n a t i o n so fk e y w o r d s t h es e c o n dr e a s o ni st h a t t h em o b i l ep l a t f o r m sw h i c ha r er e s t r i c t e db yt h es c r e e n sa n dn o t eo p e r a t i o n sr e q u i r e c o n c i s ea n da c c u r a t ea n s w e r , w h i l et h eo u t p u t so ft r a d i t i o n a ls e a r c he n g i n e sa r em a n y r e l a t e dw e bp a g e st h et h i r dr e a s o ni st h a tt r a d i t i o n a ls e a r c he n g i n e sa r ed e s i g n e df o r s a t i s f y i n gt h en e e d so f a l lu s e r s ,b u ts p e c i a ln e e d so fd i f f e r e n tb a c k g r o u n d s ,p u r p o s e s o rt i m e su s e r sa r en o tc o n s i d e r e dt o 丘n dam o r ee x c e l l e a ts e r v i c en l o d ei sa p r e f e r a b l es o l u t i o n ,w h i c hc a n b e t t e rs a r i s f yt h er e q u i r e m e n t so f m o b i l eu s e r s t h er e s e a r c h e so nr e l a t e dk e yt e c h n o l o g i e so fa u t o m a t i cq u e s t i o na n s w e r i n ga n d a u t o m a t i cm o d e l i n ga r em a d ei nt h ed i s s e r t a t i o nt h em a i nw o r ka n dc h a r a c t e r i s t i co f t h et h e s i sa r e : ( 1 ) a na u t o m a t i cq u e s t i o na n s w e r i n gb a s e do nw e b i sd e s i g n e d ,w h i c hi n c l u d e sa f a q t h ek e yt e c h n o l o g i e si nt h es y s t e m ,f a qc o n s t r u c t i o n & u p d a t i n g ,q u e s t i o n a n a l y s i s ,c h i n e s em e t as e a r c he n g i n ea n da u t o m a t i cs u m m a r i z a t i o na r ed i s c u s s e d a n dt h e nb e t t e ra l g o r i t h m sa r ep r o p o s e d ( 2 ) af i n ei n t e r e s t - g r a n u l a r i t ya u t o m a t i cm o d e l i n gm e t h o db a s e do ni n t e r e s t s c l u s t e r i n gi sp r o p o s e do nt h eb a s i so fd i s c u s s i o no fe x i s t i n gm e t h o d so n u s e rm o d e l i n g a t i e rc o m p a r i n gt h em e t h o dw i t ht h eo n ep r e s e n t e db yt h er e f e r e n c e 4 5 1 ,t h ea n a l y s i s r e s u l t si n d i c a t et h ea l g o r i t h mp r o p o s e di nt h ed i s s e r t a t i o ni sm o r ee f f e c t i v e ( 3 ) t h ep r o t o t y p eo fm o b i l e - b a s e dp e r s o n a l i z e ds e a r c h i n gs y s t e m ( p a q a ) i s p r e s e n t e d ,w h i c hi n t e g r a t e st h et e c h n o l o g i e so fa u t o m a t i cq u e s t i o na n s w e r i n ga n d 中国科学技术大学硕士学位论文 基于移动平台的个性化搜索系统研究 p e r s o n a l i z e d s e r v i c et h es y s t e mc a n p r o v i d ev e r y a c c u r a t ea n dp e r s o n a l i z e d i n f o r m a t i o ns e r v i c ef o re a c hu s e r , a n dc a r ls a t i s f yt h en e e do fi n f o r m a t i o ns e a r c h i n g o nm o b i l ep l a t f o r m ,t o o k e y w o r d s :m o b i l ep l a t f o r m ,i n f o r m a t i o nr e t r i e v a l ,p e r s o n l i z e ds e r v i c e ,a u t o m a t i c q u e s t i o na n s w e r i n g ,a u t o m a t i cm o d e l i n g 中陶科学技术大学碘士学位论文基丁j 移动平静的个性化搜素系统硼f 究 图表目录 图i l 搜索引擎的基本结构 一3 圈1 2 问答系统的结构5 圈21h t m l t r e e 结构示意圈 一 13 图2 - 2 网页净化前后比较1 3 圈2 - 3 ,亡搜索引擎结构川i 6 图24 知网中词语的概念及其描述组成的记录 18 图31 自动问答系统结构2 6 图3 - 2 倒排索引文件 2 9 图3 3 智能知识搜索和服务平台( 界面) 3 8 图3 - 4 个人知识管理横块 3 9 到3 5 问题分类的性能3 9 图3 - 6 句子相似度算法比较4 0 圈3 7 搜索引擎的性自e - i - l 较4 1 图3 - 8 文档摘要系统的性能 4 2 酗4 1 生成的后缀树4 8 图4 - 2 基于s t c 算法的自动建模技术流程图 5 0 圈4 - 3 本文算法与文献d s 算泣建模性能比较5 7 图5 - 1p a q a 系统流程图5 9 图5 - 2 基于移动平台的个性化信息检索系统6 0 图5 - 3 移动甲台上自动问答系统上作界面6 2 图5 - 4 后台服务器运行结果 表2 ,l 知网信息库( h o w n e t d b ) j 格式一 表3 一l 问题类型及对廊的疑问词 表3 - 2 根据问题娄璋! 扩展的关键词 一 表3 - 3 答案抽取规则 表4 1 用户兴趣集的数据结构描述 表4 - 2 实验数据分布 博嚣凹”弭卯 中国科学技术大学硕士学位论文 第1 章绪论 第1 章绪论 1 1 本研究的背景及意义 伴随着计算机技术、通信技术的日臻成熟和广泛应用,互联网( w o r l dw i d e w e b ,w w w l 自9 0 年代初开始得到迅猛发展,至今虽然只有短短十多年的时间, 但它已经深入到世界经济、文化、科学、教育的各个方面,成为现今信息时代人 们生活、工作不可或缺的重要组成部分,并成为全球范围内传播信息的主要渠道。 在中国尽管起步较晚,但互联网也同样得到了长足发展。中国互联网络信息中心 ( c n n i c ) 1 1 1 2 0 0 6 年1 月发布的中国互联网络发展状况统计报告:截t k t l 02 0 0 5 年 1 2 月3 1 日,我国的上网计算机总数已达4 9 5 0 万台,与上年同期相比增加了 1 9 o ;上网用户总人数为1 1 1 0 0 万人,与上年同期相比增加了1 8 1 。互联网 的迅速发展带来了人类历史上前所未有的海量数据,而且每天全世界的各个网站 上还在生成大量新的信息。 在当今信息时代,如何快速、及时获取信息已成为人们追切解决的问题,移 动通信技术的发展,给人们带来了随时随地交换信息的便利。随着第三代移动通 信技术3 g 【2 j 的逐渐成熟,它将无线通信与国际互联网等多媒体通信相结合,提 供包括嘲页浏览、电话会议、电子商务等多种信息服务,移动业务发展的趋势是 从不同的网络平台上向大量类型各异的终端提供服务。越来越多的用户已经开始 借助手机、p d a 等移动终端实现无线上网;手机无线上网是将网络应用和移动 通信相结合构建起基于手机的互联网服务。据f o r r e s t e rr e s e a r c h 调查:2 0 0 5 年 美国1 5 的手机用户通过他们的手机上网,而2 0 0 4 年这个比例仅有6 ;f o r r e s t e r r e s e a r c h 预测2 0 0 6 年这个比例将继续人幅增加。据信息产业部统计,截止2 0 0 5 年底,中国手机用户近4 亿位居全球第一;随着通信技术和互联网在中国的快速 发展,越来越多的手机用户开始借助手机实现随时随地无线上网,及时获取最新 信息。目前,手机上网主要访问一些w a p 网站,其提供的信息服务有限:新闻、 天气预报、股票信息、娱乐游戏、体育消息、健康常识等信息。 在浩如烟海的“混乱的”互联网信息世界中,人们在寻找有用信息叫存在很 大的困难,搜索引擎的出现极大方便r 用户快速、及时地获取信息。目前,各种 中国科学技术大学硕士学位论文 第1 章绪论 各样的中英文搜索引擎层出不穷,如:a l t a v i s t a 、g o o g l e 、雅虎、百度等等。但 纵观这些搜索引擎,其检索质量和检索效率仍不尽如人意:“不一致性”、“重复 性”等问题非常严重,难以满足用户对互联网信息服务的需求;同时,考虑到移 动终端显示屏和短信业务等因素的限制,传统返回大量相关文档列表的方式已经 不能满足该需求:这使得移动平台用户对现有搜索引擎仍然不满,迫切希望出现 一种更加准确化、智能化和个性化的搜索引擎,满足移动平台上信息检索的需求。 究其原因是由于互联网上的信息是无组织的、多结构多形式的,且分布在全 世界的各个站点上,具有分布、动态变化、结构复杂等特点,造成现有搜索引擎 提供的服务与移动平台用户的信息需求之间存在着以下矛盾:( 1 ) 用户希望通过 自然语言描述来准确表达自己真正想要的信息,而传统基于关键词的信息搜索已 经不能满足该需要;( 2 ) 由于移动终端显示屏和短信业务的限制,用户希望返回 的信息是简短、精确的答案,而返回大量相关文档列表的传统方式已经不能适应 该需求;( 3 ) 信息检索技术具有通用性,它不能满足不同背景、不同目的和不同 时期用户的查询需要。 面对如此窘境,我们不得不重新审视,究竟应该提供怎样的网络信息服务, 才能满足这些移动平台用户的信息需求? 比较好的解决办法就是寻求一种更加 优秀的信息服务方式,使其更好地满足移动平台用户的需要。目前所倡导的个性 化信息服务可以解决为不同的用户提供个性化的信息;自动问答技术的出现,为 用户直接返回所需的答案,能够适用于移动终端信息显示的需求。 本文的主要工作便是围绕移动平台上智能信息搜索服务,针对相关的自动问 答和用户兴趣自动建模关键技术展开研究;提出了一个基于移动平台的个性化搜 索系统原型( p e r s o n a l i z e d a u t o m a t i cq u e s t i o n a n s w e r i n gs y s t e m ,p a q a ) ,它既能为 用户提供准确的个性化的信息服务,也能满足移动平台上信息检索需求。 1 2w e b 信息检索 由于w e b 没有统一的数据模型和查询语言,没有统一的结构,信息容量巨大、 资源分散且不断更新,导致人们寻找信息时常常出现“信息迷向”和“信息过载” 的问题。为了解决这些问题,人们坚持不懈地进行着各种研究、尝试,提出了一 系列的解决方案,现将与本论文相关的技术概述如f : 中国科学技术大学硕士学位沦文 第1 章绪论 1 2 1 搜索引擎 搜索引擎已经成为广大用户最重要的信息检索工具,根据c n n i c 的统计报 告 】:6 5 7 的上网用户经常使用搜索引擎,在“用户经常使用的网络服务”排 行榜中仅次于浏览新闻排在第二位。 1 搜索引擎的组成 搜索引擎一般包括信息收集程序、分析器、索引器、检索器和查询接口等五 部分【3 】;图1 1 给出了搜索引擎的基本结构示意图: 图卜i 搜索引擎的基本结构 信息收集程序:对网络中公开区域的每一个站点进行遍历并记录其网址, 检查这些站点的链接指针来找出新的信息空间,然后取回这些新空问中的文档。 分析器:对信息收集程序下载的文档进行分析以用于索引。分析技术一 般包括:分词、过滤和转换等。 索引器:将文档表示为一种便于检索的方式并存储在索引数据库中。索 引一般按倒排文件格式存放。 检索器:从索引数据库中找出与用户查询请求相关的文档,将相关度大 于阀值的所有文档按照相关度递减的顺序排列并返回给用户。 查询接口:为用户提供可视化的查询输入和结果输出界面。 2 搜索引擎的分类 按照信息搜集方法和服务提供方式的不同,搜索引擎可以分为以下四类: f 1 、目录式搜索引擎 目录式搜索引擎以人工或半自动方式收集信息,由编辑员查看信息后形成信 息摘要,并将处理过的w e b 信息按照专题或领域以捌状的形式加以组织。用户 通过一级级的目录逐步缩小查找的范围,直到发现目标。这类搜索引擎的代表是: y a h o o 、s o h u 、s i n a 、o p e n d i r e c t o r y 等。目录式搜索引擎具有信息准确、导航质 中国科学技术大学硕士学位论文 第l 章绪论 量高的优点,缺点是需要人工介入、维护量大、信息覆盖率低、信息更新不及时。 f 2 ) 机器人搜索引擎 机器人搜索引擎是从一组己知的文档出发,由个被称作“机器人”( 也称为 r o b o t ,s p i d e r ) 1 4 的程序以某种策略自动在互联网中搜集和发现信息;由索引器为 收集到的信息建立索引;由检索器根据用户的查询输八检查索引数据库找出匹配 的文档( 或链接1 ,并按照相关程度来排列结果返回给用户。这类搜索引擎的代表 是:a l t a v i s t a 、l n f o s e e k 、g o o g l e l 5j 以及天网、百度等。相对于目录式搜索引擎, 机器人搜索引擎的信息覆盖率高、查询结果丰富、信息更新快、毋需人工干涉, 缺点是信息准确度较低、网络负载火。 ( 3 ) 分布式搜索引擎 分布式搜索引擎按区域、主题或其它标准创建分布式索引服务器,索引服务 器之间相互可以交换中间信息,且查询可以被重新定向。如果一个检索服务器没 有满足查询请求的信息,它可以将查询请求发送到具有相应信息的检索服务器。 分布式搜索引擎将索引数据库划分到多个分布的数据库中,每个数据库变得小 些,但全部搜索引擎覆盖范围变大,很少有信息重复且可扩充性强:缺点是需要 多个索引数据库协同工作,实现较困难,目前尚未有真正实用的分布式搜索引擎。 ( 4 ) 元搜索引擎 元搜索引擎是建立在多个现成的搜索引擎之上,为用户提供一个统一的访问 界面州,它没有自己的数据库。当元搜索引擎收到用户的查询请求后先进行成员 搜索引擎的选择,进而将该请求转换处理并提交给多个选定的独立搜索引擎,最 后将所有查询结果合并、排列,以整体统一的格式呈现到用户面前。这类搜索引 擎的代表是:w e b c r a w i e r 、i n f o m a r k e r 以及万维搜索等。由于采用了一系列的优 化运行机制1 7j ,元搜索引擎能够在尽可能短的时间内提供相对全面、准确的信息; 缺点是它不能够充分利用所使用搜索引擎的功能,用户需要做更多的筛选。 1 2 2 自动问答技术 随着互联网技术的高速发展,网上的信息资源以指数速度增长,极大地推动 了自然语言处理技术的发展;同时,也对自然语言处理技术提出了更高的要求: 人们希望在杂乱无章的网络世界中快速、准确的获得自己想要的信息。自动问答 中国科学技术大学硕士学位论文 第1 章绪论 技术正是为满足人们的这种愿望而发展起来的。 1 自动问答的定义 目前的信息检索系统只能为我们定位出相关文献,并将它们按照相似性排 序,把从这些文献中抽取确切信息的任务留给了我们自己。随着计算机和网络通 信技术的发展,互连网上的信息资源呈指数增加,迫切需要一个能直接检索出有 用信息而不是整篇文献的系统,即自动问答系统( a u t o m a t i cq u e s t i o na n s w e r i n g s y s t e m ,a q a ) 。 自动问答系统,又称为人机对话系统( h u m a n m a c h i n ec o n v e r s a t i o n ,h m c ) , 它是指这样一个机器系统【8 j :对于用户输入的自然语言形式的问句,它能够给出 简洁、准确、人性化的回答,这种回答通常是指一小段文本。问答系统能更好的 满足用户的检索需求,能更快地找出用户所需要的答案。 2 自动问答系统的特点 与传统的搜索引擎不同,自动问答系统既能用自然语言句子提问,又能为用 户直接返回所需要的答案,而不是相关的网页。所以,问答系统能更好地满足用 户的检索需求,能够更快的找出用户所需的答案;可以说,自动问答系统就是新 一代的搜索引擎。 自动问答系统包括三个主要部分9 j :问题理解、信息检索和答案抽取;其关 键就是要实现如何在问题理解阶段充分理解用户的提问意图,如何在信息检索模 块中把相关的文档找出来,以及如何在答案抽取模块中准确的把答案从相关文档 中抽取出来。典型的问答系统结构如图l 一2 所示: 图1 2 问答系统的结构 对于问答系统,用户不需要把自己的问题分解成关键词集合,用户可以把整 个问题直接交给系统;问答系统结合自然语言处理技术,通过对问题分析理解, 能够直接提交给用户想要的答案。例如:用户可以直接使用问句“世界上的最高 峰是什么? ”来进行查询,而不需要分解成关键字“世界a n d 最高a n d 山峰”: 而且问答系统最终返刚的不再是相关的文档列表,而是问题的确切答案“珠穆朗 玛峰”。可以看出,自动问答系统比传统的搜索引擎方便、快捷、高效。 中国科学技术大学硕士学位论文 第1 章绪论 在日前的自然语言处理领域,问答系统是个热门话题,因为它既允许用户 用自然语言提问,又能够为用户返回一个确切的答案,而不是一些相关的网页。 1 3 个性化信息服务 i n t e r n e t 信息的迅速增长使用户享受丰富、方便的资源,然而传统“人找信 息”服务模式的落后却使用户为信息所累,用户迫切需要一种能够根据用户的特 点自动组织和调整信息的服务模式;个性化服务是i n t e r n e t 信息增长的必然结果。 1 3 1 个性化信息服务的含义 纵观信息服务的历程可以发现,信息服务逐渐由以自我为中心的被动服务模 式发展到以用,、t 为中心的主动服务模式。个性化信息服务是将用户感兴趣的信息 主动提交给用户,能够满足用户个体信息需求的一种服务,即根据用户提出的明 确要求,或通过对用户个性、使用习惯的分析而主动地向用户提供其可能需要的 信息服务。个性化信息服务【lo j 的目的就是要为用户提供一种个性化的信息。 个性化信息服务的主要特征可抽象概括为:( 1 ) 构建个性化用户动态需求模 型,完成用户兴趣的跟踪学习;( 2 ) 针对用户特定的需求,利用搜索引擎进行搜 索;( 3 ) 按照特定需求,将搜索到的信息进行个性化过滤、加工,整合成相对完 整的信息集合,并以在线或离线形式主动发送到用户或服务代理,实现信息服务。 1 3 2 主要服务形式 个性化服务的实质是针对性,即对不同的用户采取不同的服务策略,提供不 同的服务内容。目前,个性化服务主要的形式有三种: 1 个性化推荐服务 个性化推荐服务是根据用户的兴趣和特点来推荐用户感兴趣的信息。个性化 推荐服务的目的是解决目前i n t e r n e t 信息快速增长所导致的“信息迷向”和“信 息过载”等问题;根据推荐所采用的技术,个性化推荐可以分为基于内容的推荐、 基于合作的推荐和混合推荐。 基于内容的推荐是通过比较资源与用户模型的相似度来推荐信息:基于合作 中国科学技术大学硕士学位论文 第1 章绪论 的推荐是通过比较用户之间的相似性来推荐信息:混合推荐是将基于内容的推荐 和基于合作的推荐结合起来,既比较资源与用户模型的相似度进行基于内容的推 荐,又对用户的相似性进行分析,找出具有相近兴趣的用户群进行合作推荐。典 型的系统有:w e b w a t c h e r 1 ”、w e b m a t e t l 2 1 等。 2 个性化信息检索服务 个性化信息检索服务是根据用户的兴趣特点进行检索,返回与用户需求相关 的检索结果。个性化信息检索与传统检索系统相比增加了学习,更新用户模型、 优化查询和优化结果三个模块。由于在检索的同时考虑了用户的差异,因此个性 化信息检索可以提供更高的检索质量,个性化信息检索是信息检索的发展趋势。 典型的系统有:i n q u i r u s 2 13 1 ,d o l t r i a g e n t ”1 等。 3 个性化站点服务 个性化站点是指针对不同的用户提供相应的内容和服务的站点。增强站点对 用户的吸引力一方面可以通过提供更好的内容来实现,另一方面也要为用户提供 一个能更方便快捷地浏览感兴趣信息的途径;每个用户享受的都是站点为其专门 定制的内容和服务,这无疑会提高用户的满意度,增强网站的吸引力。典型的个 性化网站有:个性化电视网站p t v 1 5 】、g o o g l e l 5 1 等。 综上所述,无论是对个人用户还是对各类性质的网站,个性化服务都描绘了 一幅诱人的前景:对于网络用j 。,个性化服务可以减少搜寻信息的时间,提高浏 览和搜索的质量,找到更多感兴趣的信息;对于网站来说,个性化服务能提高网 站的易用性、改善服务质量吸引更多的用户。但是,目前的个性化服务还处于起 步阶段,其中涉及的许多关键技术还需要进一步地深入研究。 1 。4 国内外研究现状 1 4 1 自动问答技术研究现状 早在2 0 世纪6 0 年代人工智能研究刚开始的时候,就提出了让计算机用自然 语言来回答人们的问题,这就是指自动问答系统。自动问答系统在8 0 年代的自 然语言处理领域曾风行一时,但由于当时的条件限制,自动问答一直被限制在特 殊领域的专家系统。 中国科学技术大学硕士学位论文 第1 章绪论 最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的 愿望也重新促进了自动问答技术的发展。自1 9 9 9 年文本检索会议( t e x tr e t r i e v a l c o n f e r e n c e ,t r e c ) 【】6 】引入问答系统评测专项( q u e s t i o na n s w e r i n gt r a c k ) ) 舌,包括 m i c r o s o f t 、i b m 、c a r n e g i em e l l o n 大学,以及中科院计算所、复旦大学等众多的 公司和大学纷纷参与了t r e c 会议的q u e s t i o na n s w e r i n gt r a c k 。在2 0 0 0 年l0 月召开的a c l 2 0 0 0 国际计算语言学学术会议上,有一个专题讨论会,题目是 “o p e n d o m a i n q u e s t i o n a n s w e r i n g ”。目前,国外已经开发出许多相对成熟的英 文问答系统:s t a r t 、a n s w e r b u s 、e n c a r t a 等,而国内从事问答系统特别是汉语 自动问答技术的科研机构还是很少,中文自动问答系统的研究正处于起步阶段。 s t a r t 【l 7j 是麻当 n i ( m i t ) a i 智能实验室开发的,是世界上第一个基于 w e b 的问答系统,可以回答一些有关地理、历史、文化、科技、娱乐等方面的 简单问题。它包括两个知识库以及一个搜索引擎,如果通过这两个知识库就能回 答用户的问题,那么系统立刻给出准确的答案;否则,首先解析用户输入得到其 中的关键词,然后利用这些关键词,通过搜索引擎进行检索,最后将得到相关文 本以链接的形式提交给用户,供用户点击并在打开的网页中自行寻找答案。 a n s w e r b u s l l8 1 ( 垦业;垫s 堕堕b 丛墨:! ! ! i ! 婴i :a 型a n 照4 1 i 旦4 壁:些塑! ) 也是一个比较 成熟的问答系统。a n s w e r b u s 是一个多语种的自动问答系统,它不仅可以回答英 语的问题,还可以回答法语、西班牙语、德语、意大利语以及葡萄牙语的问题。 例如:对于问题“w h a t i s d a t a m i n i n g ? ”,它将会回答“d a t a m i m n g i s t h ep r o c e s s o fd a t as e l e c t i o n ,e x p l o r a t i o na n db u i l d i n gm o d e l su s i n gv a s td a t as t o r e st ou n c o v e r p r e v i o u s l yn l l k n o w np a a e m s e n c a r t a ( h t t p :e n c a r t a m s n c o n 丛) 是微软( m i c r o s o f t ) 公司开发的一个自动问答 系统。作为一个在线百科全书式的问答式搜索引擎,它不仅可以快速回答一些常 识( f a c t ) ,也提供了定义、计算、求解方程、单位转换等功能:同时它也支持多 个语种。测试表明,e n c a r t a 回答问题较快,答案也比较准确。 文献1 1 9 】介绍了一个银行领域的巾文自动问答系统b a q s ,该系统对于常见 问题采用f a q 库和文句匹配技术实现回答,对于银行领域常识知识的问题通过 构建银行本体库和逻辑推理技术实现;其它类型的问题通过信息检索技术直接从 领域文本中提取答案:它的实现主要是基于建立的知识库。 文献1 2 0 提出了一个基于互联网的自动问答系统,该系统将问答领域扩展到 中国科学技术大学硕士学位论文 第1 章绪论 中文,借鉴英文问答系统处理的方法来解决中文问答系统,并且使用互联网这个 庞大的信息资源作为知识库。它主要解决几种基本类型的问题,实验证明,该方 法具有一定的可行性。 总的来况,英文自动问答技术已经取得了很大成功,而针对中文的自动问答 系统尚未出现,正处于起步阶段:但已经引起了清华大学、中科院、哈尔滨工业 大学等高校和科研机构信息检索研究者们的高度重视。 1 4 2 个性化服务研究现状 1 9 9 5 年至1 9 9 7 年,美国人工智能协会春季会议( a a a i ) 、国际人工智能联合 大会( i j c a l ) 、a c m 智能用户接口会议( a c mi u d 和国际w w w 大会等重要会议 发表了多篇个性化服务原型系统的沦文,标志着个性化服务研究的开始。2 0 0 0 年8 月,( ( c o m m u n i c a t i o no f t h ea c m ) ) 再次组织了个性化的专:叭个性化服务 的研究已经进入了快速发展阶段。目前,国内外已经推出了多个实现了个性化服 务的原型系统,如:w e b w a t c h e r 、p w w 、w e b m a t e 、d o l t r i a g e n t 等;部分 大型网站也推出了个性化服务,如:g o o g l e 、m y y a h o o ! 、c n n 等。 文献f l o 】所介绍的w e b w a t c h e r 是c a r n e g i em e l l o n 大学开发的互联网信息浏 览导航a g e n t 系统,通过了解用户的兴趣、观察用户与系统的交互和用户对系统 提供建议所作的反映来学习,帮助用户从站点上检索有用的信息;旦用户告诉 系统自己要查找的信息,系统将跟踪用户浏览w e b 的行为,分析用户点击的链 接信息形成知识,运用学到的知识将最能满足用户兴趣的链接反馈给用户。 文献f 2 1 所介绍的系统p e r s o n a lw e b w a t c h e r ( p w w ) 是对w e b w a t c h e r 的改 进,它对每一个用户自动构造兴趣模型,不需要用户的参与:它记录每个用户请 求的网页地址,并根据用户的兴趣突出显示用户可能感兴趣的超链接;在学习阶 段,系统对用户请求的网页进行分析,并且构造或更新用户兴趣模型,这个模型 被用来对用户请求网页上的超链接给出建议并通过w e b 浏览器呈现给用户。 文献 1 2 所介绍的w e b m a t e 是一个针对互联网浏览和信息检索开发的个性 化a g e n t 系统。w e b m a t e 在学习用户兴趣模型的过程中并没有要求用户提供初 始的兴趣信息,而是将用户请求的w e b 页面作为隐式反馈逐渐地学习用户兴趣 模型。当用户在在互联嘲上浏览时,它跟踪用户行为并及时提供给用户需要的信 中国科学技术大学硕士学位论文 第l 章绪论 息。w e b m a t e 采用基于t f i d f 的方式来描述用户兴趣模型,它的主要功能可以 分为两类:( 1 ) 它采用递增的、持续更新的方式来学习用户兴趣,并且根据用户 兴趣爱好主动地提供相关的文档:( 2 ) n 用反馈信息帮助用户细化用户查询,提 高相关文档检索的准确度。 文献i1 4 所介绍的d o l t r l 一a g e n t 系统是由南京大学计算机软件新技术国家 重点实验室开发的个性化信息搜集a g e n t 系统,用于远程开放式学习的教材信息 搜集。d o l t r i a g e n t 具有主动搜集、维护、更新信息的功能,同时还具有个性 化的特点,可不断学习用户知识,包括用户感兴趣的信息领域和用户的使用习惯 等,并能运用这些知识为用户提供个性化信息服务。 文献【2 2 介绍一个面向i n t e m e t 的个性化智能信息检索系统,它将人工智能的 a g e n t 技术引入信息服务研究中,提出了基于m u l t i a g e n t 的个性化信息服务技 术。该系统利用a g e n t 的自治性、学习性、协作性及移动性,为用户提供智能化、 个性化的信息服务。 目前,部分大型网站也推出了为用户建造创立和管理自己的信息或兴趣群组 的个性化服务,这些大都是通过浏览器的c o o k i e 文件和一些信息服务商提供的 智能后端工作实现的。例如:g o o g l e f 5 】网站提供的个性化主页功能,让访问者可 以在其所提供的多个新闻来源中,按照自己的兴趣和要求来设定新闻实现方式和 选择新闻的来源;可以查询天气预报、股票价格和电影放映时间表,查看自己的 免费g m a i l 邮箱等。在这里,还可以对这个页面的风格做出某些相关的设定,下 一次再登陆该主页时,这个已经被设定好的个性化页面就显示出来。提供这项服 务的其他国外站点还有m y e x c i t e 、m y y a h o o ! 等等。 国内也有少数几个站点提供初步的个性化信息服务,如“天极c h i n a b y t e ” ( h t t p :s e a r c h c h i n a b g t e c o m i n d e x h t m l ) ,在天极社区m yy e s k y 中开通了名为“我 的b l o g ”的个性化服务,这是国内首家推出个性化信息服务的网站。 总的来说,个性化服务已经成为研究的热点,很多个性化服务系统不断出现: 但是,作为个性化服务的基础和核心技术,用户兴趣建模还处于起步状态,没有 形成完整的技术体系,还有许多关键技术尚未解决。 中国科学技术大学硕士学位论文第1 章绪论 1 5 本论文的研究工作及内容组织 为满足移动平台上智能信息检索的需要,本文围绕如何设计一个适用于移动 平台的个性化搜索系统,针对相关的w e b 个性化信息服务、自动问答技术展开 研究,本文主要研究工作为: 1 、针对自动问答系统中问题理解、信息检索和答案抽取三个主要部分,分 别进行详细的讨论,并对其核心技术频繁问题集的建立与更新、问题理解、中文 元搜索引擎以及自动文摘进行研究,并提出了相应的解决方案。 2 、针对个性化信息服务的核心用户兴趣建模进行研究,提出了基于用户兴 趣聚类的细兴趣粒度自动建模算法;对其关键技术s t c 聚类算法、自动建模算 法以及基于兴趣模型的文本推荐进行详细阐述。 3 、设计了一个基于移动平台的个性化搜索系统原型p a q n ,它将基于互联 网的自动问答技术与个性化服务相结合,较好地解决了移动平台用户获取信息困 难的问题。 本论文共分为六章,详细的内容安排如下: 第一章介绍了本研究的背景意义,以及与本文密切相关的背景知识、国内外 研究现状、本文的研究工作和内容组织。 第二章详细介绍了与个性化信息获取相关的技术,包括信息获取中的关键技 术和用户建模过程中的关键技术,针对部分技术提出了本文的实现算法。 第三章详细阐述自动问答系统的实现,对基于频繁问题集的问答系统和基于 互联网的问答系统作了详细的说明,针对问答系统中的三大核心模块问题分析理 解、信息检索、答案抽取中的关键技术进行研究。 第四章详细阐述个性化信息服务技术的核心用户兴趣自动建模技术,包括聚 类算法s t c 、基于s t c 算法的细粒度自动建模技术以及基于兴趣模型的文本推 荐,并对算法性能进行评价。 第五章介绍该个性化信息检索原型系统( p a q a ) ,包括系统的体系结构、系统 的具体流程,并说明该系统的四大设计模块及其涉及的关键技术。 第六章对前面工作进行总结,就进一步有待研究的问题进行讨论和展望。 中国科学技术大学硕士学位论文第2 章个性化信息获取技术概述 第2 章个性化信息获取技术概述 i n t e m e t 的飞速发展使信息的发布与共享超越了时空的限制,同时也造成了用 户在查询信息时产生的“信息过载”和“信息迷向”现象;个性化的信息获取技 术正是解决此问题的研究热点:在提高传统搜索引擎查询( 信息获取) 准确度的基 础上,根据用户的兴趣特征( 用户兴趣建模) 来提供个性化的信息服务。本章详细 介绍了信息获取关键技术和用户建模关键技术的研究现状,并对每种技术提出了 本论文的实现方法。 2 1 信息获取关键技术 信息获取目的就是尽可能多地获取那些与用户查询相关的文档,同时尽可能 少地获取那些与查询不相关的文档;为了有效地满足用户对信息的需求,信息获 取系统必须能够“解释”信息内容,该信息内容既包括用户在查询请求中所表达 的信息,而且也包括系统所获取内容的信息。信息获取关键技术介绍如下: 2 1 1w e b 文档识别 w 曲文档识别是抽取h t m l 网页特征信息的过程,是互联网搜索中的一个 重要步骤。由于w e b 文档内容表示与普通文本有所不同,因此,如何选择合适 的特征进行描述,成为w e b 文档识别技术中的一个首先需要解决的问题。 2 1 1 1w e b 文档结构分析 超文本标注语言h t m l ( h y p e r t e x tm a r k u pl a l l g u a g e ) 是编写网页的基本语 言,定义了套标签- ( w a g ) 来刻画网页显示时的页面布局;依据标签的作用可以 将h t m l 的标签可以分为三类【”1 : 1 、规划网页布局的标签:视觉上网页是由若干提供内容信息的区域r 即内容 块) 组成的,而内容块是由特定的标签规划出的( 即容器标签) ,而且容器标签是允 许嵌套的。常用的容器标签有 、 、 、 、 等。 2 、描述显示特征的标签:在h t m l 标准中定义了一套标签来规范其包含的 内容显示方式( 如:字体大小、粗体、斜体等) ,称之为重要信息标签。常用的重 要信息标签有 、 、 、 、 等。 中国科学技术大学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论