(计算机软件与理论专业论文)基于用户行为的智能搜索研究.pdf_第1页
(计算机软件与理论专业论文)基于用户行为的智能搜索研究.pdf_第2页
(计算机软件与理论专业论文)基于用户行为的智能搜索研究.pdf_第3页
(计算机软件与理论专业论文)基于用户行为的智能搜索研究.pdf_第4页
(计算机软件与理论专业论文)基于用户行为的智能搜索研究.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文 摘要 在互联网飞速发展的环境下,互联网上信息数量的快速增加、信息内容的大量 冗余等问题都给网络用户带来了很多困扰,也对搜索引擎服务提出了更高的质量要 求。 本文对搜索引擎智能化领域中的大量文献资料与研究成果进行了学习,分析比 较了主要的分词算法和文档分类算法,提出并设计了一种自适应的个性化搜索引擎 系统。该系统基于对用户历史搜索行为及当前反馈的分析学习,提供了对用户查询 条件进行扩展和根据用户浏览情况自动调节搜索结果的功能,从而有效的满足用户 的查询需求。 论文中对系统的总体设计方案及关键技术进行了详细介绍,对各模块的主要功 能及实现算法作了详细论述,最后对所开发的系统进行了测试,实验结果表明,能 够满足系统的设计目标,具有很好的使用价值和应用前景。 关键词:用户行为,反馈学习,自适应搜索 a b s t r a c t b e c a u s eo ft h ei n t e r n e t sr a p i dd e v e l o p m e n t ,al o to fp r o b l e m sa r eb o u g h tt ou s e r sb y t h ei n f o r m a t i o n s i n c r e a s i n ga n dr e d u n d a n t t h e s ep r o b l e m sa l s op u th i g h e rq u a l i t y r e q u i r e m e n t st ot h es e a r c he n g i n e i nt h i sp a p e r , w es t u d i e dal o to fl i t e r a t u r ef o ri n f o r m a t i o na n dr e s e a r c hr e s u l t si nt h e f i e l do fi n t e l l i g e n ts e a r c he n g i n e s ,a n a l y s i sa n dc o m p a r e do fm a i n l y s e g m e n t a t i o n a l g o r i t h ma n dd o c u m e n t sc l a s s i f i c a t i o na l g o r i t h m ,d e s i g n e da na d a p t i v ep e r s o n a l i z e d s e a r c he n g i n es y s t e m b a s e do nt h eu s e rs e a r c h h i s t o r yb e h a v i o ra n dt h ec u r r e n t f e e d b a c ka n a l y s i s ,p r o v i d e dt h ee x p a n s i o no fu s e r sq u e r ya n da u t o m a t i c a l l ya d j u s t s e a r c hr e s u l t sf u n c t i o n ,t h es y s t e mc a ne f f e c t i v e l ym e e tt h en e e d so fu s e re n q u i r i e s i nt h i sp a p e r , w eh a v eg i v e nt h eg e n e r a ls c h e m ea n di t sk e yt e c h n o l o g yi nd e t a i lo f t h es y s t e m ,p r o v i d et h ek e ym o d u l e sm a i nf u n c t i o n sa n d a l g o r i t h m s ,a n dt e s tt h es y s t e m t h er e s u l t so fe x p e r i m e n ts h o wt h a tt h es y s t e mc a nm e e tt h ed e s i g ng o a l sa n dh a sg o o d v a l u ea n d p r o s p e c t s c h e nd u ( c o m p u t e rs o f t w a r ea n d t h e o r y ) d i r e c t e db yp r o f z h e n gl i n g k e yw o r d s :u s e ra c t i o n ,f e e d b a c ks t u d y , a u t o - a d a p t i v e 华北电力大学硕士学位论文 摘要 在互联网飞速发展的环境下,互联网上信息数量的快速增加、信息内容的大量 冗余等问题都给网络用户带来了很多困扰,也对搜索引擎服务提出了更高的质量要 求。 本文对搜索引擎智能化领域中的大量文献资料与研究成果进行了学习,分析比 较了主要的分词算法和文档分类算法,提出并设计了一种自适应的个性化搜索引擎 系统。该系统基于对用户历史搜索行为及当前反馈的分析学习,提供了对用户查询 条件进行扩展和根据用户浏览情况自动调节搜索结果的功能,从而有效的满足用户 的查询需求。 论文中对系统的总体设计方案及关键技术进行了详细介绍,对各模块的主要功 能及实现算法作了详细论述,最后对所开发的系统进行了测试,实验结果表明,能 够满足系统的设计目标,具有很好的使用价值和应用前景。 关键词:用户行为,反馈学习,自适应搜索 a b s t r a c t b e c a u s eo ft h ei n t e r n e t sr a p i dd e v e l o p m e n t ,al o to fp r o b l e m sa r eb o u g h tt ou s e r sb y t h ei n f o r m a t i o n s i n c r e a s i n ga n dr e d u n d a n t t h e s ep r o b l e m sa l s op u th i g h e rq u a l i t y r e q u i r e m e n t st ot h es e a r c he n g i n e i nt h i sp a p e r , w es t u d i e dal o to fl i t e r a t u r ef o ri n f o r m a t i o na n dr e s e a r c hr e s u l t si nt h e f i e l do fi n t e l l i g e n ts e a r c he n g i n e s ,a n a l y s i sa n dc o m p a r e do fm a i n l y s e g m e n t a t i o n a l g o r i t h ma n dd o c u m e n t sc l a s s i f i c a t i o na l g o r i t h m ,d e s i g n e da na d a p t i v ep e r s o n a l i z e d s e a r c he n g i n es y s t e m b a s e do nt h eu s e rs e a r c h h i s t o r yb e h a v i o ra n dt h ec u r r e n t f e e d b a c ka n a l y s i s ,p r o v i d e dt h ee x p a n s i o no fu s e r sq u e r ya n da u t o m a t i c a l l ya d j u s t s e a r c hr e s u l t sf u n c t i o n ,t h es y s t e mc a ne f f e c t i v e l ym e e tt h en e e d so fu s e re n q u i r i e s i nt h i sp a p e r , w eh a v eg i v e nt h eg e n e r a ls c h e m ea n di t sk e yt e c h n o l o g yi nd e t a i lo f t h es y s t e m ,p r o v i d et h ek e ym o d u l e sm a i nf u n c t i o n sa n d a l g o r i t h m s ,a n dt e s tt h es y s t e m t h er e s u l t so fe x p e r i m e n ts h o wt h a tt h es y s t e mc a nm e e tt h ed e s i g ng o a l sa n dh a sg o o d v a l u ea n d p r o s p e c t s c h e nd u ( c o m p u t e rs o f t w a r ea n d t h e o r y ) d i r e c t e db yp r o f z h e n gl i n g k e yw o r d s :u s e ra c t i o n ,f e e d b a c ks t u d y , a u t o - a d a p t i v e 声明户明 本人郑重声明:此处所提交的硕士学位论文基于用户行为的智能搜索研究,是本人 在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。 据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 学位论文作者签名: 壁垄垂i e l 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、并 向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或其它复制手段 复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校可以学术交流为目 的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 日期:兰! 兰查兰乡上y日期: 华北电力大学硕士学位论文 1 1 引言 第一章绪论 自从互联网于1 9 9 1 年诞生以来,已经发展成为拥有近3 亿用户和约4 0 0 万站 点、3 亿页面的巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。 根据2 0 0 5 年中国互联网络信息资源数量调查报告,截止到2 0 0 5 年1 2 月3 1 日, 全国网页总数约有2 4 0 亿个。一年内增长1 7 5 亿个,年增长率高达2 6 9 ,其中动 态网页的增长量占总增长量的7 1 6 。这一报告比较客观地反映了2 0 0 5 年中国互联 网的实际发展情况。 在互联网上,信息是以超文本的形式呈现给用户的,包含了从技术资料、商业 信息到新闻报道、娱乐信息等多种类别和形式的信息,为用户提供了一个极具价值 的信息源。 然而,由于互联网是一个具有开放性、动态性和异构性的全球分布式网络,资 源分布很分散,且没有统一的管理和结构,这就导致了信息获取的困难。如何快速、 准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题,这 也就是所谓的r i c hd a t a ,p o o ri n f o r m a t i o n 问题。 在这样的背景下,为了满足最终用户的需求,搜索引擎服务应运而生,这种服 务依赖互联网信息检索和挖掘技术,对海量网络信息进行索引和分类,从而帮助用 户快速的从海量信息资源中找到所需信息和隐含的知识,在很大程度上缓解了信息 和知识获取的困难。 但是随着互联网的进一步发展,网络上的数据继续飞速增加与用户需求的专门 化、垂直化,激发了互联网信息的多样化且无序性与用户需求的专一性之间的矛盾。 由于这一矛盾的存在,一方面造成了信息资源的巨大浪费,另一方面,用户在查询 所需要的信息是遭遇了极大的困难。 这一矛盾的产生,对当前的搜索引擎服务提出了新的要求,即如何更加有效的 满足搜索引擎的用户在网络上查找信息的需求。 为了解决这一问题,人们希望搜索引擎工具能够具备更多的智能,由此,引入 了个性化服务理念,为i n t e r n e t 信息服务的理论与技术提供了一种全新的思路,开 拓了一种新的服务模式。 通过个性化服务,就能为不同的用户提供有针对性的服务,所以这领域日益 华北电力大学硕士学位论文 受到研究者的重视。 个性化服务的技术主要包括瞳1 用户建模技术、个性化推荐技术、资源归类技术、 网站自适应技术、用户隐私保护技术等。其中最为重要的两项技术则是用户建模技 术和个性化推荐技术。 根据个性化的特点,在当前的搜索引擎系统中加入个性化服务,已成为搜索引 擎服务发展中的一个重要趋势。 2 v 搜索引擎技术概述 按照不同的信息搜集方法和服务提供方式,大致可以将目前i n t e r n e t 上的搜 索引擎分成目录检索、全文检索和元搜索三类。钉,如表1 - 1 所示。 表1 - 1 搜索引擎的分类 ”。t ? 7t“舻 :簪4p “葛? ,! 妒8 _ 、d 惭t i o 。 。?。-+j。1 07 7 * 4 ,”霉。形7 ”7 。7 7 。缓 分 目录检索全文检索 , 元搜索黉 类, t ,疵jj 。,囊i十,mm 一一 。“。驴| 一, 信以人工方式或半自动方 使用机器人程序( s p i d e r ) 以某 这类搜索引擎没有自己的 患t ”一式搜集信息种策略自动地在互联网中搜索和数据,而是将用户的查询请 搜=发现信息求同时向多个搜索引擎递 , 集+ 交 数。由编辑员查看信息之后,由索引器为搜集到的信息建立索在将返回的结果进行重复 4 据1人工形成信息摘要,并将 引,由检索器根据用户的查询输 排除、重新排序等处理后, t i 组:信息置于事先确定的框 入检索索引库,并将查询结果返作为自己的结果返回给用 茹 织。架中回给用户 户 服。信息大多面向网站,提供面向网页的全文检索服务面向服务的代理检索 i 务 目录浏览服务和真接检 方索服务 j 式 优所得信息准确、导航质量信息量大,更新及时,无需人工返回结果的信息量更大、更 点 高干预 全 缺7需要人工介入、维护量返回信息过多,有很多无关信息,不能充分使用搜索引擎的 7 占: 大、信息量少、信息更新需要用户从中进行筛选功能,用户需要做更多的筛 、i 不及时 选 代 y a h o o 、o p e nd i r e c t o r yg o o g l e 、天网、悠游等d i g g ,w e b c r a w l e r 等 : 表。等 2 华北电力大学硕士学位论文 自1 9 9 4 年第一个搜索引擎出现以来,搜索引擎已经经历过了两个时代,现在 进入了第三个时代。 第一代搜索引擎是依靠人的智能,通过人工分拣的分类目录进行搜索。这一代 搜索引擎以“雅虎 为代表。它以人工的方式把网站归类,放在各种目录之下,允 许客户通过各种方式找到他们想要的网站,即基于人工分类的目录分类搜索引擎。 现在某些搜索引擎还在采用这种技术。 而随着网络应用的发展,客户不再满足于对网站分类和摘要的简单查找,人们 更希望进而针对内容进行查找,于是就出现了针对关键字或关键词的查询。为满足 人们的需求,第二代搜索引擎诞生了,这一代搜索引擎以“g o o g l e 为代表,逐渐 开始大量应用人工智能,依靠于机器对信息的自动抓取,并建立在超链分析技术基 础之上的网页搜索,其信息量大、更新及时,但返回信息过多,有很多无关信息。 而第三代搜索引擎则把“智能化 、“人机交互 等功能融入了主流,搜索技术 开始走向人工智能化。这一代搜索引擎不仅将自动分类技术、中文内容分析技术及 区域识别技术等人工智能领域的研究应用到大型搜索引擎中,并且开始逐步思考如 何将人的智慧模仿实现到搜索策略中去。 一般来说,一个搜索引擎由人机接口、分析模块、检索模块、搜索模块、索引 库等五个部分组成,基本构成如图卜1 所示哺1 。 人机接口的作用是输入用户需求、显示查询结果、提供用户相关性反馈信息, 主要目的是方便用户使用搜索引擎,以便高效率、多方式地从网络信息资源中得到 有效、及时的信息。 分析模块的功能是理解搜索模块所搜索的信息,从中抽取出索引项,用于表示 文档以并生成索引表存入索引库。 检索模块的功能是根据用户的查询,在索引库中快速检出文档,进行文档与查 询要求的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机 制。 搜索模块的功能是在互联网中漫游,发现和搜集信息,它一般是一个持续运行 的自动抓取网页的程序。 索引库则是对搜索模块抓取到的网页文档数据库进行索引。 搜索引擎的基本工作流程描述如下哺儿”。 网络蜘蛛从互联网上抓取网页,并送入网页数据库,从网页中提取u r l ,把u r l 送入u r l 数据库,控制模块得到网页的u r l ,控制网络蜘蛛抓取其他网页,反复循 环直到把所有的网页抓取完成。 系统从网页数据库中得到文本信息,送入索引模块建立索引,形成索引数据库。 同时进行链接信息提取,把链接信息送入链接数据库,为网页评级提供依据。 用户通过提交查询请求给查询服务器,服务器在索引数据库中进行相关网页的 3 华北电力大学硕士学位论文 查找,同时把查询请求和链接信息结合起来对搜索结果进行相关度的评价,通过查 图1 - 1 典型搜索引擎系统结构图 询服务器按照相关度进行排序,并提取关键词的内容摘要,组织最后的页面返回给 用户。 1 3 本课题的研究意义 面对网上资源急剧增长的状况,缺乏有效、智能的信息服务和检索机制,来保 证用户方便、准确获取所需信息。 对于用户提出的查询请求,目前的信息搜索引擎存在以下几点问题。 1 总是穷举所有可用资源。 2 并且很难适应网上信息的动态变化。 3 无法保证查询结果的正确性和全面性。 4 在其进行的资源查找过程中,因为面对的是不确定的用户,也无法将用户 个性化的信息需求考虑进来。 人们寻找信息存在很大的困难,具体表现有两点。 1 用户不知道如何贴切表达( 目前技术也并没有提供合适的表达手段) 真正想 要的网上资源的需求,也不知道如何去更准确有效地寻找。 2 收到的或己经下载的信息难以消化,即所谓的“信息过载。用户的查询 访问经常存在着大量无关的信息,准确性不够。 4 华北电力大学硕士学位论文 海量的可用信息和用户对信息的驾驭能力形成强烈的反差,最终用户盼望出现 一些能够协助其理解、寻找所需信息的软件“助手 ,那么用户信息库的建立及用 户查询反馈就是迎之而出的一种解决方法,智能代理技术的出现,使得这一解决办 法成为可能。 本课题选择了前面所提及的用户行为分析技术作为研究对象,结合相关反馈学 技术,提出了可行的基于反馈追踪的搜索引擎工作模型,深入探讨了用户行为分析 技术与搜索引擎系统的结合。作为应用,设计了一个合理的个性化查询方案,来有 效地改善搜索引擎系统的结果质量,实现搜索引擎系统智能化个性化的思想。基于 用户行为分析技术的搜索引擎智能化方案的研究与实现,旨在为搜索引擎系统的评 价标准提供合理的改善和补充,使得现有的搜索引擎系统能够更好的对广大互联网 用户提供更有效的服务,具有极其重要的现实意义。 1 4 当前的主要研究 目前,智能化搜索引擎研究的重点和发展的主要方向是搜索智能化和用户个性 化,其中包括如下三点。 1 搜索引擎检索技术的智能化。智能检索将信息检索从目前基于关键词层面 提高到基于知识的层面,对知识有一定的理解与处理能力,具有信息服务的智能化、 人性化特征,允许检索者采用自然语言进行检索,为他们提供更方便、更确切的搜 索服务。 2 搜索引擎面向检索者的智能化。面向检索者的智能化主要表现为能够通过 分析用户的检索和浏览行为,学习和判断用户的兴趣,利用搜索引擎的现有服务为 用户提供偏重用户兴趣的检索服务。 。 3 搜索引擎面向检索机制的智能化。面向检索机制的智能化主要表现为搜索 引擎的检索策略方面。 1 5 工作内容与论文内容安排 1 5 1 工作内容 论文在学习智能化搜索技术的基础上,重点研究用户行为分析技术与现有搜索 引擎系统的结合,提出改进的搜索引擎工作流程及评价标准。 主要工作内容包括以下四点。 1 学习了搜索引擎系统的基础理论和发展历史,对于搜索引擎系统的需求规 5 华北电力大学硕士学位论文 划、系统架构、评价标准、软件模型等方面的相关技术进行了学习,为论文的后续 研究工作奠定基础。 2 学习了用户行为分析的相关理论,包括分析用户检索目的,采集用户行为 数据,如何由行为数据分析出用户兴趣等。 3 学习了搜索引擎的基础理论一分词技术与文本自动分类技术。 4 学习了反馈学习技术与相关理论。并提出了一个基于用户反馈的迭代搜索 模型,并设计出了可行的系统设计方案。 本文在对用户日志的分析的基础上,总结了现有搜索引擎查询策略的缺陷和不足之 处,结合反馈学习的思想,将文本的自动分类与反馈学习技术相结合,在现有的搜索引 擎查询基础上,提出了一种交互的迭代查询方法,这种方法为改善现有的搜索策略做了 一定的探索。 1 5 2 论文内容安排 全文共分为五章,各章主要内容介绍如下。 第一章为绪论,介绍了本文的研究背景和选题意义,对搜索引擎的主要发展和相关 技术进行了概述,对当前的主要研究方向作了简要介绍。 第二章对系统的可行性进行了分析,首先介绍了目前存在的还有待解决的问题,其 次介绍了智能技术的主要应用,接下来明确了一些研究中需要用到的概念,最后讨论了 研究中使用到的主要技术。 第三章对所设计搜索引擎系统的总体设计作了介绍,包括系统的设计原则,需要考 虑的主要问题,并对系统的主要模块按所在的层次进行了概述。 第四章对系统实现过程中各个层次功能的设计进行了详细的论述,主要对入机交互 设计,用户提问分析,用户兴趣学习以及用户反馈学习四个主要模块的分析和设计进行 了阐述。 第五章对系统的实现环境、开发工具以及实验数据组织作了介绍。 最后在结论部分总结了本文所做出的主要工作,并对进一步的研究工作进行了展 望。 6 华北电力大学硕士学位论文 第二章系统的可行性研究 搜索引擎是作为满足用户在互联网上的信息检索要求的手段应运而生的,这是 一种用于帮助因特网用户查询信息的工具,它按照一定的策略从互联网中搜集和发 现信息,再对所搜集到的信息进行理解、提取、组织和处理,并基于处理过的信息 向用户提供检索服务,从而起到为用户在互联网上的浏览进行信息导航的目的。本 章主要介绍了当前搜索引擎还存在的问题,分析了解决这些问题所涉及的主要技术 研究。 2 1 待解决的问题研究 不管是分类目录搜索引擎,还是全文检索搜索引擎,都存在着大量的急需解决 的问题,主要表现在以下几个方面3 。 1 搜索结果存在着大量的与用户需求信息不一致的现象。 2 搜索引擎对用户查询条件和网页没有真正的理解,现有网页的匹配技术是 一种二值逻辑的匹配,然而人们对信息的需求存在着大量的不确定性,需要发展多 值逻辑的匹配方法。 3 搜索引擎中对多媒体( 图象和声音) 的搜索技术还仅停留于对这些文档中 文本识别的搜索,对文档的内容和情节还不能搜索。 4 现有搜索引擎只在对静态网页的处理,然而在i n t e r n e t 网上还存在着大量的 动态网页,对动态网页的搜索技术正处于一个研究阶段。 5 对搜索质量的好坏没有一个统一的评价标准和搜索技术的好坏没有一个通 - 厝的检验规范。 一 6 现有的搜索引擎在信息获取方式上,不是实时的,而是按照一定周期从网 上抓取网页。然而i n t e m e t 网上的信息是随时都在更新,搜索引擎不能抓到及时的 网页是其影响查准率、查全率、召回率( 相关的文档被返回的比例) 的主要因素之 一o 7 在用户查询的信息上,现有的搜索引擎都是基于关键词的查询,用户所需 要的信息与搜索引擎的查询结果是在单词上的完全匹配,而不是从用户输入关键词 的语义、语境上的匹配,导致查准率低。 8 用户常常要查找的信息不仅仅是基于关键词的,在日常生活中用户所关心 的信息空间中既有确定性信息,也存在大量的是不确定性信息,目前全文搜索技术 7 华北电力大学硕士学位论文 是基于关键词的检索技术,显然不能查找不确定性信息。 9 用户对信息的搜索往往是在个人知识领域中查找其相关的信息,而不是要 找齐i n t c r n c t 上的所有相关的信息。然而现有搜索引擎是将i n t e r n c t 网上的所有网页 按照一个符合常规的切分关键词的模式对网页进行处理,将其按类存放在公用的数 据库中,基于关键词的搜索引擎常把不是用户关心的信息返回给了用户。 2 2 智能技术的研究 绍。 为了利于课题的研究,下面将对智能化搜索引擎的基本理论和思想作相关介 2 2 1 人工智能技术的主要应用 主要智能化技术应用 人机接口l1分析机制ll 搜索策略 个 性 化 服 务 自 然 语 口 理 解 用 户 兴 趣 学 习 分 词 技 术 文 档 自 动 分 类 图2 - 1 智能化主要技术概述图 文 档 更 新 机 制 多 _ 兀 代 理 搜 索 智能化搜索引擎的理念在于通过和用户进行交流互动以了解用户的真实需求。 查询接口是用户与系统进行交互的唯一途径,如何让用户方便准确地表达所需检索 的信息是查询接口要解决的重要问题。 较之普通的搜索引擎,个性化搜索机制在系统组成上,最大的差别就是增加了 对用户信息的处理机制,该机制反映在系统结构上有如下表现阳3 。 1 人机交互接口方面。这是用户获取搜索引擎服务的唯一途径,也是系统藉 以收集用户浏览兴趣及相关反馈的唯一途径。除了可以像在传统搜索引擎服务那样 8 华北电力大学硕士学位论文 提交自己的查询请求之外,用户还可以在查询的过程中,通过该接口查看并管理系 统针对当前查询内容的所搜集的用户信息。 2 查询分析处理模块。与传统搜索引擎的功能与结构一样,能够根据用户的 请求进行互联网信息的检索,而除此之外,该模块还通过对用户信息管理模块的调 用,以适应具体用户的需求。 3 用户信息管理模块。这一部分最为关键,同时也是区别于传统搜索引擎系统的 重要部分。包括查询优化器、词典、用户信息库的建立和维护,以及机器自学习等几个 重要模块。在用户使用搜索引擎服务的过程中,该模块负责根据搜集到的用户信息,自 动进行查询优化,并通过用户的浏览行为自动学习和动态调整用户的查询要求,为用户 提供更高的查询质量。 相关反馈技术是系统根据用户对感兴趣的记录的点击,或是主动交互、输入、 编辑等操作的返回做相应的参数调整,用以提高系统的检索能力。特别是系统通过 人机交互的方式,由用户对检索结果进行评价和标记,告诉系统哪些是符合需求的 正反馈记录,哪些是不符合需求的负反馈记录,系统则根据这些反馈信息进行学习, 对索引数据库中的相关部分参数和权重做出调整,从而提高下次检索的精度,通过 一定次数的反馈,检索精度会达到一个令人满意的程度,这也是系统的一个自学习 过程。 目前,随着人工智能领域的不断发展和a g e n t 理论的提出,各种个性化的智能 系统不断涌现出来n 们,如国外著名的w e bw a t c h e r ,帮助用户在网上导航,通过对 用户选择的链接或站点跟踪学习,改善导航质量,如国内的南京大学研究实现了一 个个性化的信息搜集a g e n t 系统,它是一个远程开放式学习的教材信息搜集的多 a g n e t 系统。这些系统的核心都是通过观察、收集、挖掘和分析用户的各种个性化 信息,实现个性化服务。同时,与智能性和个性化相关的各种技术也发展迅速。如 w e b 挖掘技术,是将传统的数据挖掘技术和w e b 结合起来,从w e b 文档和w e b 活 动中抽取感兴趣的潜在的有用模式和隐藏的信息。针对用户行为的研究也很多,如 把用户浏览的时长和动作视为用户兴趣的隐含指针,收集、衡量、评价“隐含兴趣 指针 的预测用户兴趣的能力,以及将用户人为地评定页面的兴趣等级视为用户兴 趣的显式指针,研究隐含指针与显示指针的相关性。在机器学习方面,有许多成熟 的算法和不断涌现出来的新算法,如基于统计的贝叶斯算法、神经网络算法、s v m 算法等,这些都为研究用户个性化兴趣模型提供了基础。如何在方便用户的同时, 了解用户真实和不断变化的兴趣,是此项研究的难点。而没有把针对w e b 页面的研 究与用户行为的研究结合起来,是以前各种研究的不足之处。 9 华北电力大学硕士学位论文 2 2 。2 主要面向的研究方向 目前智能化信息检索技术在信息服务中的应用与研究主要集中在两个方面n 1 1 , 方面是如何学习和了解用户需要什么样的信息及用户兴趣所在,另一个方面则是 如何自主地在网络空间中完成收集与信息处理任务。 与当前的搜索引擎相比,个性化智能搜索引擎采用了智能代理技术,由代理程 序直接帮助用户搜集信息,并对信息进行相似度的计算和整理,将处理后的结果返 回给用户,并且代理用户完成用户信息存储,用户兴趣反馈,用户兴趣判断与兴趣 表示。 智能搜索引擎以用户需求为先导来进行信息搜索和信息加工,根据用户特定的 需求以及在一段时间内的偏好为衡量标准来筛选信息。用户界面提供友好的自然语 言查询,当用户的查询请求不明确时,智能代理会利用知识库中的推理机推断用户 的潜在需求进行检索,检索完后允许用户对结果进行满意度和相关度的评价,这些 评价被传回给知识库,一方面修正用户的兴趣加以学习,另一方面完善信息j u t 和 信息相关度匹配的规则,以便为下一次检索提供更可靠的保障。 随着人工智能技术在信息检索领域的应用,出现了许多智能信息检索方法,主 要表现在以下几个方面n 别。 1 语义检索。语义检索又称为概念匹配,即自动抽取能够描述文献内容的概 念,用文中的关键词或与之相应的主题词加以标引。用户在系统的辅助下选用合适 的词语表示自己的信息需求,在此基础上两者之间执行概念匹配,匹配在语义上相 同、相近或相包含的词语。例如用户要查询的是“操作系统,“u n i x 也是与之相 匹配的词语。所以语义检索是一种建立在文献概念相关关系基础上的检索,通过建 立语义索引,可以对用户进行交互式的导航,从而实现信息的深度检索。比如用户 随意输入任何一个单字、词组或其他多种检索词后,搜索界面会在一个显示框中显 示按与用户检索词的相关程度排序的概念空间词汇,用户可以从中选择合意的词添 加到搜索框中,以提高检索的精确度。 2 自然语言理解技术。随着社会的日益信息化;人们越来越强烈地希望用自 然语言同计算机交流。从计算机科学,特别是从人工智能的观点看,自然语言理解 的任务是建立一种计算机模型,这种计算机模型对于自然语言( 即人们日常使用的 各种通俗语言) 能够像人那样理解分析并给出回答的结果。当然现在计算机的智能 还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也难以达 到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判 的。如果计算机实现了人机会话、机器翻译或自动文摘等语言信息处理功能,则认 为计算机具备了自然语言的理解能力。以自然语言理解技术为基础的搜索引擎将通 华北电力大学硕七学位论文 过使用关键词切分,同义词扩展,概念搜索,短语识别以及机器翻译等技术,把信 息检索从目前基于关键词层面提高到基于知识的层面,对知识有一定的理解与处理 能力。因而这种搜索引擎具有信息服务智能化和人性化的特征,他允许采用自然语 言进行信息的检索,为用户提供更方便和更确切的搜索服务。 3 人工机编混合型目录。主要包括人工进行质量控制的机编目录和运用智能 技术检索的手编目录。这种混合型目录能够弥补机编目录和手编目录各自的缺憾, 提高了网页索引覆盖率。 2 3 一些概念的提出 目前来说我们评估搜索引擎系统的一次查询质量主要使用两个指标,即准确率 和查全率。 其中一次查询是指从一次输入的检索词到得到检索结果的过程,称为一次查询。 准确率是结果集合中全部返回文本中相关的文本所占的比率,其数学公式表示 如下。 准确率( p r e c i s i o 小篙筹 查全率是应有的全部相关文本中实际返回的文本所占的比率,其数学公式表示 如下。 查镩驴篙蒺嚣 搜索引擎的性能主要通过查全率和查准率这两个指标来衡量,但是对于用户而 言,根据所查询到的相关结果的数量以及在一次查询结果集合中的排列位置,可以 直观的感受到查准率,而对于查全率,由于无法得知互联网上全体相关结果的规模, 则不能做出有效的判断。 2 4 研究中使用的技术 w e b 挖掘技术,可以提高搜索引擎获取信息的准确性,并可以对用户搜索结果 进行相关处理,从而提高对目标文档的查准率和查全率。w e b 挖掘技术在智能门户 搜索引擎中的应用介绍如下h 副。 1 文档的自动分类。w e b 页面与一般的纯文本文件不同,它是h t m l 格式的 超文本,页面中有 等标记,以及描述页面的标题、关键词、及u r l 等,这些都包含了重要的分类信息。通过w e b 挖掘和机器学习技术可以对索引数据 华北电力大学硕士学位论文 库中的信息进行整理,对文档自动分类,从而提高用户的检索速度和检索的精确度。 由于采用了机器自动分类的方法,克服了人工分类中信息检索不全面、更新速度慢 的缺点。 2 自动文摘的形成。搜索引擎向用户返回检索结果时,通常要给出每个文档 的简单摘要,目前大部分搜索引擎是机械地截取文档的前几旬。而通过w e b 文本挖 掘中的文本总结技术,可以从w e b 页面中提炼出重要的信息形成文档摘要,使用户 能较全面地了解文档的内容。 3 检索结果的聚类。搜索引擎的检索结果常包含大量信息,且其中大部分是 与检索无关的信息。我们可以通过w e b 挖掘技术对检索结果的文档进行聚类,把与 用户需求相关的检索结果聚类,而远离那些不相关的文档。还可以把结果信息用超 链接方法以可视化方式提供给用户,由用户选择他感兴趣的一簇,将大大缩小浏览 的页面数量。 4 查询结果的相关度排序。w e b 页面中包含了许多超链接,有指向其它网页 的,也有其它网页指向本网页的。因此,指向该网页的链接体现了该网页的引用情 况。我们可用w e b 挖掘技术对网页引用的频率统计确定它的重要性和相关性,从而 有助于对搜索引擎返回结果进行相关度排序。 5 实现个性化的搜索引擎。目前不同的人使用同一搜索引擎和同一检索词得 到的结果相同,也就是说搜索引擎没有实现个性化检索,即没有考虑到人的地域、 年龄、工作性质等方面的差别。但是用户在使用搜索引擎搜索信息时,在网站服务 器上留下了大量的有用信息,通过对这些信息的挖掘可以发现一些与用户检索的关 键词密切相关的网页,实现个性化检索。 2 5 本章小结 本章阐述了搜索引擎当前存在的问题,并对人工智能技术在搜索引擎中的应用 进行了一定的介绍,主要包括智能化的应用方向等。 华北电力大学硕士学位论文 第三章系统的总体设计 在进行了系统的可行性分析之后,本章将介绍一种基于用户行为分析的搜索引 擎系统的总体设计。 3 1 系统设计原则 我们认为i n t e r n e t 用户的信息中最重要的,同时对个性化服务最具指导性作用 的是用户的兴趣知识,它是实现个性化的关键n 钔。用户兴趣知识必须通过建立一个 合适的模型和构造合适的兴趣挖掘算法来获得。我们讨论的用户兴趣挖掘方法是一 种基于文本内容的数据挖掘,并用一种新的遗忘机制对用户的兴趣适当遗忘,保证 模型能够比较真实并且全面的反映用户的兴趣特征。 设计个性化模型的目标是在挖掘用户兴趣信息的基础上,建立一个个性化模 型。该模型通过挖掘用户的历史访问页面,了解用户在信息需求方面的兴趣倾向,。 并将用户的长期兴趣和短期兴趣有效地结合起来,及时发现用户兴趣的变化,自动 更新与优化模型。 研究通常以单个用户的查询为出发,以用户在信息需求方面的兴趣为建模核 心,考虑用户在信息需求兴趣上表现的差异,基于加权关键词表示方法,加入时间 属性,围绕用户兴趣更新个性化模型。 用户兴趣反映用户在主题需求和内容形式上的偏好,在维护和修改用户兴趣的 过程中,采用特征向量化的手段,将用户兴趣量化为向量集合,实现兴趣度调整, 兴趣特征词的增删,特征词权值的调整等功能。 对于不同的用户兴趣,表现出的目标通常有两种,通常来说第一类能够由于目 标一般是单一的,因此搜索引擎能够较好的完成查询任务,而对于第二类情况,由 于其特殊性,在应对上还存在一定的问题。 对于信息类的查询任务,存在的情况大致有以下几种。 1 对查询目标的描述不准确。 2 搜索引擎查出的结果不准确。 3 搜索引擎查出的结果不全面。 4 搜索引擎查询的策略不合理。 本文从解决上述问题的角度出发,提出了一个解决方案。 1 3 华北电力大学硕士学位论文 3 。2 需要考虑的问题 3 2 1 用户兴趣的学习 i n t e r n e t 用户是不确定的,他们可能有不同的年龄、性别、信仰、国籍和职业, 因此,在对他们的操作数据进行分析之前,很难判断他们具有哪些共同特点,也不 能对他们做出一些想当然的前提假设。尽管如此他们仍应该具有一些最基本的、相 同的性质,所以,我们对系统用户进行如下假设n 副。 1 他们是理性的,即自己喜欢的主题会浏览得多一些,不喜欢的会浏览得少 一些。 2 他们的兴趣随着时间的推移是有可能变化,当然,也可能不变。 3 如果他们的兴趣发生转变的话,那么这个转变是需要过程的,不可能每时 每刻都在变化。 这三点假设对大部分人都是适合的,基于这样的假设,我们才能进行模型设计。 欲了解某个人的兴趣爱好,需要根据他的浏览记录进行分析和归纳,以便从那 些杂乱无章的访问记录中发现、挖掘出用户的兴趣,所以下面两个因素要考虑到n 引。 1 特定主题的访问次数。一个理性的人在可能的情况下,必然会对自己感兴 趣、喜欢的内容多看一些,对自己讨厌的东西少看一些。因此,某个用户对某个主 题访问的次数越多,说明他越喜欢这方面的内容,反之,如果,某个主题的文章他 长期不看,则认为他对该主题不感兴趣。 2 该主题的访问时间。除了某主题的访问次数外,时间也是一个不容忽视的 因素,因为用户的兴趣随时可能改变,1 0 个月前频繁访问的一个主题肯定不能说明 当前用户的兴趣爱好,而且,用户在浏览网页时,通常在感兴趣的页面上停留的时 间比较长。因此,在分析用户兴趣时,时间因素必须被考虑在内。 所谓用户兴趣爱好,在本模型中认为就是用户喜欢的文章类型或者文章主题, 对其他系统而言,可能是其他类型的信息,但他们都有一个共同点,就是可以抽象 为具有一定语义的词汇,可以用它们来表示用户的兴趣。另外,还要区分出用户对 不同兴趣的爱好程度,一要为用户的每个兴趣赋予一定的权重来反映用户爱好的程 度。 在实验中我们对每个s e s s i o n 中所含的查询个数进行了分析,得出的结果中在同 一个s e s s i o n 内查询的平均个数为1 6 ,有三分之二的s e s s i o n 只含有一个查询,即 在那小段时间内,大部分用户只提交了一个查询而没有对该查询进行修改。造成这 种情况的原因可能是用户对检索结果表示满意,找到自己想要找的信息,后结束查 找,也可能是对检索结果不满意,但又不想修改查询词后再次搜索了。 1 4 华北电力大学硕士学位论文 实验数据还显示了约8 5 的用户只翻看搜索引擎返回结果的前1 0 个结果,即只 查看了返回结果页面集合的第一页。这个用户行为表明了这样的事实,即尽管搜索 引擎返回的结果数目十分庞大,但真正可能被绝大部分用户所浏览的,只有排在最 前而的很小一部分而已。所以传统的基于整个结果集合查准率和查全率的评价方式 不再适用于网络信息检索的评价,我们需要着重强调在评价指标中有关最靠前结果 文档与用户查询需求的相关度的部分n 引。t r e c 在近年组织的网络信息的检索评测 中,以及针对中文网络信息的检索的评测都采用了更重视检索结果最前的少数几篇 文档是否满足用户需求。 对用户检索目的的分析也是近年来用户行为分析研究的热点之一,i b m 研究院 的b r o d e r 首先提出了“任务驱动 的概念n 引,在他构想的用户检索流程模型中,查 询任务决定了用户的查询需求,进而反映在查询词上。用户的查询任务包括导航类、 信息类和事物类三类。对查询任务进行划分的出发点在于,针对二类检索可以使用 不同的检索模型参数,甚至评价方法也随着检索类别的变化而有所区别。因此实现 检索类别的自动划分对于提高检索性能和增加检索评价的可信度都有非常重要的 意义。 3 2 2 用户行为的收集研究 我们认为以下几个方面可用来发现用户的兴趣n 引。 1 由用户用输入关键词的方法来主动提供自己的兴趣。 2 用户没有明确参与的情况下,系统通过跟踪用户行为来得到用户的兴趣, 即通过隐式反馈来学习用户的兴趣。 3 通过用户对访问页面的显式评价信息来获取用户兴趣,即通过显式反馈来 学习用户的兴趣。 我们对以上三种方法进行了比较和研究后发现,第一种方法存在用户经常不能 准确地表达自己的兴趣和对于相同的关键词不同用户的检索结果却相同等问题,这 是现在很多搜索引擎仍然存在的弊端之一。第二种方法根据用户检索消耗的时间和 操作的动作,或通过探测用户环境( 如用户的书签、访问过的u r l 和浏览器中的 c o o k i e s ) 进行需求偏好的捕获,这种隐性的观察方法不需要用户明确表示其兴趣, 用户在不知不觉中享受到了更加个性、智能的检索服务,对于用户而言显得更加方 便和实用。但是,单纯的利用机器推测来获取的用户兴趣,准确度不高。而第三种 方法虽然实现简单,但是需要用户的参与,会对用户的正常浏览造成一定的干扰。 使用用户日志文件来对用户兴趣进行挖掘的方法,优点如下所述。 1 日志文件是由w e b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论