(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf_第1页
(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf_第2页
(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf_第3页
(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf_第4页
(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机软件与理论专业论文)建立层次结构用户兴趣模型的方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北师范大学硕士学位论文 摘要 为解决i n t e r n e t 上对于普通的用户日益严重的“信息迷失”和“信 息过载”问题,智能信息检索和个性化信息服务成为当前信息服务研 究的重点。作为其基础,一方面要研究如何应用人工智能的技术表示 和组织i n t e r n e t 上的信息,另一方面要研究如何建立个性化用户模 型,从而更清楚地获取和表示用户的兴趣和信息需求以及智能化地处 理用户与检索系统的交互等。 本文研究建立层次结构用户兴趣模型的方法。层次结构的用户兴 趣模型能够把用户的具体兴趣和笼统兴趣表示成个连续的整体。从 某种意义上说,具体的兴趣应该和短期的兴趣相对应,而笼统兴趣和 长期的兴趣相对应,所以用户兴趣模型的这种表示方法为其应用带来 了很强的灵活性。本文主要的工作和成果如下: 提出了一种层次结构用户兴趣模型的表示方法。一个层次结构用 户兴趣模型是个以单个兴趣向量为节点的树。 提出了一种建立层次结构用户兴趣模型的算法。用户兴趣模型是 在用户浏览w e b 信息的过程中动态生成的,如何生成层次结构用户兴 趣模型是算法的重点。 提出了一种对层次结构用户兴趣模型( 即用户兴趣树) 进行剪枝 的方法。用户兴趣树中的节点不能无限制的增加,当节点数超出一定 数目时就要对其进行剪枝。 建立层次结构用户兴趣模型的原型系统u m s 实现。u m s 以中文的 w e b 页面为研究对象,它能监视用户的浏览过程,在对用户的浏览内 容进行处理和分析的基础上建立用户兴趣模型。 类 关键词:个性化,用户兴趣模型,中文分词,向量空间模型,聚 东北师范大学硕士学位论文 a b s t r a c t a st h es o l u t i o r so f t h e p r o b l e m s , s u c ha s“i n f o r m a t i o n o v e r l o a d ”a n d “i n f o r m a t i o n1 a b y r i n t h ”w h i c ha r em o r ea n d m o r es e t i o u st ot h eo r d i n a r yu s e r s i n t e l li g e n ti n f o r m a t i o n r e t r i e v a la n dp e r s o n a li n f o r m a t i o ns e r v i e eh a v eb e c o m et h e e m p h a s i s o ft h er e s e a r c ho f i n f o r m a t i o ns e r v i c e t h e i r f o u n d a t i o n sa r et or e s e a r c hh o wt oa p p l yt h et e c h n o l o g i e so f a r t i f i c i a li n t e l l i g e n c et or e p r e s e n ta n do r g a n i z et h ei n t e r e s t i n f o r m a t i o n ,a n dh o wt ob u i i dp e r s o n a l i z e du s e rm o d e l s ,s ot h a t w ec a nr e p r e s e n tu s e r si n t e r e s ta n di n f o r m a t i o nn e e dc t e a r l y , a n dd e a lw i t ht h ei n t e r a c t i o nb e t w e e nu s e r s a n di n f o r m a t i o n r e t r i e v a ls y s t e m si n t e l li g e n t l y t h i st h e s i sr e s e a r c h e st h em e t h o do fb u i i d i n gh i e r a r c h i c a l u s e ri n t e r e s tm o d e l t h eh i e r a r c h i c a lu s e ri n t e r e s tm o d e lc a n r e p r e s e n tac o n t i n u u m o fs p e c i f i ct og e n e r a li n t e r e s t so fau s e r i ns o m es e n s e ,m e r eg e n e r a li n t e r e s t sc o r r e s p o n dt ol o n g e r t e r m i n t e r e s t s , w h i l em o r e s p e c i f i c i n t e r e s t s c o r r e s p o n d t o s h o r t e r t e r m i n t e r e s t s s o ,t h i sr e p r e s e n t a t i o n o fu s e r i n t e r e s tm o d e lp r o v i d e sf l e x i b i l i t yf o r i t sa p p li c a t i o n t h e m a i nc o n t r i b u t i o n so ft h i s t h e s i sa r el i s t e da sb e l o w : t h er e p r e s e n t a t i o no fh i e r a r c h i c a l u s e ri n t e r e s tm o d e l a h i e r a r c h i c a lu s e ri n t e r e s tm o d e l i sat r e ew h o s en o d e sa r et h e s i n g l e i n t e r e s tv e c t o r s a na l g o r i t h mo fb u i l d i n gh i e r a r c h i c a lu s e ri n t e r e s tm o d e l u s e rm o d e l i n gi sad y n a m i cp r o c e s sd u r i n gu s e rb r o w s i n gt h e w e b h o wt oe e n e r a t eh i e r a r c h i c a lu s e ri n t e r e s tm o d e li st h ee m p h a s i s o ft h ea l g o r i t h m am e t h o do fp r u n i n gh i e r a r c h i c a i u s e ri n t e r e s tm o d e l ( u s e r i n t e r e s tt r e e ) t h en o d e so fu s e ri n t e r e s tt r e ec a n ti n c r e a s e w i t h o u t1 i m i t w h e nt h en u m b e ro ft h en o d e se x c e e d sg i v e nc o u n t , w em u s tp r u n et h et r e e t h e p r o t o t y p e s y s t e m w h i c hi sa n i m p l e m e n t a t i o n o f h i e r a r c h i c a lu s e ri n t e r e s tm o d e l i n g i tu s e s c h i n e s ew e bp a g e a ss t u d yo b j e c ta n dc a nm o n i t o rt h ep r o c e s so f u s e rb r o w s i n gt h e w e b 0 nt h eb a s eo fp r o c e s s i n ga n da n a l y z i n gt h ec o n t e n tw h i c h j i 东北师范大学硕士学位论文 u s e r sa r eb r o w s i n gi tb u i i d su s e ri n t e r e s tm o d e l k e y w o r d s :p e r s o n a l i z a t i o n ,u s e r i n t e r e s tm o d e l ,c h i n e s ew o r d s e g m e n t a t i o n ,v e c t o rs p a c em o d e l ,c l u s t e r i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研 究工作及取得的研究成果。据我所知,除了文中特别加以标注 和致谢的地方外,论文中不包含其他人已经发表或撰写过的研 究成果,也不包含为获得东北师范大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:楹! 蝥 日期 劲口斗s 、z p 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学 位论文的规定,即:东北师范大学有权保留并向国家有关部门 或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权东北师范大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或其它复制手段保 存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 攀,一, 8 瓮j j 学位论文作者签名:在丕且茑 指导教师签名:墅: 日期:迎型:垦兰p 日期:趋吐奠 学位论文作者毕业后去向 工作单位 通讯地址 电话 邮编 东北师范大学硕士学位论文 1 1 问题提出 第一章绪论 i n t e r n e t 为我们提供了大量的信息资源,日渐成为我们生活中不 可缺少的一部分。以i n t e r n e 为代表,开放、协作和智能的信息处理 已成为现代信息系统的重要特征。但由于i n t e r n e t 是海量信息源,构 成的是一个开放、分布的信息空间,它本身所固有的3 个特点已经明 显地阻碍了人们充分地使用i n t e r n e t 上的信息资源: ( 1 ) i n t e r n e 上可利用的信息是无组织的,多种结构形式的, 并且分布在全世界的各个站点上; ( 2 ) 资料和服务的类型以及数量每天都在大量增加。因而信息可 利用性和可靠性也在不断地变化; ( 3 ) 由于信息源的动态性以及潜在的有用信息的更新和保存问 题,信息常常是模糊的,有时甚至是错误的。 正由于i n t e r n e 的信息的组织是异构的、多元的和分布的,信息 不断地更新和增加,信息量以指数规模迅猛地增长和扩展,因而形成 了“信息爆炸”。对于普通的用户来说,i n t e r n e 上的“信息迷失” 和“信息过载”已经成为日益严重的问题。信息迷失即浏览者在 i n t e r n e t 复杂的网状信息空间中迷失方向,不知道他们现在处于信息 空间中的什么位置,无法返回某个节点,忘记了他们最初的目标。信 息过载则是由于i n t e r n e t 提供的信息的复杂性、广泛性和没有考虑到 浏览者的知识水平、认知能力、造成浏览者无法正确理解和使用信息。 信息检索系统是目前i n t e r n e 上应用广泛的一种信息服务系统, 通过获取用户的信息需求返回相应的信息。但现有的信息服务系统存 在明显的缺陷,比如资源分散,检索集中,对所有的用户是一副面孔, 有求则应,无求不动:用户按格式请求,系统按字面匹配,因而查询 方式局限、死板;没有统一的标准,而且门户林立,各自为政,不同 信息源使用不同服务机制,不同服务使用不同的身份验证机制等。 这些特点给信息系统特别是信息浏览和信息检索带来的后果之一 就是用户需要的时候往往不能很快地给出用户希望得到的信息:一般 的搜索引擎不能保证其检索出信息的精确性和完整性,用户不能确定 检索到的信息是否是相关的,即使是相关的,用户也不能肯定是否已 经检索到了与主题相关的所有信息,这就是说信息检索的查准率和查 全率( r e c a l l ) 两个重要指标都不能得到保证。 而不同用户由于背景知识不同,兴趣爱好不同,信息需要不同, 东北师范大学硕士学位论文 他们访问的往往都只是w e b 上某一个特定的资源子集,是关于某一特 定领域的。因此通用的信息检索需要与特定领域信息处理技相结合。 而目前大多数的检索系统采用关键词输入方式进行检索,对所有的用 户都是千篇一律的界面、检索方式和检索结果,用户无法准确地表述 自己对特定领域和信息的兴趣和需求,即使是使用了先进的搜索技术, 也不能在一个相对较短的列表中向用户提供精确的信息,实际上大多 数情况下检索结果中的文档对用户而言有一半以上是不相关的。其中 的一个主要原因就是:同一个关键词对不同的人、在不同的领域、不 同的时间和地点都可能表达不同的意思,因此一个关键词是不能确切 地反映一个用户对特定领域内信息的特定需求的。而搜索引擎只依赖 其单方面的判断,没有考虑用户方的信息。 智能信息检索是目前解决这些问题的一条途径,它一方面研究如 何应用人工智能的技术表示和组织i n t e r n e t 上的信息,另一方面要实 现智能化地处理用户与检索系统的交互,从而更清楚地获取和明确表 示用户的信息需求。 解决这些问题的另一条途径是将i n t e r n e t 从被动接受浏览者的 请求转化为主动感知浏览者的信息需求,实现i n t e r n e t 系统对浏览者 的个性化和主动的信息服务。 信息服务发展的趋势是将个性化主动信息服务,如何从海量数据 和信息中高效地获取有用知识,如何从迅速爆炸的信息中及时地获取 最新信息,如何提高信息检索与推送的智能水平,以及如何满足各种 用户的不同的个性化需求等,都是新的信息服务系统面临的挑战性课 题。个性化信息服务是未来信息服务的主流模式,它实现的是“信息 找人,按需服务”。其基础之一就是建立真正反映用户的信息需求和兴 趣爱好的个性化用户模型。 如何表示用户的信息需求和兴趣爱好,如何得到反映用户信息需 求和兴趣爱好的数据,如何从这些数据中分析得出用户模型,以及如 何应用用户模型为用户进行信息服务,这些都是个性化信息建模技术 要研究的问题。本文就这些方面进行深入研究,提出了运用聚类分析 方法建立层次化用户兴趣模型的方法,并实现了一个原型系统。 1 2 国内外相关研究 1 2 1 信息检索技术 随着w e b 数据库和信息库积累的数据和主题越来越多,计算机处 理的数据量不断地呈指数增长,怎样快速、有效、经济地检索某个主 东北师范大学硕士学位论文 题的所有信息就成了一个十分热门的课题。 ( 1 ) 信息检索的原理 一个完整的信息检索必须研究信息的表示、存储、组织和访问, 即根据用户的查询要求,从信息库中检索出与之相关的信息资料。信 息检索已从手工建立关键字索引发展到计算机自动索引的全文信息检 索、自动信息文摘、自动信息分类,并正朝着自然语言处理的方向发 展。 信息检索系统的核心是搜索引擎,它需要从纷繁复杂的大量信息 中筛选出符合用户需求的信息。 根据搜索引擎查找相关信息方式的不同,可将信息检索分为布尔 逻辑模型、模糊逻辑模型、向量空间模型以及概率模型等。 布尔型信息检索是最简单的信息检索模型,用户可以根据检索项 ( 自由词或关键词) 在文档中的布尔逻辑关系提交查询,搜索引擎根 据事先建立的倒排文件结构,确定查询结果。标准布尔逻辑模型为二 元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果 一般不进行相关性排序。为了克服布尔模型信息检索模型查询结果的 无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库 文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序 排列查询结果。 与布尔信息检索模型不同,向量空间模型用检索项的向量空间来 表示用户的查询要求和数据库文档信息。根据向量空间的相似性排列 查询结果。向量空间模型不仅可方便地产生有效的查询结果,而且能 提供相关文档的文摘,并进行查询结果分类,为用户提供准确定位所 需的信息、。 基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型, 它利用相关反馈的归纳学习方法,获取匹配函数。 虽然不同检索模型使用的方法不同,但所要达到的目标是相同的, 即按照用户要求,提供用户所需的信息。实际上,大多数检索系统往 往将上述各种模型混合在一起,以达到最佳的检索效果。 目前,商用的信息检索系统主要以布尔模糊逻辑加向量空间模型 为主,辅以部分自然语言处理。自然语言处理,特别是自然语言理解 在信息检索中应用,将大大提高信息检索的查准率和相关性。 信息检索系统在实现上表现为i n t e r n e t 上专门提供查询服务的 一类网站( 通常就直接称之为搜索引擎) ,这些网站通过网络搜索软件 ( 又称为网络搜索机器人) 或网站登录等方式,将i n t e r n e t 上大量网 站的页面内容搜集到本地,经过加工处理而建库,从而能够对用户提 出的各种检索请求做出响应,提供用户所需要的信息。用户的检索途 东北师范大学硕士学位论文 径主要包括自由词全文检索、主题词检索、分类检索及其他特殊信息 的检索( 企业、人名、电话黄页等) 。 目前i n t e r n e t 两上的信息检索系统很明显地可分为两大类,一类 是自由词或关键词检索搜索引擎,同时还可能提供各种检索功能扩展, 如逻辑检索功能( 支持a n d 、o r 、n o t ) 其他逻辑检索功能( n e a r 、p h r a s e ) 和各种其他功能( 如截断词检索) 等,如g o o g l e ;另一类是分类搜索 b l 擎,其实它并不是真正意义上的搜索引擎,丽是分类浏览,如y a h o o ! 。 当然这两类搜索引擎的功能是相互借鉴和渗透的。 ( 2 ) 中文信息检索的特点 在信息检索领域,英语信息检索的发展较为迅速。如由s a l t o n 等 人开发的sm art 信息检索系统可以利用向量空间表示检索信息 内容,并将自然语言处理应用到信息检索,大大提高了信息查询的准 确性。中文信息检索的发展相对较慢,这是和中文信息检索自身的特 点密切相关的。 由于历史与政治的原因,两岸三地采用不同的字符集及内码体系, 大陆用的是gb 码,而台湾则用的是b i g 5 码,字符集的大小也不尽相 同。这是中文信息检索的特点之一。 另一个特点就是中文分词问题。西文单词的分隔相当清晰,采用 空格分隔。而中文的字则不能简单地进行分隔,因此有不同的处理方 法。一种是完全单汉字全文检索,即将文章中的每一个汉字都作为索 引的内容,而将用户的检索提问根据单汉字匹配的原则去进行检索。 此法虽然能够保证有很高的查全率,但却经常返回一些不相关的检索 结果。所以说,这种处理方法较容易造成所答非所问的结果。如在新 浪中检索“通信”,结果中会出现不少与“交通信息”有关而与“通信” 不相关的内容。 另一种方法则是根据一定的原则和方法来对文章进行自动分词, 然后按词建库,对用户的检索结果按词汇匹配来进行查询。一般来讲, 这种处理方法较容易返回符合用户检索词概念意义的检索结果,但是 分词技术的好坏直接影响到查全率。从目前中文搜索引擎实际情况来 看,绝大多数的搜索引擎采用分词的处理方法,因为这样除了较准确 之外还能提高整个系统的检索响应效率。 中文分词的另一层意义指的是对于用户输入的查询语句进行自动 分词,然后用分解后的词汇来进行检索,这种做法降低了用户在检索 式组织上的工作量,提高了查全率和查准率。由于各信息检索系统在 建库时是否分词,以及如何分词,这在检索界面上很难做出判断,因 此很多时候关于中文分词的讨论一般只对用户检索式进行自动分词。 另外,与英语相比,汉语句法分析和语义理解更为困难。 东北师范大学硕士学位论文 ( 3 ) 信息检索系统的评价 信息检索评价的标准是检索的查准率和查全率。信息检索的查准 率为检索结果中相关信息文档数与查询结果总数之比。信息检索的查 全率为实际检索出的相关信息文档数与信息库中总的相关信息文档数 之比。 目前的很多研究大都围绕着提高信息检索的查全率和查准率做工 作,包括个性化检索实现也是为了达到这目的。如为了提高信息检 索的查全率而进行查询扩展处理。这种处理根据同义词词典和语义蕴 涵词典扩展查询检索项。同义词扩展,如“计算机”和“电脑”指同 一概念,因而查询“计算机”同时也要查询“电脑”,反之亦然。主题 蕴涵扩展是指不但要查询检索词,而且还要查询其中所包含的子概念。 又如为了提高信息检索的查准率,可以利用向量空间模型实行相关查 询反馈处理。即从初次查询的结果中,选择内容重要的文档或文档片 段,让搜索引擎依据所选文档的特征,重新进行查询,从而提高查准 率。 同时,搜索引擎总是要将检索结果返回给用户,而结果显示的好 坏直接影响到搜索引擎的使用效果。因此,结果显示的内容组织、如 何排序,是否提供足够的相关信息( 内码、文件大小、文件日期等) , 对用户对检索结果的判断具有很大的影响。 大多数搜索引擎本身就是w e b 站点,其页面组织就如同用户的使 用界面一样,组织得好与坏直接影响到用户的使用效果。页面是否能 根据用户需求定制也是页面组织的一个重要内容。如m y y a h o o ! 就可以 由用户自己定制页面和内容如新闻主题。 ( 4 ) 智能信息检索 在实际中大量使用语法方法进行检索的同时,人们逐渐认识到使 用语义进行检索是一种解决精确检索的有效途径。但是语义检索要依 赖显示标注的信息资源,或完整、正确的自然语言理解系统,显然这 两个要求在近期内都难以满足。 采用分布式人工智能方法可以代替人工完成复杂信息的收集、过 滤、分类以及融合等任务。分布式人工智能技术大量应用于w w w 信息 检索中,正在逐渐向完全的精确语义检索解决方案努力。 因此智能信息检索除了被动检索外,也利用主体( a g e n t ) 技术进行 信息检索。信息检索系统的智能主体可根据用户事先定义的信息检索 要求,在网络上实时监视信息资源,如指定的w e b 页面的更新、网 络新闻、电子邮件、数据库信息变化等,并将用户所需的信息,通过 电子邮件或其他方法,主动提供给用户。用户无须反复搜索所需信息, 这样将大大减少用户检索信息的时间。 东北师范大学硕士学位论文 1 2 2 个性化w e b 信息服务 ( 1 ) 相关研究 个性化信息服务系统可能是一个具有智能的w e b 工具,也可能是 个性化的网站、个性化代理。用户的个性化模型也广泛应用于电子商 务中的个性化服务中。 具有智能的w e b 工具被用来帮助用户检索、定位和管理w e b 文档。 智能水平高的w e b 工具,能学习产生用户模型,并能使用模型进行推 理,对用户和信息源的行为进行学习。 站点的个性化就是针对特定的用户建立相应的w e b 内容和应用。 这就要收集和存储站点访问者的信息,并分析这些信息,在此基础上, 向每一个访问者在恰当的时间传送恰当的信息,即个性化地发布新闻、 推荐文档、提供建议、发送e - m a i l 、播送广告、推销产品等。 总之,i n t e r n e t 上的个性化信息服务系统必须具有三个能力,即 用户模型能很好地反映用户的兴趣偏好;为适应用户偏好的变化,用 户模型能作适应性的改变:自动寻找相关领域信息源,主动向用户提 供推荐服务。 国内外关于个性化的研究很多,也有一些成功和实用的例子。并 且可以看到很多个性化的研究是和主体、多主体系统( m a s ) 的研究及数 据挖掘技术相结合的。 w e b w a t e h e r 是一个非常著名的导航器,它使用了一个称为信息 查找助理的主体,帮助用户在网上导航,同时该系统通过对用户选择 的“链路”或站点跟踪学习,获得学习知识,如哪一超链可能到达目 标信息,并使用这些知识交互地帮助用户定位希望的信息,从而改善 了导航质量。 p e r s o n a lw e b w a t c h e r “1 同样提供推荐服务,它通过适应用户的变 化和要求从而增强了w e b w a t c h e r 。通过学习用户认为感兴趣的链接和 认为不厌烦的链接的例子,如果系统认为某些链接是用户感兴趣的, 则加亮显示它( 们) ,系统的建议被限制在一个页面现存的链接上。 l e t i z i a ”系统用于在用户浏览时向用户建议其可能感兴趣的链 接,这些链接与用户当前访问的页面内容有关。 国内也有一些相关研究,如: 南京大学多媒体技术研究所经三年努力,推出了一种个性化信息 搜索引擎d o l t r i a g e n t “。该系统将主体技术应用于网络信息搜索, 其主要的特征是具有学习功能,能够在信息交互中获得用户的信息, 包括用户的兴趣、爱好和思维方式,在此前提下,系统可以主动、定 期地为用户查找信息,并根据用户搜索信息的变化调整“知识库”中 东北师范大学硕士学位论文 的通用字和关键字,使之能够有效地适应专门领域的信息搜索。系统 的本地信息库还可以对搜索到的信息进行分类存储和管理,并具有与 其它系统的协作功能。 中国科技大学的汪晓岩等在面向i n t e r n e t 的个性化智能信息检 索”3 一文中提出了一个面向i n t e r n e t 的个性化智能信息检索系统。 该系统采用分布式智能体技术、相关反馈学习算法和基于多用户个性 化模式的层次智能信息过滤算法,并采用多模块解决了现有系统在交 互方式、自适应用户兴趣和信息源的变化、高效并行检索等方面的不 足。 ( 2 ) w e b 个性化研究的主要问题 个性化研究的基本问题包括个性化的具体应用、用户模型的创建 和表示、协作与单独过滤、系统的体系结构以及个性化系统的评估等。 这些问题也是设计一个具体的应用必须要明确的问题,而且它们之间 是互相关联、互相制约的。 应用 实际上,信息检索只是个性化的一个应用而已,个性化用户模型 和其应用是两个相对独立的问题,个性化用户模型可以用于多个应用 领域。主要的应用如:对信息源如电子报纸的定制访问;过滤消息或 者电子邮件:浏览过程的推荐服务:查询和检索:电子商务等等。个 性化的具体应用从大的方面可以分为两类:对资源的个性化入口和过 滤排序。 ( 1 ) 个性化入口就是提供对w e b 或文件系统的个性化“门户”, 主要应用于个性化网站和个性化门户网站,如著名的搜索引擎y a h o o ! 的个性化定制m y y a h o o ! ,它允许用户用简单的主题词或主题词列表来 指定自己感兴趣的主题。个性化入口在电子商务领域更是十分普遍。 另外,流行的i n t e r n e t 浏览器如微软的i e 和n e t s c a p en a v i g a t o r 都 允许以一种个性化的方式组织书签。 ( 2 ) 过滤和排序是个性化研究的焦点。过滤和排序是指对信息、 文档根据用户模型进行相关度的排序,过滤掉相关度小的文档。过滤 和排序是一个提高返回信息与用户需求相匹配的程度( 即精确度, p r e c i s i o n ) 的过程。应用于实际的服务中,形成个性化电子报刊、 u s e n e t 新闻中的过滤系统、浏览和导航中的推荐系统、查找和检索。 另外,在信息查找和检索中,为获得更高的查全率,用户模型也可以 对查询的语义进行扩展。 用户模型的表示、建立和应用 ( 1 ) 用户模型的数据源问题。是指要获得哪些数据,以及如何获 得这些数据,从中可得出用户的个性化特征。 东北师范大学硕士学位论文 获得用户的个性化信息反馈不外乎两种方法:隐式的用户反馈和 显式的用户反馈,前者只是监视用户在w e b 页面的行为,记录用户在 某一页面停留的时间、文档的长度、用户访问的u r l 地址、u r l 路径 的历史,形成日志文件,通过分析该日志文件或由浏览器产生的日志 文件总结出用户模型。这种方法虽然不会对用户产生任何不便,但用 户模型的收敛往往需要一段较长的时间。后一种方法需要用户的直接 参与,由他提供自己的一些信息、对当前文档或页面的评价以及对系 统的评价等。很明显,明确的反馈往往会中断用户的浏览过程,但用 户模型的收敛快,并且能比较准确地反映用户的需要和兴趣。 1 3 本文的主要工作 本文是作者在参与国家自然科学基金项目( 6 9 9 7 3 0 1 2 ) 基 于规划图算法的智能用户接口的研究的研究过程中完成的。 本文研究了层次结构用户兴趣模型的表示、建立的理论和方法, 并用一个原型系统u m s 来实现了用户兴趣建模。本文的工作主要集中 在以下几个方面: l - 在分析了现有w e b 信息个性化中用户兴趣模型表示方法的基础 上,提出一种层次结构用户兴趣模型的表示方法; 2 分析总结了当前能够提供个性化信息服务的系统所采用的用户 兴趣学习算法,提出了一种学习层次结构用户兴趣模型的算法; 3 提出了一种对层次结构用户兴趣模型( 即用户兴趣树) 自动剪 枝的方法; 4 实现了一个用户兴趣建模的原型系统u m s ,在u m $ 中实现了如 下功能: 实时监视用户的浏览行为,对用户浏览的w e b 页所对应的h t m l 文档进行解析,获得其中有用的文本信息: 对所获得的文本进行分词,得到w e b 页面的表示; 建立和更新层次结构用户兴趣模型及对用户兴趣树自动进行 剪枝。 1 4 论文的结构 论文共分五章。 第一章分析了智能信息检索中个性化建模问题,回顾了国内外信 息检索技术和w e b 个性化的相关研究,从而提出了本文研究的主要问 题。 第二章探讨了在个性化w e b 信息服务中用到的相关的用户建模和 机器学习技术。 东北师范大学硕士学位论文 第三章研究了在中文环境下学习用户模型的关键技术,包括解析 h t m l 文档、中文分词及对w e b 文档的聚类分析等。 第四章介绍了原型系统u m s 的具体实现,这个系统以中文的w e b 页面作为实验对象,具体实现了层次结构用户兴趣模型学习算法及对 用户兴趣树自动剪枝的方法。 第五章对全文进行了总结,将原型系统u m s 与目前相关工作进行 比较,总结了本文的特点,并讨论了需要进一步研究的工作。 9 东北师范大学硕士学位论文 第二章用户建模和机器学习技术 2 1 用户兴趣知识的获取 知识可以隐式也可以显式地从用户获取。隐式的知识获取通常是 较常用的机制,因为它几乎不影响用户的正常工作。对用户非侵犯式 的监视能够得到用户在一段时间内的行为数据,通过对这些数据进行 推理,可以得出用户对频繁出现的项目感兴趣的程度。 显式的知识获取要求用户中断正常工作来提供反馈。显式的知识 获取通常能得到具有较高信任度的信息,因为信息是由用户自己提供 的而不是通过间接推理得到的。反馈内容包括项目的相关度、对项目 的感兴趣程度等。 在协作过滤系统中知识可以在一些用户中共享,其他用户的对某 项目的反馈信息可以作为是否为某一个用户推荐该项目的基础。为了 增加训练集的大小,感兴趣的实例可以在相似用户间共享从而提高分 类的精度。当系统允许新用户从其他用户以前的失败或成功的经验中 获取知识时,导航模式( n a v i g a t i o np a t t e r n s ) 也可以用来共享。 2 2 用户兴趣模型的表示 模型的表示分为两种类型,它们并不互相矛盾,基于评价的 ( r a t i n g s b a s e d ) 的表示方法保存每一个用户对可用项目的评价,因 此可以使用关联技术来发现相似的用户。基于内容的表示方法保存每 一个用户感兴趣的具体项目,这样可是使用机器学习技术来发现相似 的用户。 2 。2 1 基于评价的表示 在信息推荐系统中,当收到系统的推荐项目时用户通常会给出他 对所推荐的项目感兴趣程度的反馈信息,这种类型的反馈叫做相关反 馈。 相关反馈可以以显式的方式直接获得,这时系统通过为用户提供 对每一个项目评价的范围得到用户的相关反馈。评价范围的选项通常 是“感兴趣”和“不感兴趣”或者是一个3 个到5 个兴趣度,这样可 以把相关反馈表示为一个被推荐的项目的集合和每一个用户提供的相 o 东北师范大学硕士学位论文 应的兴趣值。以显示的方式所获得的相关反馈通常是不完整的,因为 很多用户不愿意花费时间和精力来提供反馈。 相关反馈也可以以隐式的方式获得,即通过观察用户的行为进行 推理。隐式反馈的问题是为了进行推理而做出的假设经常会引起错误, 例如,用户可能读一个本来认为是感兴趣的文档,当读完之后发现它 并不是自己感兴趣的文档。如果把所有用户读过的文档都当作用户感 兴趣的文档,这很明显会给获取的相关反馈带来错误。 显然,显式的反馈能获得高质量的反馈信息但会打扰用户的正常 工作,隐式反馈获取的反馈信息质量较低但却不会干扰用户。所以个 性化信息服务系统在获取用户反馈信息时必须在二者之间取得一个平 衡。 2 2 2 基于内容的表示 大多数基于内容的分析都是在像w e b 页、报纸或文档摘要这样的文 本文档中进行的,原因是文本文档很容易被分成单个的词,而音频和 视频信息则需要复杂的分析才能得到有用的信息。 ( 1 ) 词频向量表示 在机器学习中最常用的文本的抽象表示形式是词频向量。词包括 单个的词或词组,词频可以是一个词在文档中出现的次数。为了建立 词频向量,应该考虑到文档中的每一个词,词频保存在一个n 维的向 量中,向量的维数是文档中无重复的词的个数。 通常为了处理的效率要降低词频向量的维数。要消除最普通的词 ( 也做停止词) ,因为所有的文档中都包含它们,所以它们几乎没有什 么区分能力,如英语中“a n d ”、“i f ”、“t h e ”,汉语中的“的”、“地”、 “得”等。通常是根据停止词列表消除停止词,即消除所有与停止词 列表中的表项相匹配的词。还要消除低频词,因为它们也几乎没有什 么区分能力,通常这些词只出现在一个文档中。另一个降低词频向量 维数的技术是提取词根,这包括删除前缀或后缀,从而把相似的词分 成一组。如使用提取词根技术后“r e c o m m e n d e d ”、“r e c o m m e n d a t i o n ”、 “r e c o m m e n d s ”都可以用“r e c o m m e n d ”来代替。 由于词频表示法丢失了文档的结构,所以这种方法又叫做词布袋 ( b a go fw o r d s ) 表示法,正像文献”中所说的一样,句子或段落结 构信息的丢失并没有显著地降低文本后续处理的质量。 ( 2 ) 二类模型表示法 基于内容的个性化信息服务系统中最常用的模型表示方法是二类 东北师范大学硕士学位论文 模型,这种方法把用户的兴趣表示为正例和反例的集合。正例或“感 兴趣的”实例表示为用户已经标记为感兴趣文档的词频向量的集合。 反例或“不感兴趣的”实例也用类似的方法表示。这种二类表示法适 用于大量的机器学习技术。 由于在获取正例和反例的集合时需要相关反馈,所以在系统中还 要有基于评价的模型。 ( 3 ) 基于本体的多类模型表示法 除了二类表示法之外还有多类表示法,这种方法不是只有正反两 类,可以创建类的本体,本体对应于领域中的概念,如报纸的主题“运 动”。这样用户模型可以用他最感兴趣的类来表示,这个类是从用户感 兴趣的具体的实例中抽象概括出来的。当得到相关反馈时,根据本体 中的类对感兴趣的实例进行分类,从而记录用户对该类的兴趣。 多类分类l k - - 类分类复杂得多,由于类多于两个,所以会减少每 个类中实例的个数,这样就会降低所使用的机器学习技术的精确度。 另外,由于类是在用户问共享的,这将丢失每一个用户特有的兴趣信 息,而二类表示法中每一个用户都有自己独立的实例集合。大多数的 本体是由知识工程师和领域专家手工建立的。这样他们获取某一领域 中相关的类和类之间的关系。可以使用聚类机器学习算法自动建立类。 聚类发现相似的词频向量,把这些向量分成一组,从而形成一个类。 然而通过聚类创建的类没有使用相关的领域知识,从而给推理带来了 困难。 2 2 3 基于知识的模型表示法 在用户建模文献中也出现了基于知识的模型表示法。通常这些方 法要向用户提问,与用户交流,从而在建立用户模型之前得到了用户 需求信息,模型由知识库中用户所声明的事实组成,对这些事实进行 推理就可以得到用户模型和用户兴趣。基于知识的模型通常用在与 a g e n t 或智能的导航系统相关的领域,文献8 1 对用户建模和模型的表示 进行了详细的介绍。 2 。3 建模技术 2 3 1 时间衰减函数 时间衰减函数( t i m e d e c a yf u n c t i o n s ) 是一个简单的建模技术, 1 2 东北师范大学硕士学位论文 它既能够应用到基于内容模型表示中也能应用到基于评价的模型表示 中,只要它们包含时间戳信息。这个技术定义了一个加权函数,这个 函数包含一个与时间相反的权值,这样旧的信息要比新的信息有较低 的相关度。这个加权函数应用到评价值、词权或类兴趣值中。 由于时间衰减函数的性质简单,所以它能够成功地应用到非常复 杂的模型中,在这些复杂的模型中可能存在多个模式,而且证据可能 不完整。 时间衰减函数的定义如下: , w “) :y 掣 ( 2 1 ) 。i “。t a , w ( t 。) :时间衰减后词f ,的权值 f ,:第i 个词 n :文档的个数 t f ( t 。,d ,) :词六在文档d ,中出现的次数 d :第j 个文档 a g e ( d1 :第j 个文档的时间长度 2 3 2 皮尔森相关算法 在基于评价的模型表示法中经常使用皮尔森相关( p e a r s o n r c o r r e l a t i o n ) 算法来为特定的用户找到相似的用户。皮尔森相关算法 找到不同用户对同一项目的评价之间的关系。具有最高皮尔森相关值 的用户和目标用户有最相似的评价。 皮尔森相关值的计算公式如下: r 删= k :用户x 和用户y 之间的皮尔森相关值 n :评价的数目 1 3 ( 2 2 ) 东北师范大学硕士学位论文 u ,:用户x 的第i 个评价 u ,:用户x 的平均评价 约束皮尔森相关值的计算公式如下 、 ( 【,。一p ) 。一p ) k :用户x 和用户y 之间的皮尔森相关值 n :评价的数目 u ,:用户x 的第i 个评价 b :约束值 ( 2 3 ) 皮尔森相关算法从每个用户的平均评价中计算评价的偏差,从而 调整评价的偏好,如某些评价的给出用户总是给出很高的评价。如果 评价没有偏好,那么可以使用约束皮尔森相关算法,b 是一个系数, 表示“好”评价的域值。在皮尔森相关算法中开始的结果很差,当有 足够多的能够得出明显关系的评价之后效果就会很好。 2 3 3 其它的建模技术 其它的建模技术包括时间序列建模算法,如片段表示和曲线拟合 函数,片段表示一,把时间序列模型分裂成片段,把最新观察到的数据 与以前的片段进行匹配。根据最相似的片段对以后的行为做出预测。 与数学多项式的方法类似,曲线拟合方法对以前所观察到的行为进行 建模,并使用这些模型预测将来的行为。 也有一些基于知识的建模技术,这些方法通过交流或问卷的形式 获取用户喜好和经验知识,并对这些知识进行建模保存到知识库中。 然后向用户询问上下文的信息,并从已知的领域知识中推理预测用户 的行为。 2 4 机器学习技术 根据机器学习技术是否要求有一个己标记的样本集合可以把它们 查些堕蔓查兰堕主兰垡堡苎 分成两类:监督学习与无监督学习。监督学习把一个已标记好的实例样 本集作为新实例分类的基础,这个己标记好的实例样本集叫做训练集; 由于在无监督学习中类是从无标记的样本中产生的所以它不使用训练 集 监督学习避免了由于自动产生类所导致的错误,所以它是比较精 确的。然而标记一个训练集需要花费大量的时间,通常都是手工完成 的。 大多数机器学习算法都是处理二类的情况,然后泛化为处理多类 的情况。只有少数的算法旨在处理多类的情况。 2 4 1 数据挖掘 因为用户行为的数据集很大,所以可以使用数据挖掘技术来发现 行为模式。a - p r i o r i “”算法就是其中的一个例子,它从像超市销售 数据这样的事务数据所组成的大数据集中学习关联规则。 在关联规则的挖掘中有如下一些基本的概念m ,: 项集( i t e m s e t ) :项的集合。 k 一项集:包含k 个项的项集。 项集的出现频率:包含项集的事务数,简称为项集的频率、支持 计数或计数。 项集满足最小支持度:项集的出现频率大于或等于最小支持度与 数据库事务集合中事务总数的乘积。 频繁项集:如果项集满足最小支持度。 a p r i o r i 算法是一种最有影响的挖掘布尔关联规则频繁项集的算 法。算法的名字基于这样的事实:算法使用频繁项集性质的先验知识, a p i o r i 使用一种称作逐层搜索的迭代方法,k 一项集用于探索( k + 1 ) 一 项集。首先,找出频繁1 一项集的集合。该集合记作l l 。l 1 用于找 频繁2 一项集的集合l2 ,而l 2 用于找l3 ,如此下去,直到不能找到 频繁k 一项集。找每一个l k 都需要一次数据库扫描。 2 4 2 信息论方法 词频一反文档( t f i d f ) 是推荐系统中最流行的信息论方法,其计 算公式如下: w ( t 。,d j ) = 矿( r 。,d j ) + l o g 丽n ( 2 4 ) 东北师范大学硕士学位论文 w ( t 。,d ,) :词r ,在文档d j 中的t f i d f 权值 f ,:第i 个词 d ,:第j 个文档 t f ( t ,) :词t i 在文档d ,中出现的次数 m 文档的个数 a f ( t ,) :包含词r ,的文档个数 使用这种加权方法的分类器选择的词在文档中有较高的频率值, 并且只出现在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论