




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于增量学习和阈值优化的自适应信息过滤.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
人连理工大学硕士学位论文 摘要 互联网上电子信息的迅猛膨胀带来了信息过载问题,信息过滤技术能够帮助人们检 出感兴趣的相关信息或者屏蔽非法信息。面对实时在线的网络信息过滤新挑战,自适应 信息过滤只需少量的用户需求信息并在过滤过程中自主学习、自适应提高而成为人们关 注和研究的热点。本文的主要工作就是研究自适应信息过滤中提高模板准确性的学习算 法和过滤阈值优化的新方法。 论文给出了一种改进的自适应信息过滤模型,该模型将统计模型( 向量空间模型) 与 概率方法( 贝叶斯方法) 相结合,通过在向量空间模型中对信息文本与用户需求进行向量 表示和相似度计算来实现信息过滤。在需求模板的学习中运用向量中值法来构建初始的 需求模板,通过增量学习伪相关反馈信息来提高需求模板的准确性。在过滤过程中以用 户反馈信息为先验知识和训练数据,运用高斯指数分布和贝叶斯方法来推测文档的相关 性概率,以线性效用函数最优为目标探测最优的过滤阈值。 在模型的训练阶段,本文给出了运用增量学习方法对附加的少量伪相关文档进行学 习束训练需求模板的算法,采用文档词频方法束选择特征,运用r o c c h i o 算法调整特征 向量,以此提高过滤模板的准确性;在模型的测试阶段,以过滤系统效能函数最优为目 标,给出了探索最优的过滤阈值的新算法。运用r o c c h i o 算法实现系统自主地学习用户 定期反馈的信息,并自适应地调整需求模板。 将该模型运用于自建的中文语料上进行相关主题的过滤测试实验,实验结果表明, 利用增量学习方法和阈值优化策略,在较少的用户监督下能够有效地提高系统的过滤性 能。 关键词:自适应信息过滤;伪相关反馈;增量学习:阈值优化;r o c c h i o 算法 人连理工大学硕士学位论文 a d a p t i v ei n f o r m a t i o nf i l t e r i n gb a s e d o ni n c r e m e n t a ll e a r n i n ga n d t h r e s h o l do p t i m i z a t i o n a b s tr a c t w i t ht h ea m o u n to fo n l i n ei n f o r m a t i o ng r o w i n gr a p i d l y ,p e o p l ew e r es u r r o u n d e db yt h e i n f o r m a t i o no v e r l o a dp r o b l e m i n f o r m a t i o n f i l t e r i n g f o c u s e so nt h i si s s u ea n dr e t r i e v e i n f o r m a t i o nr e l e v a n tt ot h eu s e r s s p e c i f i cr e q u i r e m e n t s i no r d e rt om e e tw e b - b a s e do n - l i n e t i m e - c r i t i c a li n f o r m a t i o n f i l t e r i n gn e e d s ,a d a p t i v e i n f o r m a t i o n f i l t e r i n g w a sp a i dm o r e a t t e n t i o nb yr e s e a r c h e r s ,w h i c hr e q u i r e sl i t t l ei n f o r m a t i o na b o u tu s e r s i n t e r e s t st oc o n s t r u c t t h ep r o f i l e a l o n gw i t ht h ef i l t e r i n gp r o c e s s ,a d a p t i v ei n f o r m a t i o nf i l t e r i n gc a nl e a r na c t i v e l y f o r mu s e r sp e r i o d i cf e e d b a c ka n da d a p ti t s e l ft op r o d u c et h eh i g hp e r f o r m a n c e t h em a i n w o r ki nt h i sd i s s e r t a t i o ni st os t u d yt h en e wa l g o r i t h mo fp r o f i l el e a r n i n ga n dn e wa p p r o v a lt o o p t i m i z et h ed i s s e m i n a t i o nt h r e s h o l d t h ep a p e rp r o p o s e sa ni m p r o v e da d a p t i v ei n f o r m a t i o nf i l t e r i n gm o d e l ,w h i c hc o m b i n e d t h es t a t i s t i c a l m o d e l ( v e c t o rs p a c em o d e l ) w i t hp r o b a b i l i t ya p p r o a c h ( b a y e s i a ni n f e r e n c e m e t h o d ) d o c u m e n t so fi n c o m i n gs t r e a ma n du s e rt o p i cd e s c r i l :i t i o nw e r er e p r e s e n t e da n d m a t c h e di nt h ev e c t o rs p a c em o d e l i n i t i a lp r o f i l ew a sc o n s t r u c t e db yt h ev e c t o rm e d i a n m e t h o d n e wm a c h i n el e a r n i n ga l g o r i t h mw a sd e s i g n e dt og e tt h ea c c u r a t ep r o f i l ev i at h e p s e u d or e l e v a n tf e e d b a c k g a u s s i a na n de x p o n e n t i a ld i s t r i b u t i o nm o d e lw a ss e t t og e tt h e d o c u m e n tp r o b a b i l i t yo fr e l e v a n to v e rt r a i n i n gd a t aw h i c ha f f o r d e df r o mt h eu s e rp e r i o d i c f e e d b a c k b a y e s i a ni n f e r e n c eb a s e do nl i n e a ru t i l i t yf u n c t i o nt oe x p l o r a t i o nt h eo p t i m i z a t i o n t h r e s h o l d a tt h et r a i n i n gs t e po fm o d e l ,i n c r e m e n t a ll e a r n i n ga l g o r i t h mu s i n gp s e u d or e l e v a n t f e e d b a c kw a sp r e s e n t e di nt h i sd i s s e r t a t i o n f e a t u r e s e l e c t i o nm e t h o db a s e do nd o c u m e n t f r e q u e n c i e sw a si n t r o d u c e dt op i c kt h ei n f o r m a t i v et e r ma l o n ew i t ht h ep r o f i l el e a r n i n g o n t h et e s ts t e p ,n e wm e t h o dw a si n t r o d u c e dt oe x p l o r a t i o nt h ed i s s e m i n a t i o nt h r e s h o l d a n i n c r e m e n t a lr o c c h i oa l g o r i t h mw a si n t r o d u c e dt oa d a p tp r o f i l ev e c t o rb a s e do nt h eu s e r p e r i o d i cf e e d b a c ki n f o r m a t i o n n e wm o d e lr e c e i v e dag o o dp e r f o r m a n c eo nt h ec h i n e s ec o r p u s e x p e r i m e n tr e s u l t s i n d i c a t et h a ti n c r e m e n t a ll e a r n i n ga n dt h r e s h o l do p t i m i z a t i o na r ee f f e c t i v ei nt h ea d a p t i v e i n f o r m a t i o nf i l t e r i n g k e yw o r d s :a d a p t i v ei n f o r m a t i o nf i l t e r i n g ;p s e u d or e l e v a n c ef e e d b a c k ;i n c r e m e n t a l l e a r n i n g t h r e s h o l do p t i m i z a t i o n 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 i ,j, 作者签名:尘篁坠日期:生垒! :! 大连理丁大学硕士学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 文。 作者签名:孑位 导师签名:垄! 立挺, 丝! 年上月日 大连理工大学硕上学位论文 1 绪论 1 1 信息过滤研究的背景 随着计算机技术、网络通讯技术的飞速发展与因特网的不断深入普及,各种媒体电 子信息大量涌现出来并在互联网上快速传播,使得网上的信息量急速膨胀增长,出现了 所谓的“信息爆炸”时代。一方面,因特网上的信息呈几何级数增长,大量的数字数据 信息充斥其间,使得网络蕴涵了丰富的信息资源,形成个庞大的信息库。然而,在浩 如烟海的信息海洋巾人们很难找到自己真f 需要的信息,出现了所谓的“信息过载”和 “信息迷向”现象,人们无从得知获取自己所需要的信息,面对网络变得无所适从。于 是如何帮助人们从庞大的信息海洋中快速找到自己所需要的信息,成为信息处理专家所 热切关注的焦点。另一方面,网上信息良莠不全,一些涉及反动、色情、暴力和邪教等 不良内容的信息在网上传播着,大量的计算机病毒以电子邮件等形式乘虚而入,这些都 时刻威胁和侵扰人们的信息安全。人们在享受网络信息带来的便捷服务时又被大量的无 用的垃圾信息所包围着,如何过滤屏蔽掉这些非法的不良信息,保护用户的信息安全和 合法权益,成为信息时代构建网络安全的当务之急。 与此同时,伴随着时代的发展和科学技术进步,人们对信息存取技术提出了更高的 要求。早期的搜索引擎由于查找信息的智能性很差,不能通过人机交互和信息反馈来获 取用户个性化的信息,也就难以提高系统获取用户个性化信息需求的准确性和服务的质 量。另外,在瞬息万变的信息时代,新的知识信息层出不穷,一些系统不能主动地将用 户最关心、最需要的最新信息并及时地推送给他们,使得信息服务的内容滞后,信息内 容失去使用价值,而这些信息数据的存在和增多,不仅占据大量的网络空间,而且阻碍 着人们获取信息的渠道,加重了人们信息获取的负担。当前,许多信息产业开展了种类 繁多特色化的信息增值服务,应用各种技术来挖掘网络信息资源的潜力。所有这些,推 动着人们对信息过滤研究工作的展开和深入发展。 1 2 信息过滤的概念,分类和评测 信息过滤( i n f o r m a t i o nf i l t e r i n g ,i f ) 是计算机根据用户相对固定的信息需求,从动态 的信息流中检索出满足用户个性化需求的信息【卜2 1 。它通过构造表示用户信息需求的模 板,一般称之为p r o f i l e ”j ,通过相应的匹配技术从信息流中将用户最需要的信息推送给 他们;而且系统根据用户的反馈信息,不断地调整用户需求模板,使其更加准确地表示 用户的真实信息需求,不断地提高其过滤性能。 王金宝:基于增量学习和闽值优化的白适应信息过滤 信息过滤根据内容来分,可分为基于内容的信息过滤和基于协作的信息过滤。基于 内容的信息过滤主要是用户的需求模板( u s e rp r o f i l e ) 3 】和文档的相关度计算都来自信息 文本内容,而基于协作的信息过滤则是通过一个群体内用户个体问相互联系组织关系来 实现信息过滤。目前研究的重点大多都集中在基于内容的信息过滤。由于网络信息数据 大多数是以文本形式存在,所以信息过滤主要指的是文本过滤。 著名的国际文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 将信息过滤作为其重要 任务评测之一,每年组织国际性的评测和学术交流会议,鼓励对于信息过滤的研究,因 此吸引了许多研究机构和团体参加,并且成为这一领域研究的权威。t r e c 中的信息过 滤主要面对的是基于内容的信息过滤。并将信息过滤任务细分为三个子任务【3 j ,自适应 过滤( a d a p t i v ef i l t e r i n g ) ,批过滤( b a t c hf i l t e r i n g ) 滤和分流( r o u t i n g ) 过滤,每年召开相关 主题的评比会议,提供公共的数据和评估系统,以便促进对于信息过滤的相关研究和技 术运用。 1 3 自适应信息过滤 早期的信息过滤研究主要针对用户“长线”、固定的信息需求,并将文本流信息内 容视为用户感兴趣和不感兴趣两种,侧重于提高过滤系统中二值分类器的性能,这和文 本分类有些相似。它需要大量的训练数据来训练过滤器,并且需要用户大量参与交互来 提供文档的相关信息,很难适应用户当前在线的主题需求,也不太接近现实信息过滤需 要。随着信息技术的进步和人工智能技术的发展,人们转向接近现实、更加智能性的自 适应信息过滤研究。第六届国际文本检索大会( t r e c 6 ) 中专门提出了自适应过滤 ( a d a p t i v ef i h e f i n g ) 的任务及其评测【4 j 在第七届t r e c 大会中将信息过滤细分为三个子 任务,并且突出自适应过滤的重要性1 5 l 。 在自适应信息过滤( a d a p t i v ei n f o r m a t i o nf i l t e r i n g ,a i f ) “o 中,一开始,系统只有主 题需求描述文档和少量的样例,没有训练数据。系统顺序扫描文本流中的每个文档,将 检出的文档推送给用户的同时得到用户的相关反馈信息,在过滤同时,系统自主地学习 用户反馈信息并观察文档流中每个文档,自适应地调整过滤策略,使得需求模板更加准 确地反映用户真实的信息需要,以此提高系统的过滤性能。 自适应过滤强调系统面对用户需求和信息流变化时的系统学习和自适应能力,通过 机器学习用户的定期反馈信息和文档流中文档的变化信息,来减少用户的过多参与,增 强系统的自主性和适应性,以此提高系统过滤的准确性,更加接近真实的现实需要而受 到重视。 火连理上人学硕士学位论文 在t r e c 所有的评测任务中,t r e c 将信息过滤任务分为三个子任务,自适应过滤, 批过滤和分流过滤,其中批过滤和分流过滤基本上是一个分类过程,主要通过充分的训 练来获取较好的过滤模板,以此提高系统的过滤性能。而在自适应信息过滤中,通常它 只提供两三个正例,没有训练集。系统根据有限的信息尽可能准确地构造用户需求模板 ( u s e r p r o f i l e ) ,并按顺序扫描测试集中的文档,选择出相关的文档推送给用户,并自主地 学习用户的反馈信息自适应地修改用户模板和检出阈值。所以,自适应过滤的整个过程 是一个不断学习和自我调整的自适应过程,系统最终获取真实的用户需求模板,并不断 推送给用户最满意的信息。 1 4 研究的现状和当前研究的重点 1 4 1 国内外研究的现状 自从1 9 5 8 年l u h n 提出“商业智能系统”概念后,涉及信息过滤各个方面的研究工 作开始展丌。1 9 8 2 年d e n n i n g 首次提出了“信息过滤”的概念,在他描述的信息过滤例 子中,可以通过“内容过滤器”可以识别出紧急邮件和一般邮件,以此提示对接收到的 信息内容进行有效控制。1 9 8 7 年m a l o n e 等将信息过滤细分为认识,经济和社会三种信 息过滤模式。认识模型也就是现在的基于内容的信息过滤,社会就是基于协作的信息过 滤。1 9 8 9 年,美国消息理解大会( m e s s a g eu n d e r s t a n dc o n f e r e n c e ,m u c ) 将自然语言处理 技术引入到信息过滤的研究中来,使得信息过滤的研究取得了长足的发展。1 9 9 1 年美国 新泽西建立第一个信息过滤实验室,开展信息过滤与信息检索关系,信息过滤方法和结 构的研究。1 9 9 2 年美国的d a r p a ( i 虱防部高级研究计划局1 和n l s t ( 美国国家标准和技 术研究所) 联合组织的文本检索会议( 违c ) 将信息过滤作为其任务之一,吸引了许多知 名高校和科研单位与公司积极参与,丌始了国际范围的信息过滤的研究浪潮。1 9 9 7 年, t r e c 将信息过滤细分为自适应过滤( a d a p t i v ei n f o r m a t i o nf i l t e r i n g ) 、批过滤( b a t c h f i l t e r i n g ) 和分流( r o u t i n g ) 过滤,使得对信息过滤的研究和测试更加深入。 随着研究的深入发展,其他领域的许多技术应用到信息过滤的研究中来,例如信息 检索中的相关反馈和查询扩展优化技术,文本检索中的向量空间模型和标引技术,文本 分类和聚类技术,机器学习和神经网络技术以及自然语言处理技术都引用到信息过滤中 来了,这些促使研究者在信息文本与需求模板表示,过滤匹配技术,用户反馈信息学习, 系统自适应调整和系统性能评测等方面展开了深入的研究,取得了宝贵的经验和成果。 所有这些,推动着信息过滤理论研究与技术应用的不断成熟与完善。 国内对于信息过滤研究起步较晚,但是发展很快,清华大学、复旦大学、中科院和 微软亚洲研究院等一些科研机构较早地开展了信息过滤技术的研究,并参与每年的 王金宝:基于增量学习和闽值优化的自适应信息过滤 t r e c 国际评测与学术交流大会, 多宝贵经验。 1 4 2 研究的技术路线 信息过滤的研究与技术实现, 种是基于理解的方法【1 1 12 1 。 取得了较好的成绩,在信息过滤的研究方面积累了许 主要分为两大技术路线,一种是基于统计的方法, 基于统计的方法,也就是“经验主义”方法,主要是以概率统计和信息论理论为基 础,用统计的方法从训练语料库中获取知识( 构造模型和估计参数) ,实现对未知信息内 容概念的认知。这种方法的优点是过滤速度快,简单方便易于实现,而且不依赖于具体 的语言领域和语种。但是这种方法只停留在信息内容的量化上,不能深层次地理解文本 信息所表达的主题思想,脱离了语言现象的概念内涵和语义约束,因而要取得较高的过 滤性能具有难度。 基于理解的方法,也就是“理性主义“,主要是以自然语言理解技术,人工智能技 术,语言学方面的知识来理解信息内容。它以具休的语言知识为基础,通过句法分析和 语义分析来提示信息内容和知识现象的深层含义。它通过短语结构规则生成语法知识, 自顶向下或自底向上地对句子进行分析生成句法树,以此分析信息内容的知识内容。这 种方法的优点是过滤精度高,句子分析技术比较成熟,但是分析过程相对复杂,难于应 对段落和篇章节的信息处理,依赖于具体的语言领域知识库支持。 由于基于理解的方法实现起来比较繁杂,一些相关的信息处理技术还不太成熟,当 前人们采用了将基于统计的方法和基于理解的方法相结合的趋势,主流的作法是在统计 方法的基础之上进行浅层的句法分析和语法、语义分析,以此提高系统的过滤性能。 1 4 3 当前研究中的难点和重点 当前对于信息过滤研究主要集中在如何获取用户信息模板及文本的表示,采用的信 息过滤模型,匹配技术和用户反馈信息的学习等方面盼1 5 】。信息过滤研究中的主要难点 在于如何将特征( t e r m ) 的选取与信息内容的表示从信息内容的表层形式深入到信息内容 的内涵上来,在基于统计的以关键词为特征的向量空间模型上突出地表现出特征的选择 和文本的表示偏重定量表述,缺乏语义关联的问题。而要实现以语义分析为主的概念空 间上的信息过滤,则是由于相关的自然语言处理相对复杂而难于实现,目前采取浅层的 句法分析和语法分析来实现信息内容语义概念的表示和匹配约束的探索取得了一些进 展。 信息过滤的另一难点是过滤模板的调整和扩展,目前主要是通过机器学习的方法来 提高模板的准确性。通常的做法是在大量足够的训练语料上获耿较为准确的模型及其参 大连理丁大学硕士学位论文 数,在测试集上通过学习用户的显式信息( 相关反馈信息) 或者用户隐式信息( 在线行为) 来学习用户的需求偏好,调整过滤模板p r o f i l e ,选择最能反映用户当自可信息需求的特征 项,调整其权值向量,使得过滤模板不断接近用户的真实需求,以此提高系统的过滤准 确性。 自适应信息过滤系统由于在过滤中具有较强的自适应性而倍受青睐,也成为当今研 究和发展的新趋势。自适应过滤强调系统过滤中的自学习和适应能力,系统初期,只提 供少量的用户需求信息描述( 主题t o p i c 的标题和描述以及两三个正例) ,所以,在过滤初 期如何准确地表示用户的信息需求是一个研究热点,当前主流的方法是在训练阶段附以 少量的“伪”正 谬1 ( p s e u d o p o s i t i v es a m p i e s ) i l l 练样本,通过让机器学习这些伪正例样本, 获取更多的特征项来扩展主题特征,构造准确的信息需求初始模板1 “。在测试集上,通 过学习用户的反馈信息来调整用户模板,适应用户的信息需求变化,使其更加接近用户 的真实需要,当前主要是通过机器学习用户的相关反馈信息,发现最能反映用户当前需 求的特征项并加入到模板表示中去,调整模板特征的权值向量,适时地适应用户的信息 需求,将用户最需要蛇信息推送给用户,提高系统过滤的性能。 自适应过滤还有一个难点就是如何实现检出阈值的优化,快速而准确的形成一个二 值过滤决策,将用户最关心和信息推送给他们,剔除无关信息。这包括合理地设置初始 阈值和对过滤闽值进行调整,以适应信息流的变化和用户兴趣偏好的转移。在以机器学 习为主的自适应信息过滤中,阈值优化是一个重要的问题,它直接关系到系统的过滤决 策和过滤性能。目前采用的学习用户的相关反馈信息,用基于效用指标优化的期望模型 和正例分布密度方法来实现闷值的估计和调节虽然效果很好,但是求解过程计算相当复 杂,闽值调节具有明显的偏向性,缺乏阈值探测能力,面对变化的信息需求和不稳定的 信息流反应不灵敏1 5 ”2 1 。 1 5 论文的重点和研究方法 1 ,5 1 研究重点 当前基于内容的信息过滤是信息过滤技术研究中的重点和核心,每年的t r e c 过滤 任务也是侧重于基于内容的信息过滤评测的研究。在t r e c 会议评测中,信息过滤任务 被分为三个子任务:自适应过滤( a d a p t i v ef i l t e r i n g ) ,批过滤( b a t c hf i l t e r i n g ) 和分流 ( r o u t i n g ) ,批过滤和分流都是在大规模的训练文档集上构建用户的需求模板( p r o f i l e ) ,类 似于一个文本分类的过程,只是在批逮滤中,要求系统对于信息流中的每个文档立即确 定接收还足剔除,分流则要求对文档按得分排序后输出。这两种过滤任务的算法和过程 在自适应过滤中都有体现,特别是自适应过滤更强调系统在过滤中学习的自主性和自适 王金宝:基丁增量学习羊u 闽值优化的白适应信息过滤 应性,更加接近于真实的现实需要而受到关注,因此本论文以自适应过滤为研究目标, 研究的重点是: ( 1 1 在白适应信息过滤的初始化阶段,如何获取较为准确的用户信息需求模板和初 始化阈值是本文研究的一个重点。自适应过滤的一开始,系统只有用户需求信息的描述 文档和少量的几个证例,过滤中没有其他知识和资源利用。因此,如何获取较为准确的 用户初始模板和初始阈值是问题的关键,当前主要的方法是对用户信息需求描述文档和 正例进行特征选择形成初始模板,然后对特征空间进行概念扩展和重构。以此获取较为 准确的需求模板。在此基础上,应用提供的正例进行模板训练,获取模板特征向量的权 值和初始过滤阈值。 ( 在自适应过滤过程中,研究的重点是,面对动态的文档信息流,系统如何自主 地学习用户的反馈信息,实现自适应地调整过滤模板和过滤阈值,从而使系统从一个较 低的过滤过滤阶段发展到一个较高而稳定的水平。在自适应过滤中,系统学习用户的相 关反馈信息和探测文档流的变化的能力非常重要,直接影响到需求模板与过滤阈值的学 习调整,也关系到系统的过滤性能。面对信息流中的每一个文档,如何准确而快速地形 成过滤决策,实现信息文档的快速分发,以此提高系统的过滤效率,适应当前在线实时 的过滤需求。而基于效能最优的检出阈值优化,是形成准确的过滤决策的关键,最终将 用户真f 需要的文档护送给用户。 1 5 2 研究方法 我们的研究方法是: ( 1 ) 以成熟的向量空间模型为自适应信息过滤系统模型,通过附加少量的伪相关文 档集来扩展特征向量空间,将增量式迭代学习方法运用到模板的训练阶段,通过机器学 习“伪”相关反馈信息,自主地对需求模板进行扩展和优化,不断提高模板的准确性。 ( 2 ) 运用用户的相关反馈信息,研究新的改进过滤模板的机器学习方法。在自适应 过滤中,让机器自主地学习用户定期反馈的相关信息,同时系统自主地学习累积文档中 的信息,自适应地提高系统过滤模板的准确性,以此提高系统的过滤性能。 ( 3 ) 将期望模型和文档流正例统计方法想结合,通过贝叶斯方法来推测文档的相关 性,探索一种以最优效能指标主导的闽值优化新方法,使得系统适应信息流的分布变化, 自适应地进行需求模板和过滤阈值的学习与调整。 大连理工人学硕十学位论文 1 6 本文所做的具体工作 为了实现在真实语料环境下探索提高自适应信息过滤的新方法,我们以因特网上的 在线信息为语料来源,通过提取w e b 网页的文本信息,通过手工标注和整理,建立了相 关主题( 5 个主题1 语料库。 在相关主题的样本集上通过对各种文本特征选择方法进行比较,选择了以改进的 t f i d f 算法作为选择文本特征,应用向量中值法来构建初始模板。 在附加的少量训练集上应用增量式迭代学习方法,通过学习“伪”相关反馈信息来 扩展需求模板,运用改进的文档词频方法来抽取特征词,采用改进的r o c c h i o 算法来调 整模板特征权值。通过对单次反馈和多次反馈的训练方法进行比较,以实验结果说明用 在“伪”相关训练集上进行增量式学习的明显的优势。 在测试集上以过滤系统效能最优为目标,将统计概率模型和正例分布方法相结合, 提出了探索求取最优过滤阈值的新算法,并用实验证明方法的有效性。 对r o c c h i o 学习反馈算法进行改进,提出了一种运用用户相关反馈信息来增强模板 准确度,提高过滤性能的新方法。 1 7 论文的组织 论文共分五部分,第一部分对自适应信息过滤的研究背景,当前研究的重点和我们 的工作进行了介绍,其他部分组织如下: 第二部分介绍了我们给出的自适应信息过滤新模型,阐述了自适应信息过滤的整个 流程及其我们对此改进的方法。 第三部分论述了在模型的训练阶段,应用增量学习方法学习伪相关反馈信息来训练 模板、采用改进的特征选择方法来扩展需求模板,以此提高模板的准确性。 第四部分介绍了在模型的测试阶段,应用新算法来自主学习用户定期反馈的相关信 息,自适应调整需求模板和过滤阈值。 第五部分对本文所做的实验方法进行介绍,并对实验结果分析进行分析,最后对本 文进行总结,提出了一下步改进的新设想。 王金宝:基于增量学习和闽值优化的自j 置叠信息过滤 2 自适应信息过滤 2 1 自适应信息过滤概念和特点 2 1 1 自适应信息过滤概念 自适应信息过滤( a d a p t i v ei n f o r m a t i o nf i l t e r i n g ,i f ) 是针对用户的一个主题信息需求 p r o f i l e ,顺序扫描动态文本流中的每个文档,按照某种准则筛选出满足用户需求的文档, 并依次推送给用户。过滤过程中系统适应环境的变化,学习用户的相关反馈信息,观察 过滤后文档的分布变化,自主地调整用户的需求模板和过滤阈值,从而使得推送的文档 更加符合用户的真实需求【1 6 1 。在自适应信息过滤中,用户的信息需求在一定时间内是稳 定的,面对动态的文档信息流。一方面,系统自主地学习用户的定期相关反馈信息,自 适应地调整过滤模板和过滤阈值,将用户最需要的信息推送给他们。另一方面,系统自 主地学习累积文档( 用户段时间内相关反馈信息的集合) ,自适应地调整过滤决策。所 以,自适应过滤系统的核心就是发挥用户相关反馈信息的潜力,促使系统不断提高其过 滤性能。 2 1 2 自适应信息过滤的特点 自适应信息过滤与传统的基于内容的信息过滤相比,更加适用于当前在线的实时性 信息需求,有以下特剧。 ( 1 ) 只有少量的正例文档,没有训练集。与传统的文本分类和信息过滤相比,在自 适应过滤中,为了接近真实的信息需要,只是提供需求的描述( 在也c 中仅提供主题 t 0 d i c 标题( t i t l e ) 及其详细描述( d e s c r i p t i o n 和n a r r a t i v e ) ) ,数据部分只提供两三个正例及测 试集,没有提供大量的训练数据,这和传统的信息过滤不同,传统的基于内容的信息过 滤系统基本上是一个二值分类的过程,它需要在大量的训练集上进行过滤器的训练,获 取较为准确的需求模板后才在测试集上进行过滤。 ( 2 ) 自适应信息过滤系统中,强调系统的自适应调整与学习能力。自适应信息过滤 中除了提供主题信息外,般很少提供训练数据,但是对于每个过滤文档却提供用户的 相关反馈信息。其目的就是使过滤系统从一个性能较低的起点出发,适应需求的变化, 充分学习用户的相关反馈信息,不断调整过滤模板和闽值,提高过滤性能的过程。 f 3 1 与信息检索相比,自适应信息过滤面对两种变化的信息环境,白适应地调整过 滤模板和检出阈值,不断地提高其过滤性能。这两种变化的环境是:用户信息需求( 接 收方) 与文档流的变化( 发送方) 。 人连理工大学硕十学位论文 ( 4 ) 与信息检索相比,自适应信息过滤中信息源是动态的,不需要对输出文档进行 排序,只是对文档按照过滤决策决定推送还是剔除。 ( 5 ) 自适应过滤中人机交互具有重要的作用,系统定期学习用户的相关反馈信息, 掌握用户的兴趣偏好变化,及其地调整过滤模板,使其更加真实地反映用户的需求 ( 6 ) 自适应过滤系统中,最突出的是运用效用函数来评估过滤结果,系统的过滤效 果越好,效用函数值越大。 2 2 自适应信息过滤模型 在t r e c 中,自适应信息过滤是基于内容的信息过滤的重要子任务,现有的自适应 信息过滤的研究侧重于过滤中系统的自主学习和自适应能力,这也是当前信息过滤研究 的重点。信息过滤和信息检索有着不可分割的联系,它借鉴了信息检索中文档和信息需 求的表示方法等许多技术。信息过滤模型主要有布尔模型,向量空间模型和概率模型等 f ”删,其中成熟的向量空间模型得到广泛的应用。 2 2 1 布尔模型 布尔模型( b o o l e a nm o d e l ) 是最简单的检索模型,它是根据用户提交的检索条件与信 息文档运用布尔逻辑关系进行匹配,将符合条件的文本推动给用户。布尔模型将查询条 件g 和信息内容中的各个特征k i 根据布尔函数用一个布尔二值变量t r u e ,向s e 来表示, 例如特征的权值函数: w r i = w e i g h t 叫触t r u e 7 ,1 。如警p 眨, 在文档的表示中,用一组标引特征词来表示文档,并用标引关键词的出现与否来构 建文本的信息内容,查询式则用标引特征词的逻辑组合来表示,并用括号表示优先次序。 通过布尔逻辑操作运算将查询和信息文档进行匹配检索。这一模型形式化为: s ;m ( d j , q ,= 茹 如黝。在q 。中 否 ( 2 2 ) 由于其速度快,简单,易于实现而在六、七十年代广泛应用,但是它只靠关键词的 逻辑匹配,无法体现关键词特征项对信息内容的贡献大小,也无法对信息文档的重要性 进行量化排序,无法控制检出文档的数量,而且用户必须熟悉布尔逻辑运算等缺点,很 难自动进行相关反馈学习来调整查询条件,为了弥补这些缺点,随后出现了扩展的布尔 王金宝:基于增量学习和闽值优化的臼适应信息过滤 模型,主要是对标引关键词按照词频束赋予权值,通过对检出文档进行排序,以提高检 索的性能。 2 2 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是6 0 年代f l d s a l t o n 等人在研究s m a r t 系统时 提出的,也称“词袋法”( b a g o f w o r d ) ,它是将文档和查询条件表示在一个,l 维的向量空 间中,根据信息文档内容中的各个特征重要性赋予权重,通过计算向量内积或向量之问 的将符合条件的文档推送给用户。 在向量空间模型中,过滤需求表示为多维向量: a = 瓴,w 1 ) ,( f :,m ) ,( ,w i ) ) ( 2 3 ) 文档也被表示为多维向量: d 一 瓴,v 1 ) ,( f :,v :) , ,u ) ) ( 2 4 ) 其中王指第i 个特征项,m 指查询需求中第i 个特征项权重,屹则指文档中第i 个特征 项的权重。于是文档集就被表示在n 维向量空间中,图示为: d 1 d 2 - d j r 1r 2 r 3丁。 22誓2w ;j ;3 :;1 w l w 2 w 2 1 w f l w i2 w ,3 。一 w i j 而求取文档与过滤需求相似度则是通过计算文档与过滤向量问的距离来反应相关 性大小的,而向量距离一般是通过计算向量剧的内积或者夹角余弦来得到的,相似度计 算公式为: s i m ( q 。) = c o s o = 而q 丽d - ( 2 5 ) 大连理1 入学硕士学位论文 图示为: 】+ t 2 + l 1 + t 2 + t n 图2 2 向量空间模型中文档相似度计算 f i g 2 2s i m i l a r i t yc o m p u t a t i o ni nv e c t o rs p a c em o d e l 向量空间模型将信息文档与查询要求问接地表示为向量空间中的向量运算,大大降 低了问题的复杂性,它通过统计方法给各个特征项赋予相应的权重,并以相似度的大小 衡量每个文档和重要性程度。但是向量空问模型省略了文档信息的结构信息( 假定向量 正交) ,例如忽略了特征项之间的相关性,对于一词多义和一义多词的问题不能很好的 解决。随后,潜语义标弓 ( l a t e n ts e m a n t i ci n d e x ,l s o 贝| 从挖掘语义信息方面,通过特征 向量矩阵的奇怪值分解幅v o ) 来解决一词多义和同义词的问题。 2 ,2 ,3 概率模型 概率模型( p r o b a b i l i s t i cm o d e l ) 是英国人s t e v er o b e r t s o n 和s p a r kj o n e s 在1 9 7 6 年提出 的一个模型,称为二值独立检索模型( b i n a r y i n d e p e n d e n c e r e t r i e v a l ,b i r ) 。它是基于贝叶 斯概率论基本原理,利用相关反馈的归纳学习方法,获取匹配函数,以此来估计文档与 过滤需求的相关性。概率模型将信息文档中的特征项的相关性予以二值量化,充分考虑 了文档之间,文档特征项之间的关联和相关性。根据相关性假设,应用贝时斯定理( b a y e s ) 来估计和计算文档的相关性,它根据文档的特征项在相关文档和不相关文档中的先验概 率来计算文档相关性后验概率。 概率检索模型中,要估计特定文档d ,与过滤需求q 相关的可能性,记作p ( r i q , d 。) , 其基本假设是特征项在相关和不相关文档中的分布是不相同的,设t : f ,f ,f 。) 为文 档集中的特征项,则文档d 。可表示为二值向量工tx ,x :,x 。) ,其中,t ,e t ,x ,1 ,否 则善= 0 。于是计算p ( r i 叮,d 。) 就变成了p ( n f q , x ) 。 根据贝叶斯定理p ( a i b ) a p ( b i a ) p ( a ) p ( b ) 和有利条件公式:o ( y ) = p ( y ) p o j ) 时 旧 一n 一夕竖 匿n 气 r e t 王金宝:基于增量学习和闽值优化的自适应信息过滤 计算二值向量x 表不的文档与查询目的有利条件是: ( g l 小嬲= 揣黜咧m ) ! :i 黜眨e , 根据特征项在文档中是否出现,可将上式分解为: 。( ri m ( 弛) 黜糍( 2 - ,) 我们记n = p ( x i = 】i r ,口”,q 。= p “= 】j 豆9 ) ) ,假设对所有在过滤需求集中未出 现的项有n :吼,于是有: 。( g l ) 1 0 ( g l 利。巩嬲玎鲁 ( 2 s ) 对其取对数,对于过滤需求g ,文档d ,的检出状态值( r e t r i e v a ls t a t u sv a l u e ,r s v ) 用如下公式计算: ( 2 9 ) ( 2 1 0 ) 通过相关反馈可以求得p ;和吼,于是就可以得到文档集中每个文档的相关度。 概率模型是一种基于贝叶斯( b a y e s ) 决策理论的自适应模型,它通过某种归纳学习过 程获得决策函数,从而制定过滤规律实现信息过滤。它的优点是文档的相关性计算有概 率数学理论基础,对文档根据相关性进行排序,但是没有考虑特征项在文档中的频率, 而且事先要有相关和不相关文档的先验知识,系统实现起来比较复杂。 2 2 4 其他模型 近年来,一些新的研究理论成果应到信息过滤中来,促使一些新的模型相继出现并 得到广泛的研究和应用。如应用隶属函数来表示文档与主题关系的模糊集模型,应用语 言分析的语言模型,应用神经网络改进的神经网络模型1 2 ”,应用贝叶斯网络的贝叶斯网 络模型以及聚类模型和遗传算法模型等。此外还出现了一些复合模型等。 豁嬲 跏 i 火连理i :大学硕士学位论文 2 3 自适应信息过滤新模型 自适应信息过滤最主要的特点是它根据用户反馈信息自主地学习和自适应的能力。 在过滤过程中系统通过自主学习用户反馈信息,获取更为准确的用户信息需求信息,自 适应地调整需求模板和检出阈值。图2 3 是我们给出的自适应信息过滤新模型。 在自适应信息过滤中,如果文档流中的文档符合用户需求,它被系统检出并推送给 用户,如果不符合用户需求,则被系统抛弃。用户定期地对系统推送的文档进行相关性 评价并被提交给系统,这种反馈信息立即被过滤系统自主地学习,并用于调整过滤模板 和实现检出阈值的优化。经过一段时间的过滤,系统统计文档流中的关键词信息,并将 其与检出文档和用户的相关反馈信息存储起来称为累积文档,作为一段时间内用户信息 需求的先验知识和训练数据,以此形成最优的过滤决策。 一 谛j口口口 f 0 图2 3 白适应信息过滤的结构 f i g 2 3f r a m e w o r ko f a d a p t i v ei n f o r m a t i o nf i l t e r i n g 从图中可以看出,自适应信息过滤系统主要由需求模板( p r o f i l e ) 初始化模块,信息 文档表示模块,过滤模块和用户反馈模块,机器学习模块以及累积过滤文档组成。其中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 遗传多样性动态监测-洞察及研究
- 互联网产品经理岗位职责与工作报告
- 教育行业2025年并购案例分析:资源整合与策略优化报告001
- 零售业2025年私域流量运营跨渠道整合与协同效应报告
- 智能化运维-云原生驱动的敏捷IT转型之路-洞察及研究
- 2025安康白河县仓上镇中心小学招聘(2人)笔试模拟试题及答案解析
- 2025年中国长毛兔专用复合预混料市场调查研究报告
- 2025年中国4节登山杖市场调查研究报告
- 2025广东广州市天河区新昌学校招聘小学语文教师1人笔试参考题库附答案解析
- 2025年云南楚雄州双柏县国有资本投资管理有限公司招聘合同制员工1人考试参考题库附答案解析
- 先天性甲状腺功能减退症诊治指南解读课件
- 2025至2030中国裸眼3D行业产业运行态势及投资规划深度研究报告
- 检修安全监护管理制度
- 产科工作管理制度
- 初中历史教师业务考试试题及答案
- 导尿管相关尿路感染预防与控制试题(附答案)
- 中医烧伤课件
- 2025-2030中国水下混凝土行业市场发展趋势与前景展望战略研究报告
- GB/T 30134-2025冷库管理规范
- 2025年心理咨询师基础理论知识测试卷:心理咨询心理学理论体系试题
- 急诊患者安全管理
评论
0/150
提交评论