(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf_第1页
(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf_第2页
(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf_第3页
(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf_第4页
(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机应用技术专业论文)数字图书馆多层次阅读扩展系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 数字图书馆在世界很多国家受到了高度关注,并取得了迅猛发展,已经成为 人们获取信息与知识的重要途径,阅读扩展则是数字图书馆必须提供的支撑性服 务。本论文针对数字图书馆中图书阅读扩展问题做了深入研究与开发,以便读者 更高效地利用海量数字图书资源。 现有的图书阅读扩展系统主要基于人工分类,需要具有一定资质的专家花费 大量精力进行组织,存在着知识管理粒度粗、分类系统保守过时、知识覆盖面有 限和无法适应用户自身求知需求等诸多问题。 本文的主要工作如下: 1 ,提出一种元数据扩展方法。以互联网图书书评等主题相关的文章为 数据源,使用以图书为中心的多样化随机行走算法b c d r w 提取关 键词,实现了关键词在图书元数据层主题相关的、多样化的扩展。 2 , 利用高等学校中英文数字图书合作计划( c a d a l ) 1 u p 丰富用户读书 日志数据,提出基于浏览历史的书页标注词推荐算法,跟踪用户历 史、判断用户阅读兴趣和知识构成,有效地推荐用户感兴趣的标注 词。 3 ,提出基于c a d a l 百万册图书目录的可扩展目录检索系统,利用词汇 在目录中的共现现象计算最相关词汇,并将扩展词融入基于l u c e n e 的目录检索引擎中。利用该系统,实现了各个层次扩展词汇与目标 知识点之间的关联和多样化扩展。 4 ,基于上述技术,开发了多层次图书阅读扩展系统,部署在c a d a l 网站上,依据用户行为,提供更合理的阅读扩展手段和知识管理。 关键词:数字图书馆,知识管理,阅读扩展,关键词提取 浙江大学硕士学位论文 a b s 昀c t 一一 a b s t r a c t d i g i t a ll i b r a r i e sh a v em a d er a p i dd e v e l o p m e n ta n dr e c e i v e dah i g hd e g r e eo fa t t e n t i o n i nm a n yc o u n t r i e s ,w h i c hh a v eb e c o m eo n eo f t h em o s ti m p o r t a n tp o r t a l sf o rp e o p l et o a c c e s si n f o r m a t i o n r e a d i n ge x p a n s i o ns y s t e mi so n eo f t h eb a s i cs e r v i c e si nd i g i t a l l i b r a r y t h i sp a p e rs t u d i e st h er e a d i n ge x p a n s i o np r o b l e mi nd i g i t a ll i b r a r ya n d p r o v i d e sa l le f f i c i e n tw a yf o rp e o p l et ou t i l i z et h em a s s i v ea m o u n t so f r e s o u i c e si n d i g i t a ll i b r a r ya n de n r i c ht h e i ro w nk n o w l e d g e t h ee x i s t e dr e a d i n ge x p a n s i o ns y s t e m sa r e m a i n l yb a s e do na r t i f i c i a lc l a s s i f i c a t i o n s y s t e m ,w h i c hr e q u i r eal a r g en u m b e ro fq u a l i f i e ds p e c i a l i s t st os p e n dal o to fe f f o r to n o r g a n i z i n gt h er e s o u r c e s h o w e v e r , a l lo ft h e s es y s t e m sf a c et h es a m ep r o b l e m ss u c h a sa n a c h r o n i s t i c ,l i m i t e dc o v e r a g e ,c o a r s e - g r a i n e da n dc a n ta d a p tt ot h e u s e r so w n q u e s tf o rk n o w l e d g er e q u i r e m e n t s t h em a i nw o r ko ft h i sp a p e ri sa sf o l l o w s :f i r s t , c a p t u r eb o o k r e v i e wf r o mh t e m e t , a p p l yb o o k 。c e n t r i cd i v e r s er a n d o mw a l ka l g o r i t h mo nt h e s eh i g h q u a l i t ya r t i c l e s ,a n d p r o v i d et o p i c 。r e l a t e da n dd i v e r s ek e y w o r d s s e c o n d ,a n a l y z ec a d a l s r e a d i n gl o g s , t r a c ku s e r sr e a d i n gh i s t o r y , d e t e r m i n e u s e r si n t e r e s ta n dr e c o m m e n di n t e r e s t i n g k e y w o r d st or e a d e rt h r o u g hh i s t o r y b a s e db o o k p a g ek e y w o r d sr e c o m m e n d i n g a l g o r i t h m t h i r d ,f i n dt h em o s tr e l e v a n tw o r d so f q u e r yb a s e do i lc a d a l s c a t a l o g s , e x p a n dt h eq u e r ya n di m p r o v et h ep e r f o r m a n c eo fl u c e n e b a s e dc a t a l o gs e a r c he n g i n e 1 i n kk e y w o r d st ot a r g e tk n o w l e d g e f o u r t h ,d e v e l o pt h e m u l t i 1 a y e r e dr e a d i n g e x p a n s i o ns y s t e ma n dd e p l o yi to nc a d a la ss e r v i c e k e y w o r d s :d i g i t a ll i b r a r y , k n o w l e d g eo r g a n i z a t i o n ,r e a d i n ge x p a n s i o n ,k e y w o r d s e x t r a c t i o n l l 浙江大学硕士学位论文图目录 图目录 图2 1 阻抗耦合解决方案。9 图2 2a d r o s a 系统构架1 0 图3 1 基于图书评论的图书关键字扩展算法框架17 图3 2 四部图j 18 图4 i 基于用户浏览历史的书页标注词推荐算法框架3 2 图4 2 基于关注词的标注词提取算法3 4 图4 3 基于主题属性的标注词推荐算法3 5 图5 1 相关词算法计算流程。3 9 图5 2 相关词计算框架4 0 图5 3l u c e n e 索引基本结构。4 1 图5 4 基于扩展词的目录检索算法。4 3 图6 1c a d a l 多层次图书阅读扩展服务体系4 5 图6 2c a d a l 多层次图书阅读扩展系统框架。4 8 图6 3 阅读扩展计算中心构架5 0 图6 4 基于目录的l s i 奇异值5 2 图6 5c a d a l 用户阅读时间分布5 4 图6 6 扩展词数量与准确度之间的关系5 4 图6 7c a d a l 用户书页跳转分布5 6 i v 浙江大学硕士学位论文表目录 表目录 表4 1 局部权重函数3 0 表4 2 全局权重函数3 0 表6 1 用户p r o f i l e 数据5 2 表6 2 词汇p r o f i l e 数据5 3 表6 3 图书p r o f i l e 数据5 3 表6 4 缓存存储单元数据说明和策略5 5 v 浙江大学硕士学位论文第1 章绪论 1 1 课题背景 第1 章绪论 随着海量存储技术、网络技术和智能化信息技术的飞速发展,信息载体的数 字化、信息传播的网络化和信息服务的智能化得到了空前的深化,图书馆的数字 化和智能化已然成为主流。随着古腾堡计划、g o o g l eb o o k 等数字图书馆项目的 提出和实施,数字图书馆( d i g i t a ll i b r a r y ) 在世界很多国家收到越来越多的关注 并取得了迅猛发展,已经成为人们获取信息与知识的重要途径。 2 0 0 2 年9 月,国家计委、教育部、财政部将“中英文图书数字化国际合作计 划”列为“十五”期间“2 1 1 工程”公共服务体系建设的重要组成部分。2 0 0 9 年1 1 月, c a d a l 二期又被列入“十一五”计划。c a d a l 一期项目已经数字化10 0 多万册中 英文图书,c a d a l 二期预计再数字化1 5 0 万册图书。c a d a l 项目已经形成了一 套成熟的支持百万册数字对象制作、管理与服务的技术平台并探索了多媒体、虚 拟现实和个性化服务等技术在数字图书馆中的应用。 为避免普通图书馆数字化中出现过的由于大量重复性工作导致的人力和资 源的浪费,中美百万册数字图书馆服务平台致力于成为可灵活扩展、可定制和易 于集成的“数字图书馆门户构建平台”。通过本身提供的基础设施如用户数据访问、 元数据访问、数字对象访问、日志访问和认证授权信息获取等,普通图书馆只需 采用该数字化平台就可快速构建出百万册级别的数字图书馆服务平台。在百万册 数字图书馆服务平台基础之上,在“以用户为中心”、“服务至上”的理念的驱动下, 通过与自身资源和其他应用系统集成,普通图书馆依托于c a d a l 项目即可向不 同地区不同文化程度的读者提供相应的数字图书馆服务。这使得普通图书馆只需 要专注于建设特色馆藏,研发特色应用,就可为读者提供一站式、个性化、全面 的服务,使读者能够方便快速地从多种资源与应用中获取所需的信息。 本论文工作是以c a d a l 服务平台为背景的子课题,目的在于研究和开发适 浙江大学硕士学位论文第l 章绪论 合海量数字图书资源服务平台的数字图书阅读扩展系统,使得读者能够在海量数 字图书资源中不断发现和阅读其偏好的数字图书,充分提高数字资源利用效率。 1 2 研究意义 c a d a l 项目目前已经数字化了1 0 0 多万册中英文图书,而且这个数目还在 不断增加中,如何有效的利用这些丰富而宝贵的资源使得读者能够充分获益就显 得非常重要。多层次图书阅读扩展系统是c a d a l 服务平台上富有智能、创新性 和服务性的一个重要组成部分,它使得读者在阅读图书时能够发现更多相关和需 要的图书资源,丰富了用户的阅读面。 传统的数字图书服务系统着眼于解决用户的基本需求,即在用户确定其阅读 需求的情况下,提供给用户需要的图书以及找到目标图书的方法。以c a d a l 门 户目前的服务平台为例,推出的服务可分为图书检索和图书阅读两个大块。然而, 在传统图书阅读中用户不仅仅局限于寻找目标图书这种确定型需求,还有发现和 探索相关图书的探索型需求。目前的c a d a l 数字图书服务平台在这一方面还处 于起步阶段。 传统的数字图书阅读扩展系统研究还处于初始阶段。在解决探索型需求时, 一般使用图书分类系统如中国图书分类法【、美国国会图书馆图书分类法【2 】将所 有的数字图书进行分类组织,方便于用户浏览和探索。但是,分类浏览系统粒度 大,即便是最低一层的分类也包含了数以万计的图书。用户由于无法高效和便捷 的发现其感兴趣的图书而大大降低了对分类系统的兴趣,阅读扩展无法有效地进 行。c a d a l 门户在丰富用户阅读途径方面提供了热门图书榜单和个性化图书推 荐等以图书为基本单元的图书阅读扩展服务。然而,基于图书的推荐只关注于用 户的长期阅读兴趣,忽略了探索型阅读中的短期的阅读扩展行为,如阅读者阅读 图书时突然对某些知识点的好奇而需要阅读扩展等。 总的来说,传统的阅读扩展系统一般基于粗粒度的专家内容组织分类法,是 一个相对静态和封闭的系统,无法提供更主题、内容相关和细粒度的关联图书。 本文提出使用互联网上的图书相关数字资源信息来弥补这一不足,利用互联网上 2 浙江大学硕士学位论文第1 章绪论 已有的高质量图书评论,将其整合进c a d a l 的多层次图书阅读扩展系统,提供 基于图书元数据层次的基于扩展关键词的阅读扩展服务。 传统的图书书页标注系统需要一定资质的专家花费大量时间和心血才能得 以完成。其标注质量完全取决于专家知识储备和专家花费的心血,标注结果良莠 不齐。由于个人知识不可能涵盖所有科目,传统标注往往存在着标注知识覆盖面 小的问题。本文使用基于c a d a l 百万册目录的可扩展目录检索系统,提供基于 文本相似和扩展词的目录检索,帮助用户通过标注发现丰富和多样的知识源。 标注的标注点和标注知识无法应对不同读者对知识点的不同需要,显得单一 而死板。c a d a l 门户已经对外服务两年半,积累了大量的用户阅读日志数据信 息。基于海量的用户阅读日志,本文提出基于阅读历史的书页标注词推荐算法, 利用它们可以很好的追踪用户阅读行为和知识构成,帮助用户进行个性化的阅读 扩展。 我们将基于图书评论的图书关键词扩展系统、基于阅读历史的书页标注词推 荐系统和基于百万册目录的可扩展目录检索系统加以整合,形成一个多层次图书 阅读扩展系统体系。这将帮助数字图书馆用户在c a d a l 进行读书时更加高效的 发现图书和知识,提高数字图书馆的资源利用效率,使数字图书馆发挥更大的作 用。 1 3 本文的主要工作 首先,本文研究现有的与图书阅读扩展相关的技术和算法,相似领域的互联 网网页广告内容匹配技术、互联网个性化的算法和思路、单文档和多文档关键词 提取技术,研究w e b 使用挖掘技术以及其在关键词扩展、个性化推荐方面的应用。 然后,分析数字图书馆中现有图书阅读扩展服务存在的问题和不足,利用w e b 使 用挖掘技术对c a d a l 的用户阅读信息数据进行分析,整合互联网的图书评论资 源,提出有效的图书阅读扩展技术和算法。最后,在c a d a l 门户中实现基于上 述研究结果的多层次图书阅读扩展系统。 本文的主要工作如下: 3 浙江大学硕士学位论文第1 章绪论 1 1 利用c a d a lf - 1 户丰富的用户阅读日志数据,提出基于阅读历史的书页 标注词推荐算法,跟踪用户的阅读兴趣和知识构成,有效的推荐用户感 兴趣的标注词。 2 ) 提出抓取互联网上的图书评论相关数据,利用这些高质量的、主题相关 的文章,在图书元数据层次提供主题相关的多样化扩展关键词。 3 ) 提出基于c a d a l 百万册目录的可扩展目录检索系统,利用该系统实现 各个层次扩展词汇与目标知识点之间的关联和多样化扩展。 4 1 使用上述的算法和技术,实现多层次图书阅读扩展系统。 1 4 本文的组织结构 本文内容组织如下: 在第一章中,先简要介绍中英文图书数字化国际合作计划和本文的课题背景, 然后介绍本文的研究意义,以及本文的主要工作和组织结构。 在第二章中,对相关研究进行综述。首先介绍数字图书馆的概念与其相关的 技术和研究方向,c a d a l 概况、特点;然后介绍图书阅读扩展系统的概念和含 义,传统的数字图书阅读扩展系统和目前c a d a l 提供的相关特色服务;接下来, 介绍了几个当前相关研究领域,包括网页广告内容匹配、w e b 个性化、关键词提 取以及相关的技术方法;最后,介绍w e b 使用挖掘的概念和应用。 在第三章中,我们介绍基于图书评论的关键词扩展算法。提出抓取互联网上 的图书评论数据作为c a d a l 阅读扩展系统的一个数据来源,使用基于多部图和 吸收态随机行走算法的关键词提取技术为图书提供多样化和主题相关的扩展关 键词,并将它使用在我们的图书元数据层次上的数字图书阅读扩展服务之中。 在第四章中,提出了基于阅读历史的书页标注词推荐算法,介绍了算法思想、 数据集定义、算法流程,重点介绍如何跟踪用户阅读历史、判断用户阅读兴趣和 知识构成、有效的推荐用户感兴趣的标注词。 在第五章中,介绍了基于c a d a l 百万册目录的可扩展目录检索系统。提出 利用百万级的目录进行检索词扩展,并将其和基于文本相似度的目录检索系统进 4 浙江大学硕士学位论文 第1 章绪论 行融合,提供语义相关而又丰富的目录层次的知识匹配系统,将它作为多层次图 书阅读扩展系统的匹配服务。 在第六章中,提出了多层次图书浏览阅读服务系统的整个方案的设计和构架。 在c a d a l 门户中融合第三、四和五章中的算法和技术实现多层次图书阅读扩展 系统的整体架构和设计,然后着重介绍分析系统中几个子系统的详细设计和实现。 在本文的第七章中,我们对全文进行总结,并对未来提出展望。 1 5 本章小结 在本文中,我们介绍了中英文图书数字化国际合作计划和本文的课题背景, 然后介绍了本文的研究意义,以及本文的主要工作和组织结构。 5 浙江大学硕士学位论文第2 章相关研究综述 2 1 数字图书馆 第2 章相关研究综述 近年来,数字图书馆的建设在世界很多国家得到了迅猛的发展,与数字图书 馆相关的研究工作也非常活跃。数字图书馆的含义很广,它是一整套面向对象的、 分布式的数字化资源的集合。数字图书馆包括所有数字形式的图书馆资源:经过 数字化转换的资料或本来就是以电子形式出版的资料,新出版的或经过回溯性加 工的资料;各类资源类型,包括期刊、参考工具书、专著、视频声频资料等。数 字图书馆是高技术的产物,它涉及了网络技术、数字化技术、数据库技术、信息 检索技术、多媒体信息处理技术、信息压缩与传送技术、分布式技术、数据挖掘 技术等多项技术。 2 1 1c a d a l 项目情况 国家计委、教育部、财政部在2 0 0 2 年9 月下发的关于“十五”期间加强“2 l l 工程”项目建设的若干意见的文件中,将“中英文图书数字化国际合作计划 ( c a d a l ) ”列入“十五”期间“2 l l 工程”公共服务体系建设的重要组成部分。 c a d a l 项目一期的建设目标是:在“十五”期间,建设为我国高校教学科研服务 的百万册图书规模的数字资源,建成2 个数字图书馆技术中心( 浙江大学,中国科 学院研究生院1 和1 4 个数字资源中心,形成一套成熟的支持t b 量级数字对象制 作、管理与服务的技术平台,探索多媒体、虚拟现实等技术在数字图书馆中的应 用,推动我国数字图书馆技术达到国际领先水平,为数字图书馆建设与服务的可 持续发展奠定资源和技术基础。 c a d a l 二期于2 0 0 9 年1 1 月获批通过,并被列入“十一五”计划于2 0 1 0 年初 正式启动。c a d a l 二期预计再数字化1 5 0 万册图书,其中追加部分日文书籍。 在c a d a l 期的基础上,着力解决资源的揭示、服务和利用效果,构建一个资 源丰富、数据安全、功能先进、响应迅速的学术数字图书馆服务体系。 6 浙江大学硕士学位论文第2 章相关研究综述 c a d a l 项目的实施对于改善我国高校教学科研的信息环境、建设一流大学 具有重要意义。c a d a l 项目在数字图书馆方面的研究和工作,促使我国在大规 模数字图书馆建设和信息服务领域向世界先进水平迈进,具有重大的社会意义、 研究价值和发展前景。 2 2 数字图书馆阅读扩展系统 用户在阅读的过程中通常有两种不同类型的行为方式:确定型和探索型。确 定型阅读行为的典型表现方式为检索,即用户在明确自己的阅读需求的前提下, 通过数字图书馆提供的各种检索方式寻找目标图书并进行阅读;探索型阅读行为 的典型表现方式为浏览,即用户仅仅模糊的知道自己的兴趣点,但通常无法提供 出具体的、确定的、直接的信息,只能通过浏览的方式来寻找相关兴趣书籍。依 据浏览出发点的不同,探索型阅读行为又可以分为两种:基于主题、内容或者兴 趣相关的图书元数据层次阅读扩展行为和基于求知行为的以短期兴趣为主的图 书书页层次阅读扩展行为。传统的数字图书馆研究一般集中在确定型阅读行为, 如袁川、张副3 】等对现有图书元数据检索引擎的改进。 2 2 1 现有数字图书馆的解决方案和缺点 现有的数字图书馆服务平台在优化用户的探索型阅读行为方式上主要采取 分类法【4 】和主题词表【5 】两种方式来增加数字内容的有组织性,帮助用户在进行探 索型阅读时明晰其兴趣,过滤候选图书集合。然而,传统图书馆应用的中图分类 法和主题词表的编制和修订都需要通过专家,相对于数字内容的日新月异和丰富 多样,其结构和内容滞后不易普通用户理解。针对传统图书知识管理的不足,王 军【5 】提出了改进系统v i s i o n ,利用现有分类法的层次关系和已有的图书描述来建 立词汇之间的主题关系,以此对图书进行管理。然而,这些系统仍然存在着自动 化不足、分类结构和主题覆盖范围有限、粒度过大无法进一步帮助用户明晰其需 求等问题,也无法改进书页层次的探索型阅读行为。 7 浙江大学硕士学位论文 第2 章相关研究综述 2 2 2c a d a l 目前的解决方法 c a d a l 针对图书元数据层次的探索浏览行为主要提供了两种互补的特色服 务。利用丰富的用户阅读资源,c a d a l 服务平台对所有的读书日志进行统计并 向用户提供图书热榜,提醒用户注意当前最热门的图书;与此同时,利用个性化 技术【6 】,c a d a l 针对用户的阅读习惯挖掘其阅读兴趣,通过基于排序的协同过 滤技术向其推荐与其阅读历史相关的数字图书。这两种服务互相配合,解决了如 何利用用户的长期阅读兴趣来帮助进行探索阅读的问题,但是基于协同过滤的推 荐图书和热门图书榜单无论是覆盖率还是主题、内容相关性都略显不足,仍然需 要其他的服务来进一步的完善。 2 3 网页广告内容匹配技术 互联网在线广告( c o n t e x t u a la d v e r t i s i n g ) 是一种依附于互联网网页或w a p 网 页上的目标广告。这些广告通常是由自动化系统来选择和发布于网页上并显示给 用户【刀。为提高盈利能力,广告系统通常采取类似数字图书馆中辅助书页层次探 索浏览行为的匹配技术,即判断用户在阅读当前内容时的关注点,以此从庞大的 广告库中找出最符合用户关注点的广告,从而提高终端用户的点击率以获得更高 的盈利。目前网页广告内容匹配技术一般分为两种主要的策略:基于关键词抽取 和基于信息检索( 1 r ) 。 2 3 1 基于关键词抽取的c o n t e x t u a la d 技术 这种策略假设用户关注的就是当前网页文本中的关键词,于是用户关注点与 广告的匹配问题就转化为商务搜索问题【8 】。该技术首先抽取网页文本中的关键词, 然后利用这些关键词去检索最为匹配的广告。基于关键词抽取的策略使用的特征 比较单一,但是由于可以利用搜索引擎公司已有的精确度较高的信息检索技术而 部署低廉,从而得到了广泛利用。 w e n - t a uy i h 等【9 】提出了一种具有代表性的抽取用户当前浏览网页内容关键词 作为广告检索词的方法。该文假设用户关注词一般是名词、标题或者编辑着重的、 8 浙江大学硕士学位论文第2 章相关研究综述 体现文本用词特征或被用户用来检索该网页的关键词。该方法利用t f i d f 等文本 i r 特征、搜索引擎q u e r yl o g 日志特征、语言的词性特征、网页结构特征等多种 特征,使用l o g i s t i cr e g r e s s i o n 模型融合诸多特征以得到最终的关键词候选队列。 实验结果表明,l r 特征和q u e r yl o g 特征在有效提取关键字上效果最为突出,而 包括词性特征在内的其他特征几乎不影响结果。 2 3 2 基于i r 的c o n t e x t u a la d 技术 这种策略假设用户的关注点比较模糊但是和当前网页正文主题、内容相关, 于是匹配问题可以转化成为经典的寻找相似文档问题。网页内容和广告正文首先 在经过预处理后被映射到同一个特征空间,然后利用各种不同的相似度计算方法 来确定文章的相似度,进而挑选最相似的广告。基于i r 的策略使用多种特征挑 选出的广告和用户当前浏览网页通常有比较高的主题和内容相似度,但是计算量 相对庞大,通常适用于电子购物网站。 由于用户当前浏览网页正文内容、长度有限,普通广告的篇幅更为短小,双 方在映射后的特征空间的耦合性一般非常低,这导致匹配广告和网页时往往置信 度不够、精确性不足。r i b e i r o n e t o 等【1o 】针对这种现象提出了一种提高特征空间 耦合度的方法。该方法的解决方案模型如图2 1 : 词库耦合 图2 1 阻抗耦合解决方案 文章首先基于目标网页文本内容,利用已有的数据库中的海量网页内容扩展 目标网页的词汇空间;同时也利用商家购买的对应的广告关键字扩充广告正文的 词汇空间;最后将词汇扩展后的网页正文和广告正文利用传统相似度计算方法寻 找最匹配的广告并加以投放。在利用海量网页扩展目标网页词汇的方法上,该文 9 浙江大学硕士学位论文第2 章相关研究综述 章主要使用贝叶斯网络模型,通过计算与目标网页最相似的网页中的重要词汇的 权重来挑选与目标网页主题和内容相关的候选词汇。 针对现有网页广告内容匹配技术只考虑用户当前阅读网页的情况, e k a z i c n k o 等【1 1 】提出了一种个性化的在线广告系统匹配策略。该策略在将广告匹 配给用户当前阅读网页时,不仅考虑当前网页,还考虑了在当前会话下用户的阅 读行为和点击广告行为。其模型如下图2 2 :该文首先将海量网页按照其文本进 行聚类,其对应的广告在同时也得到聚类;通过挖掘用户访问日志和广告点击日 志,抽取用户会话,以会话为单位的用户行为也得到聚类,其对应的点击广告也 被聚集到对应的分类。系统在运行时跟踪当前用户在当前会话下的访问行为,计 算对应的典型用户访问行为和对应的典型网页概念空间,融合并推算出对应的广 告空间和点击广告,从而进行个性化的广告匹配。 2 4w e b 个性化技术 图2 2a d r o s a 系统构架 w e b 个性化技是一种将用户的互联网浏览体验配合用户的口味进行个性化的 技术【1 2 】。这种体验可以如同浏览网页、交易股票、查询汽车并且购买等行为一样 1 0 浙江大学硕士学位论文第2 章相关研究综述 寻常。个性化技术含义广泛,从简单的将网页的展示更加个性化到提供给每个人 信息和操作方式来正确的预定图书;从根据用户的点击和浏览行为个性化搜索引 擎检索结果到依据用户的关注信息来帮助用户更好的管理互联网资源等等。 传统的检索引擎在遇到具有多义性的检索词时,由于无法判断用户的检索意 图,结果往往无法令人满意。为改进检索结果,研究者试图利用用户浏览的上下 文和点击行为明确检索意图,从而改进检索结果。 h a v e l i w a l a 1 3 1 提出了一种主题相关的p a g e r a n k 技术。该技术通过分析检索上 下文的主题来确定检索词的主题属性,同时配合对应主题的p a g e r a n k ,得出最后 的检索结果。文章利用y a h o o 提供的网站目录分类结构,对每一类主题修改 p a g e r a n k 计算公式中的d 向量【1 4 1 ,并迭代结算计算出多组主题相关的网页 p a g e r a n k 值。假设根据检索上下文得到的检索词的主题属性概率为( c 1 ,c 2p c 3 c t ) , 则网页的最终p a g e r a n k 值可用以下公式2 1 计算: s q d = ip ( c j l q 。) r a n k j d ( 公式2 1 ) 其中c i 表示当前检索属于主题j 的概率,r a n k j d 表示文档d 在主题j 下的p a g e r a n k 值,网页最终p a g e r a n k 值可以通过将网页在所有主题下的p a g e r a n k 值线 性拟合得到。 除了利用检索上下文,搜索引擎公司还利用用户的点击行为来确定其短期内 检索意图。在g o o g l e 的专利【1 5 】中,所有的网页和广告都预先计算并赋与主题。 用户检索时,按照检索结果的总体主题分布来约束和挑选对应的赞助广告。g o o g l e 会跟踪用户的点击行为,依据用户的点击网页的主题属性来修改用户检索主题属 性,进而修改对应广告的权重,调整最终呈现的广告。 除了利用个性化技术优化检索结果,研究者还试图利用用户私人文件夹下的 文本数据来确定用户的兴趣,帮助用户更好的管理网页。p ac h i r i t a 等认为【16 】, 用户在电脑桌面上保留的网页、普通文本等信息能够非常好的体现用户的兴趣和 关注点,通过将这些私人文档视作用户的p r o f i l e 推荐出来的网页标注也更加符合 用户的习惯和特性。作者提出了三种方法对当前浏览网页进行标注:a ) 利用i r 技术寻找当前网页的最相近文档,抽取这些文档中的关键词,依据文档的置信度 浙江大学硕士学位论文第2 章相关研究综述 选择候选标注词;b ) 对所有文档中的词语进行相似度计算,从当前网页中抽取 关键词,并将这些关键词的最相关词语组成候选标注词并进行挑选;c ) 从目标 网页中预先抽取关键词,从用户文档中寻找出和这些关键词相关的文档,然后从 这些相关文档中抽取关键词并作为候选标注词。 2 5 关键词提取技术 关键词指一些能够帮助用户获得对文本内容的高层次理解的显著词汇。关键 词抽取技术是一系列自然语言处理任务的基础步骤,比如文档分类、文档聚类、 文本摘要以及文本挖掘相关的工作。 k e a 1 7 1 是f r a n k 等开发的。使用简单机器学习方法来抽取关键词的算法。k e a 首先进行文本预处理,除去停用词和垃圾词汇,然后使用三种特征:t f i d f 、词 距、词频来挑选候选关键词,最后使用朴素贝叶斯学习算法得出结果。其他研究 者也试图通过w e b 相关的特征如g o o g l e 词频来提高k e a 的命中率。 r a d am h a l c e a 和p a u lt a r a u 针对单文档提出一种通过分析文档中词与词之间 的语义性来选择关键词汇的方法【1 8 1 。该方法是一种基于随机行走模型的关键词 抽取方法。在这种方法中,文档被建模为一张由候选词汇构成的图,节点之间的 边代表词之间的关系,然后用各种基于图的方法来挑选关键词。如果两个词一同 出现在一个最大窗口为n 的连续词分布中则用边相连。词汇图在构建完后使用 g o o g l e 的p a g e r a n k 算法对所有词汇进行排序并得出最终结果。 互联网应用如网页广告内容匹配系统关键词抽取技术往往比传统的单文档 抽取技术更为复杂,其面对的往往是由不同主题文档聚合而成的网页。m a f i a g r i n e v a 等【19 】针对这种需求提出了一种面向噪音和多主题文档集合的关键词抽取 算法。他们结合维基百科文档,通过判明和分析文档词汇中的语义关联来获取更 多有用的信息。该算法将文档中出现的维基百科词条挑选出来以做候选关键词; 将这些关键词建模成图,其中节点就是词,边表示基于维基百科的词之间的关系。 表达一个共同主题的词汇倾向于汇聚成稠密的子图,最稠密的子图则毫无疑问表 达了当前文档的最主要的主题。文章最后使用g i r v a n - n e w m a n 网络分析算法分析 1 2 浙江大学硕士学位论文第2 章相关研究综述 词汇语义图结构,将最稠密子图中的词汇作为关键词推出。 2 6w e b 使用挖掘 随着互联网的飞速发展,w w w 上的站点数目和访问数量都达到了空前的规 模,其包含网络数据资源正在飞速的增长。最近十年的研究越来越多的将数据挖 掘技术和w w w 应用研究相结合,使用w e b 数据挖掘技术来开发和利用这些丰 富的资源,从与w w w 相关的资源和用户浏览行为中抽取有用的、感兴趣的模式 和隐含信息以完善、改进和突破已有的研究成果。 按照分析目标的不同,使用数据挖掘技术发现w e b 模式的应用可分为三种类 型:w e b 使用挖掘( w e bu s a g em i n i n g ) 、w 曲内容挖掘( w e bc o n t e n tm i n i n g ) 和w 曲 结构挖掘( w e bs t r u c t u r em i n i n g ) t 2 0 1 。在本文中主要使用w e b 使用挖掘。 w e b 使用挖掘的主要目标是从w e b 的访问日志中抽取感兴趣的模式发现用 户在互联网上寻找的东西,以及特定区域特定用户群体的搜索和浏览模式。w e b 使用挖掘一般都基于网站访问日志。日志处理一般可以分为三个主要部分:数据 预处理、w e b 日志挖掘的使用模式、模式发现。 w 曲日志数据挖掘主要应用于以下几方面:提高网站结构设计质量,如 p e r k o w i t z 和e t z i o n i 2 1 1 提出的利用基于站点的网页共现访问模式来改进站点结构 的方法;提高系统性能,如s c h e c h e t e r l 2 2 】提出的几种利用用户的路径访问p r o f i l e 预测h r r p 请求以用作网络和代理缓存的技术;提供特色服务,如m u l e e n n a t 2 3 1 等提出的挖掘w e b 日志获得用户访问模式以提供市场智能;为用户提供个性化的 服务,如杨晨醒、张寅通过分析c a d a l 阅读日志给用户推荐图书;改进搜索引 擎的搜索排序质量,如袁) l l m 利用c a d a l 阅读日志提出b o o k r a n k 算法改进图 书元数据检索结果。此外也可以为本文的图书书页层次的阅读扩展服务提供数据 基础。 2 7 本章小结 在本章中,我们首先简要的介绍了数字图书馆的概念,以及与数字图书馆相 1 3 浙江大学硕士学位论文第2 章相关研究综述 关的技术和研究方向的,随后我们介绍了“中美百万册书数字图书馆合作计划” ( c h i n a u sm i l l i o nb o o kd i g i t a ll i b r a r yp r o j e c t ) 的背景、概况和特点。然后我们 介绍图书阅读扩展系统的概念和含义,以及传统的数字图书阅读扩展系统使用的 方法和不足、目前c a d a l 提供的相关特色服务;接下来,介绍几个当前计算机 领域的相关研究领域,包括网页广告内容匹配技术、w e b 个性化技术和关键词提 取技术;最后,我们介绍了w e b 使用挖掘的概念和应用。 1 4 浙江大学硕士学位论文第3 章基于图书评论的图书关键字扩展算法 第3 章基于图书评论的图书关键字扩展算法 数字图书馆大多通过图书分类专家来描述馆藏图书的基本主题,并以此作为 图书的关键字或分类体系。分类学专家通常使用中图分类法等标准分类方法对各 种图书进行层次分类并编辑少量关键字。由于标准分类法中使用的关键字和主题 描述词数量有限,描述结果往往趋于保守、相对静止、无关乎图书的内容细节。 近年来,随着w e b 2 0 的社会化网站如豆瓣网、l i b r a r y t h i n g 等网站的流行,大众 分类法( f o l k s o n o m y 2 4 】) 以及各种混合系统被不断的提出来为图书增加内容相关、 主题相关和自适应的关键字描述,以帮助用户更好的管理图书并进行阅读扩展。 这些系统使用基于社区的方法,用标签来给图书进行分类。但是,2 0 0 6 年全美信 息科学与科技年度会议( a n n u a lg e n e r a lm e e t i n go ft h ea m e r i c a ns o c i e t yf o r i n f o r m a t i o ns c i e n c ea n dt e c h n o l o g y ,n o v e m b e r2 0 0 6 ) 和信息科学期刊2 0 0 6 年第 二期( j o u r n a io fi n f o r m a t i o ns c i e n c e ,2 0 0 6 ) 等最近的研究【2 5 】表明,用户提供的 标签和词条等通常不一致、不准确并且没有意义。 幸运的是,豆瓣、l i b r a r y t h i n g 不仅拥有图书标签,还有数以百万计的图书 评论,其中相当多书评不仅质量极高也吸引了众多读者。c a d a l 的图书关键字 可以通过这些数量巨大和高质量的书评进行扩展。主要理由如下: 1 1 不考虑这些书评的写作风格和包含的信息,它们代表着一类读者对于目 标图书的理解和反馈,通常在语义上比用户贡献的图书标签更富意义和 语义性。对于一些具有很高评分或者很多评论的图书评论来说,书评表 述的观点往往能够代表一大群人对该书的理解和看法。由这些评论中抽 取出的关键词往往能够比标签更加准确和容易让人接受。 2 1 图书评论比标签和分类关键字更内容相关和含义丰富。图书评论者通常 在他们的评论中讨论图书的内容、风格和内涵,所以读者往往将这些书 评当成是比传统分类目录、标签甚至图书简介更加全面的介绍。此外, 不同的图书评论者对同一本书的理解多种多样。从这些多样的书评中抽 1 5 浙江大学硕士学位论文第3 章基于图书评论的图书关键字扩展算法 取的关键词能够更广泛的概括图书的内容和内涵。 在本章中,我们的目标是从图书相关的评论中抽取关键词作为图书的关键字, 以便用户进行阅读扩展。对于c a d a l 的图书和用户,我们可以从相关的社区网 站上寻找对应的图书评论、从维基百科上寻找对应的i d f 值,然后对候选关键词 计算得分并排序,挑选排序最高的词补充图书关键词。 3 1 算法思想 本章对于关键字排序的方法主要是依据四种元素,作者、图书、书评和关键 词之间的关系,可参见图3 2 中的图模型。以阿西莫夫和阿瑟克拉克为例介绍本 章的模型。此模型包含三种关系( 1 ) 作者和图书之间的关系,比如机器人 由阿西莫夫所写;( 2 ) 图书与书评之间的关系,比如图书拥有许多书评;( 3 ) 书 评与关键词之间的关系,如“2 0 0 1 :太空奥得赛”的书评喜欢强调“大黑石”。相对 于传统的单文档关键词抽取和多文章关键词抽取,本章考虑了一个非常重要的关 系:图书与作者之间的关系。考虑到作者的写作风格或者主题通常都保持一致, 在同一作者的图书的不同的书评中重复出现的关键字也许可以代表这些书的主 题。如图3 2 中的“科幻”可以作为阿西莫夫和克拉克著作的关键字。为了较为全 面涵盖读者书评中对一本图书的理解,本章希望能够抽取到的关键词越多样性越 好。比如有些读者在读2 0 0 l :太空奥得赛”时喜欢强调其中表达的哲学,而其他 人可能被书中的超级电脑h a l 所吸引。因此,算法挑选出来的关键字,不仅要 涵盖大部分的理解,也要考虑少数人的观点。 为了获得更高质量和更多样化的关键字,本章提出了以图书为中心的多样化 随机行走算法b c d r w ,将其部署在融合了作者、图书、书评和关键词的四部图 上。相对于社区化标签系统和基本的t f i d f 方法,本章算法能够获得更好的表现, 推荐出内容相关和主题相关的关键字。 1 6 新 硬 位论z * 3 $ 十目书评* 圈带* 女 r * 算# 3 2 算法架构 誊! :兰= ! 叁j 孟 r 磊。j l 一一 二j 一。i :将i :一? j i d f :l 鎏| 扩关键目 圈3i 基于图书评论的图书关键字扩展算法框架 如图3 1 所示,本章的摸型包含了以下5 个部分: l _ c a d a l 图书一作者拥有关系认证器,提供目标图书作者与著作图书之间 的关系信息。 2书评爬虫,从豆瓣等社区网站中抓去对应的评论。 3句j 击过渣嚣,将书评分词、生成词性标签 圳,挑选出名词等作为候选关 键词。 4维基i d f 衡量嚣,将维基百科当成是高质量文档集合,用它来衡量一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论