(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf_第1页
(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf_第2页
(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf_第3页
(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf_第4页
(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)综合风险智能主题推送技术的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着h l t e n l e t 的迅速发展,网上信息飞速增长,人们面对种类繁多的各类 信息,却缺乏有效地自动获取信息的方法。本文针对传统的推送技术存在的忽 视用户需求、推送信息针对性不强和获取用户信息需求不智能、不及时的弊端, 以w 曲挖掘技术为基础,对智能主题推送中的关键技术展开研究,最终实现了 综合风险智能主题推送系统。主要研究内容包括: 1 对w e b 日志挖掘预处理过程进行研究。分析了预处理各个步骤的目的和 方法,并对相关步骤进行了改进,实现了数据清洗、用户识别、会话识 别、路径填充和事务识别各步骤并给出了相关算法描述。 2 对模糊k 一均值聚类算法进行了改进。深入研究了k 一均值聚类算法和模糊 k - 均值聚类算法,对传统模糊k - 均值聚类算法进行了去除空簇的改进, 并通过实验比较,验证了改进算法的有效性。 3 提出了一种根据用户主题兴趣度构建用户访问矩阵的方法。进行用户访 问模式挖掘时,对传统基于用户浏览兴趣度构造用户访问矩阵的方法进 行了改进,提出了一种基于用户主题兴趣度矩阵构建用户访问矩阵的方 法。该方法有效地解决了用户访问矩阵的稀疏性问题。使用改进的模糊 k 一均值聚类算法实现用户聚类,提高了用户聚类结果的准确性。 4 采用基于改进的模糊k 一均值聚类的协同过滤推送算法,对目标用户根据 所在的用户兴趣度相似群进行相似性计算。依据计算的预测兴趣度生成 推送集,有效地解决了协同过滤推送算法中存在的矩阵稀疏性、冷启动 和自动化推送等问题。 5 设计并实现了一个综合风险智能主题推送系统,提供风险行业的智能主 题推送服务,具有良好的智能性、主动性。 本课题得到了“十一五”国家科技支撑计划重点项目_ 综合风险防范 ( 瓜g ) 关键技术研究与示范”( 2 0 0 6 b a d 2 0 8 0 2 ) 支持。 关键词:智能主题推送,综合风险,w e b 日志挖掘,模糊聚类 垒堡羔旦坠里! r e s e a r c ha n d a p p l i c a t i o no fi t e g r a t e di u s ki n t e i l i g e n t s u b j e c tr e c o m m e n d a t i o n 1 1 e c h n o l o g y a b s t r a c t w i t ht h er 印i dd e v e l o p m e n to fh l t e m e t ,m eo n - 1 i n ei n f 0 肌a t i o n e x p l o s i v e l y i n c r e a s e s t h ea u t o m a t i c a l i n f o m l a t i o na c q u i s i t i o nm e m o d sa r eu 唱e m l yn e e d e dw h e l l p e o p kf a c j n gb u g e 锄o u n t so fj n j 0 肋a t i o n a c c o r d i n gt 0m ep r o b k m si nt 1 1 e r m 皿e n d a t i o nt e c l l l l o l o g y ,i e ,u s e rd e m a l l d si 鲫r a n c e ,w e e kp e r t i n e n c eo fp u s h m e s s a g e ,1 1 1 1 i n t e l l i g c l l c ea 1 1 du n _ t i i n e i 曲e s su s e ri 1 1 f 0 肌a t i o na c q u i s i t i o n ,1 ep a p e r b a s e do nw 曲m i i l i n gt e c h n 0 1 0 9 y ,m ek e yt e c h n o l o 百e si nm ei m e l l i g e ts u b j e c t r c c o m m e n d a t i o na r ei 1 1 v e s t i g a t e di nt l l i sp 印e lu l t i m a t e l ya 1 1i n t e 冒a t e dr i s ki n t e l l 噜e n t s u b j e c tr e c o m m e n d a t i o ns y s t 锄i si i n p l e m e n t e d t h ec o m e m so ft h i sp a p e r 酗 f 0 1 l o w s : 1 t h cp r o c e s so fw 曲1 0 9m i n i n gp r 印r o c e s s e si ss t l l m e d t h ep u r p o s ea 1 1 de a c h s t 印o fp r 印r o c e s sa r ci n v e s t i g a t c di nd e t a i l ,a n dt h er e l e v a n ts t 印sa r ei m p r o v c d t or e a l i z em ed a t a c l e a i l i g ,u s e ri d e n t m c a t i o i l ,s e s s i o ni d e m i 丘c a t i o n ,p a t h c o m p l e t i o na n dt r a n s a c t i o ni d e n t i f i c a t i o n ,m ec o n s p o n d i n ga l g o r i t h m sa r ea l s o p r e s e m e d 2 t h e 缸z yk - m e a n sa l g o r i m mi si l p r o v e d k - m e a n sc 1 u s t c 血gm i i l i n g a l g o r i 皿a n df u z z yk - m e a l l sc 1 u s t 耐n gm i n i n ga l g o r i t h n la r cs t u d i e di 小d e p t h t h e 仃a d i t i o n a lf 心z yk 。m e a i l sa 1 9 0 r i l l i li si n l p r 0 v e db ya d d i n ga i la d d i t i o n a ls t 印 t or e m o v e 锄p t yc l u s t e r s t h r o u 曲e x p 蒯m e l l t s ,t h ce 侬- c t j v e n e s so fi m p r o v e d a l g o r i m mi sv e t i f i e d b yc o m p a r i n g t h ee x p e r i m e m a l r e s u l t s 3 am e t h o do fc o n s 1 l c tu s e ra c c e s sm 撕xb a s eo nu s e r ss u b j e c ti m e r e s ti s p m p o s e d w 1 1 i l em i n i n gt h eu s e ra c c e s sp a t t e m s ,t h e 仃a d i t i o n a im e t h o do f c o n s t n l c tu s e ra c c e s sm a t r i xb a s e do nu s e r sb m w s i n gi n t e r e s ti s i m p r o v e d a m e m o db a s eo nu s e r ss u b j e c ti n t e r e s ti sp r o p o s e d t h ep r o b l e mo fu s e ra c c e s s l i 些! 坠垒竖 m a 喇x ss p a r s e n e s si se 矗b c c i v e l ys 0 1 v e d t h e n ,u s e rc l u s t c r i n gi si m p i e m 锄t e d b y m ei m p r o v e d 他z yk 。m e a n sc l u s t e r i n ga l g o r i t l l m t h ea c c u r a c yo fu s c rc l u s t 甜n g i se n h a l l c e d 4 a d o p t e dc 0 1 l a b o r a t i v ef i l t e r i n gr c c o 咖e n d a t i o na l g o r i t h mb a s e do ni i i l p r o v e d 缸z z yk m e a l l sa l g o r i t h mt oc a l c u l a t et a r g e tu s e r ss i r n i l 撕t ya c c o r d i n gt o 也e s 曲i l a ri n t e r e s t 掣o u p sw h i c hm e t a 玛e tu s e rb e l o n g st o t h e nr c c o r 砌e n d a t i o ns e t a r eg e n e r a t e db a s e do nt l l ef o r c c 船to fi n t e r c s t t h ep m b l e m so ft r a d i t i o n a l c o l l a b o m t i v ef i n e r i n gr e c o m m e n d a t i o na l g o r i t ,s u c ha sm 瓤xs p a r s e ,c 0 1 d 8 t 山a 1 1 da u t o m a t e dr e c o m m 肋d a t i o n ,w e me 如t i w l yr e s o l v e d 5 d e s i 印a 1 1 di m p l 锄e l l ta ni n t e g r a t e dr i s ki n t e l l i g e n ts u b j e c tr e c o m m 跖d “o n s y s t 锄,p r o v i d i n gt h es e i c eo fi n t e l l i g e ms u b j e c tr e c o m m e n d a t i o nf o rr i s k i n f o 皿a t i o ni 1 1 d u s 乜yw i mg o o di n t e l l i g e n c ea i l d “t i a n v e t 1 1 er e s e a r c hw o r ki ss u p p o r t e db yk e yn a t i o n a ls c i 锄c ea n d t e c l l i l 0 1 0 9 yp m j e c to f t h e ”1 l t l lf i v c y c a r ”p l a l l ,k e yt e c l l l l 0 1 0 9 yr c s e a r c ha l l dd e i t l o n s t r a t i o no f i n t e 零a t e d 砥s kg u a r d i a n s ”( n o 2 0 0 6 b a d 2 0 8 0 2 ) k e y w o r d s :i n t e l l i g e n ts u b j e c tr e c o 姗e n d 州o n ,b t e 8 r a t e d 础s k ,w 曲l 0 9 m i m n g ,f l l z z yc 1 u s t 甜n g i i i 西北大学学位论文知识产板声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:i 也盛 指导教师签名:当丕f 至隧 3 年6 只 j 日 。瞄年6r t7 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北太学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:渊乙葫 、o g 每6 其一日 第一章绪论 第一章绪论 本章主要介绍了推送技术的国内外研究现状,分析了推送技术的优缺点, 分析了综合风险智能主题推送的研究背景及研究意义,给出了文章的主要研究 内容及全文组织结构等内容。 1 1 引言 在i n t e m e t 蓬勃发展的今天,人类进入了一个名符其实的“信息爆炸”时代。 新的信息不断地、迅速地产生,信息量以指数倍猛烈地增长和扩展。美国加利 福尼亚大学伯克利分校研究人员发现,2 0 0 2 年中全球由纸张、胶片以及磁、光 存储介质所记录的信息生产总量达到5 万亿兆字节,约等于1 9 9 9 年全球信息产 量的两倍。换而言之,在1 9 9 9 年到2 0 0 2 年这3 年间,世界范围内信息生产量 以平均每年3 0 左右的速度递增。据中国互联网中心报道【”,截至到2 0 0 7 年6 月3 0 日,中国网站总数达到了1 3 l 万个,网页总数达到4 4 7 亿个,网页字节 总数为1 2 2 ,3 0 6 g b 。由于h t e n l e t 上的信息呈几何级数增长,而这些信息又是极 其无序的,因此想要在这个浩瀚无垠、瞬息多变的信息海洋中迅速、准确地找 到自己所需要的信息无异于“大海捞针”。搜索引擎技术作为信息获取方式得到 了极大的普及,为人们提供了“拉( p u l l ) ”取信息和知识的工具。 虽然g o o g l e 、s o h u 等优秀搜索引擎提供了大量的信息资源,但由于网上信 息极度庞杂,用户面对查到的少则几百条多则上万条甚至更多的“信息”。要确 定哪个网页符合要求就很困难,在带宽和用户时间都有限的情况下,必然导致 用户查找信息犹如大海捞针。特别是对于那些迫切需要查找学术信息的专业人 士来说,找到一种能够在信息海洋中自动获取实用、准确、精炼和优质信息的 方法就显得十分必要。而信息推送技术能够主动地根据用户的需求,将最新的 信息分门别类地传送到相应的用户设备中。目前正在发展成为全球主流的信息 采集、传播模式,并已初步显示出广阔的应用前景。 信息推送技术作为一种新的信息获取手段,能够在无边的信息海洋中自动 截取对口、实用、优质的信息推送给用户。推送技术通过自动将用户感兴趣的 1 第一章绪论 信息传送到用户邮箱中或用户桌面上,来减少用于网络上搜索的时间,它根据 用户的兴趣来搜索、过滤信息,帮助用户高效率地发掘有价值的信息。 1 2 推送技术的研究现状 1 2 1 国外研究现状 推送技术是由p o i n t c 觞t n e t 、v o r k 公司于1 9 9 6 年提出。其目的是为了提高基 于计算机网络的信息获取效率。它最初通过与一些媒体公司合作,利用自己的 推送软件,向因特网用户自动发布各种预先定制的新闻、经济、体育等信息。 使用户不必在网上盲目的点击和游荡,而是像收看广播电视一样,有目的地进 行阅读和预取。因而它从根本上改变了因特网上信息的获取方式,是第二代浏 览器的核心技术。所以各大网络公司如微软、网景等纷纷对它进行研究,希望 自己在技术上处于领先地位。在2 0 世纪9 0 年代中后期,推送技术是最热门的 研究技术。其后的六年中,由于网络技术的限制和网络信息资源的缺乏等原因, 技术的研究有些降温。近年来,r s s ( 砌c hs i t es u m m a r y ,丰富站点摘要) 技术 广泛应用于博客论坛,同时很多门户网站推出了r s s 内容推送服务,r s s 的普 遍应用促使了信息推送技术研究的再次升温。为了推广推送技术,国外一些公 司还专门开发了一些推送软件,如:p o i n t c a s t n e m o r k ,h e a d i n e r p r o f e s s i o n a l , c a s t n 武t u n e r ,d o w n t o w n ,b a c k w 曲等。推送技术在国外的应用获得了迅速的 发展,从最初的i n t e m e 妇l 订a n e t ,扩展到嵌入式系统、广播电视系统及通讯系 统等领域。在应用形式上也由最初e r i 面l 扩展到w w w 上的多种形式及其它应 用领域的多种形式,如手机等移动终端用户。总之,推送技术在国外应用得比 较广泛。不仅在网站建设和信息发布中应用较多,而且在一些企业的内部局域 网上也有大量的应用。如: ( 1 ) 部分金融企业将技术产品嵌入到自己的客户服务子系统中,他们定期 将用户的消费隋况发送给用户。 ( 2 ) 有些企业在自己的局域网内利用推送技术软件,将公司内的有关通知, 统计资料、产品更新信息和价格调整信息等通过h 1 仕a 1 1 e t 及时发给职工。 ( 3 ) 国外图书情报部门,早在2 0 世纪9 0 年代中后期,就开始探讨利用计 2 第一章绪论 算机网络环境更好地满足用户的个人信息需求问题。 1 2 2 国内研究现状 我国对推送技术的研究稍晚于国外,1 9 9 7 年北京世纪集团推出的我国首套 具有推送功能的产品“天唐2 0 0 0 之资讯大使”,标志着我国对推送技术研究 的开始。从1 9 9 7 年至2 0 0 2 年,我国有关推送技术的相关文献有多篇。从收集 的文献看,多数是对这一技术的介绍,存在问题的分析以及应用前景的展望。 然而原创性理论研究的论文很少。从2 0 0 3 年至2 0 0 6 年,我国有关推送技术的 相关文献有4 0 余篇,其中大部分是对推送技术在某一领域的应用研究介绍。可 以看出,我国推送技术的研究的重点发生了变化,即注重实际的应用研究。 上世纪末期,推送技术在我国获得了一定的发展和应用。继北京世纪集团 于1 9 9 7 年推出了我国首套推送产品“天唐2 0 0 0 之资讯天使”之后,1 9 9 9 年 1 2 月1 0 日正式开通的中国金属网站是中国首次采用推送技术建立的专业信息 服务网站。除大唐2 0 0 0 外,北京国信贝斯软件有限公司开发的i b a s eo n e - s h o t 和东北大学东软集团开发的软件也具有推送功能,这些软件主要应用在网站建 设上。i b a s e0 n e s h o t 个性化主动信息服务系统,由于采用了智能代理技术和 推送技术,在某种程度上解决了用户需求的获得、自动检索信息、检索结果信 息的推送这三个用户查找信息的关键性问题,通过对信息的收集、整理、加工、 处理、存储、利用等环节的控制,使信息系统的整体上处于最优状态。企业可 以利用系统快速方便地建立主动、个性化服务的w 曲站点。帮助企业对商业信 息、产品信息和新闻信息等各种信息资源进行有效地分类、快速检索和定向发 布,让用户快速有效地得到所需要的信息,从而改善和优化服务效果。 除计算机领域的专家外,我国图书情报界的一些专家也意识到传统的信息 服务理论越来越难以适应日益多样化的信息服务的需求,开始关注推送技术, 研究网络环境下的主动信息服务体系问题。面向用户的主动信息服务系统的研 究正被学术界越来越多的人士所关注。中国科学院上海文献情报中心己经利用 推送技术实现了基于电子邮件的目次信息推送系统和新书信息推送系统。 自2 0 0 3 年r s s 技术蓬勃发展应用以来,我国的推送服务又加速了发展。 第一章绪论 新华网、新浪网、天极网等大型网站提供了r s s 内容推送服务,用户可以方便 地订阅自己感兴趣的r s s 信息频道。国内的图书情报部门,如中国科学院文献 情报中心、武汉理工大学图书馆等也提供了r s s 频道订阅服务。总的来看,我 国r s s 技术的应用已经很广泛,但应用的层次还有待进一步提高。 1 2 3 推送技术的优势与不足 ( 1 ) 推送技术的优势 推送技术是根据用户需要,有目的、主动地将用户感兴趣的信息发送到用 户的计算机中。推送技术除具有对用户要求低、适用于广大公众、不要求有专 门的技术、及时性好等主要优点外,还具有以下特剧9 : 省时省力。可以节省用户浏览查找信息的时间,避免在网上漫无目标地 点击查询。 提高服务质量。推送服务器可以智能地识别和预测用户的兴趣、爱好, 然后主动搜集用户定制的信息并定期、快速无误、连续地将信息传递给用户, 满足了不同用户的需求。 有效利用带宽。客户方通过使用空闲时段传送数据,可以最大限度地利 用带宽。而服务器方根据组件重用原理将要传送的数据量缩小至最低限度以减 少带宽浪费。 安全性。能够确保推送给用户的内容是安全的,避免对用户的系统造成 破坏。 ( 2 ) 推送技术的不足 推送技术是在因特网得到一定发展,信息拉取技术得到一定应用后产生的。 也就是说,它是为克服信息拉取技术的一些不足而开发的。因而在用户信息获 取方面表现了一定的优点,但在实际的应用中,也暴露了一些不足。总的来说, 推送技术目前存在以下不足。 信息推送的主动性和传统的服务一样存在着只顾信息发出者的需要,而 忽视用户需求的弊端。有些推送带有某种强制性,附加了不少用户并不需要的 广告信息和其他与用户无关的信息。由于信息的分类、整理水平还达不到符合 4 第一章绪论 用户信息需求的程度,因此,推送信息的准确度也有待进一步提高。 针对性差。有价值的重要信息,通常是要针对一些特定的群组来发送的, 即只送给相关人士。从国内外目前开发的一些信息服务软件来看,推送的信息 内容针对性不够强,尚不能完全满足用户的个性要求。 目前的推送软件大多依靠用户递交的需求文档来推送信息,无法主动 地、智能地、及时地获取用户当前的信息需求。 缺乏与用户及时的交互与反馈机制,使信息推送缺乏明确的目的性,推 送的信息与用户现时的信息需求之间存在着滞后现象。 1 2 4 智能主题推送技术 针对上述推送技术的不足,推送技术开始与拉取技术结合,采用先推后拉、 先拉后推、推拉结合的模式,避免了单一推送技术的不足,并且开始向智能化 方向发展。 智能主题推送是指在信息推送的过程中,融入人工智能、信息采集、知识 发现、计算机网络、数据挖掘及数据库存储等多种技术。信息的智能推送有利 于提高推送服务的效率和质量,从而能够主动及时地向用户推送有针对性的信 息,更有效地满足不同用户的需求。 智能主题推送技术利用知识发现和数据挖掘技术发掘隐性知识,并使之向 显性知识转化。知识发现和数据挖掘技术是一种高层次的技术,能够从历史的 隐性知识中发掘出新的显性知识和挖掘用户兴趣、爱好。 智能主题推送技术的工作原理是根据用户模型寻找与其匹配的信息,或者 寻找具有相近兴趣的用户群而后相互推荐浏览过的信息。智能主题推送技术根 据用户兴趣主动地将信息推送给用户,减少了用户寻找信息的时间。 1 3 课题背景及研究意义 目前,我国是世界上自然灾害最严重的少数国家之一。据统卅6 1 ,2 0 0 6 年 全国因自然灾害死亡3 1 8 6 人,紧急转移安置1 3 8 4 5 万人( 次) ;农作物受灾面积 4 1 0 9 1 f 3 千公顷,其中绝收面积5 4 0 8 9 千公顷:倒塌房屋1 9 3 3 万间;因灾直接 第一章绪论 经济损失2 5 2 8 1 亿元。中国民政部公布的2 0 0 7 年中国自然灾害和救灾工作情 况显示,2 0 0 7 年中国各类自然灾害共造成约4 亿人( 次) 不同程度受灾,因灾死 亡2 3 2 5 人,紧急转移安置1 4 9 9 万人( 次) ;农作物受灾面积7 _ 3 亿亩,其中绝收 面积8 6 2 0 万亩;倒塌房屋1 4 6 万间因灾直接经济损失2 3 6 3 亿元。2 0 0 7 年以来, 中国气候异常,降雨严重不均,极端天气事件频繁,多灾并发,点多面广,部 分地区重复、连年受灾,局部地区雨情、汛情、旱情、灾情超历史记录。2 0 0 7 年中国自然灾害主要呈现出5 个特点:一是多灾并发,水旱灾害损失重,二是 点多面广,重复受灾区域大。三是气候异常,极端天气事件发生多。四是登陆 台风偏晚偏多,人员伤亡和损失少。五是城市受灾,经济社会影响程度深。造 成人口死亡的主要灾种是洪涝和滑坡泥石流,约占全国总量的6 3 ,其次是风 雹灾害;因灾致死的主要原因分别是被洪水冲走( 溺水) 、雷击、山体坍塌和泥 石流掩埋、建筑物倒塌,其中雷击致死的比重从2 0 0 6 年的1 4 上升为2 5 , 雷击致死人数明显高于往年。随着社会经济的发展和人类活动的增强,自然灾 害的损失还在以更快的速度增长,给人民生命财产带来了巨大损失,严重影响 了我国的可持续发展。为了推进我们自然灾害综合风险防范的数字化、信息化 建设,国内许多风险防范方面的研究所、高校、政府部门等纷纷建立起自己的 综合风险信息服务网站。 本课题来源于“十一五”国家科技支撑计划重点项目。为贯彻国家中长 期科学和技术发展规划纲要( 2 0 0 6 2 0 2 0 ) 精神,落实“农业领域”中保障农 业生态安全,以及“公共安全领域”提高国家综合减灾能力的目标,科技部决 定启动综合风险防范关键技术研究与示范重点项目,该项目通过专家论证, 进入实施阶段。通过该项目的实施,将形成我国综合风险防范的关键技术体系, 开发若干项具有自主知识产权的技术、专利和软件,形成综合风险防范关键技 术研究与示范系统,制定完善我国综合风险分类体系、评价标准,以及综合风 险防范的制度体系,实现我国综合风险防范能力提升与改善关键技术的跨越式 发展,为我国综合减灾能力的提高及风险防范体系的建立提供先进技术支撑。 在综合风险防范关键技术研究与示范重点项目中通过基于搜索引擎和 主题网关建立的综合风险防范关键技术研究与示范系统为广大的综合风险防范 工作者、科研人员、民政部门以及林农提供了大量的综合风险信息,以便进行 6 第一章绪论 灾害风险的分析。但是由于风险信息资源类别繁多,数据纷繁复杂,对于某一 类特定用户来说,其需求可能是特定的,局限于某一个或几个类型范围内的, 而通过搜索来的信息往往非常庞大,而在大量的信息中寻找自己需要资源就会 花费很大的精力和时间。在这种情况下人们迫切需要更主动、更智能的信息服 务,建立主题服务成为迫切需要。在这种背景下,智能主题推送技术的使用成 为必然,它将为广大的综合风险防范工作者、科研人员、民政部门等工作人员 获取需要的风险信息资源提供途径,必将大大推动我国自然灾害风险防范信息 化工程的建设。 1 4 本文主要研究内容和组织结构 本文针对综合风险防范关键技术研究与示范重点项目中对主题服务 相关要求,对智能主题推送中的关键技术展开研究,实现了基于数据挖掘的 合风险智能主题推送系统。主要内容包括:对w 曲日志挖掘中预处理的各个 骤进行了深入研究,并对相关步骤的算法进行了改进,给出了每个步骤的算 实现;分析研究了k - 均值聚类算法和模糊l - 均值聚类算法,并对模糊k 均值 类算法进行了去除空簇的改进,对改进算法进行实验,证明了改进算法的有 性;针对项目的特点,提出了基于用户主题兴趣度矩阵使用模糊k 一均值聚类 法实现用户聚类的方法,从而实现了用户访问模式挖掘;采用基于改进的模 k ,均值聚类的协同过滤推送算法,对目标用户根据所在的用户兴趣度相似群 行相似性计算。依据计算的预测兴趣度生成针对目标用户的推送集。 论文结构安排如下: 第一章介绍了智能主题推送技术的国内外研究现状和面临的挑战。根据课 题背景的介绍,阐述了构建综合风险智能主题推送系统的必要性。 第二章介绍了数据挖掘和w e b 挖掘的基本知识。包括数据挖掘的概念、过 程和数据挖掘的主要技术方法,w e b 挖掘的基本概念和w 曲挖掘的分类等相关 知识理论。 第三章详细介绍了w 曲日志挖掘数据预处理的过程及方法。包括数据清 洗、用户识别、会话识别、路径填充和事务识别等主要步骤,并对相关步骤进 7 的综步法聚效算糊进 第一章绪论 行了改进,给出了每个步骤的算法实现。 第四章针对风险项目的实际情况,提出了将模糊聚类算法应用到系统模型 的构建中。主要介绍了模糊聚类的相关知识,对l 【- 均值聚类算法和模糊k 均值 聚类算法进行了深入研究,给出了模糊k 均值聚类算法的改进算法,并进行实 验比较,证明了改进算法的有效性。 第五章重点介绍了用户访问模式挖掘和推送算法。对传统的基于用户浏览 兴趣度构建用户访问矩阵的方法进行了改进,提出了基于用户主题兴趣度矩阵 使用模糊k 均值聚类算法实现用户聚类的方法。基于用户聚类的结果,使用基 于改进模糊聚类的协同过滤推送算法为用户推送感兴趣的页面集。 第六章设计并实现了综合风险智能主题推送系统。对系统框架、系统特点、 系统各模块设计和系统运行结果分别进行了介绍。 第七章总结了本文的工作,并对综合风险智能主题推送技术进行了展望。 第二章智能主题推送技术理论基础 第二章智能主题推送技术理论基础 本章介绍了数据挖掘和w 曲挖掘的基本知识。包括数据挖掘的概念、过程 和数据挖掘的主要技术方法,w 曲挖掘的基本概念和w 曲挖掘的分类。 2 1 数据挖掘知识 2 1 1 数据挖掘概念和过程 数据挖掘a t am i n i i l g ) ,就是从大量的、不完全的、有噪声的、模糊的、 随机的资料中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信 息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以 是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。 这些知识可以表示为概念、规则、规律、模式等形式。发现知识的方法可以是 数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识 可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自 身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领 域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据 库、人工智能、数理统计、可视化、并行计算等技术。 数据挖掘过程一般由三个主要的阶段组成:数据准备阶段、数据建模( 数据 挖掘) 阶段、模型应用阶段。数据挖掘可以描述为上述三个阶段的反复过程。 ( 1 ) 数据准备阶段主要包括三个步骤:数据集成、数据选择和数据预处理。 数据集成是指从多个数据源( 文件、数据库) 中提取整合数据,并对数据进行处 理,解决语义模糊性,清除脏数据、空数据等。数据选择是指根据数据挖掘的 目的选择需要挖掘的数据集合,进而缩小需要挖掘处理的数据范围,提高数据 挖掘的质量和效率。数据预处理是研究数据的质量,为进一步的分析做准备, 并确定将要进行的挖掘操作的类型。 ( 2 ) 数据建模阶段主要包括三个工作:算法的选择和参数的确定、对模型 进行训练、测试模型。这个阶段需要不断的往复,直到取得最令人满意的模型 第二章智能主题推送技术理论基础 为止。 ( 3 ) 模型应用阶段是在得到满意的模型后,对新的数据进行解释或者对未 来的数据进行预测。 2 1 2 数据挖掘的主要技术方法 数据挖掘的方法大致可分为:机器学习方法、统计方法、神经网络方法和 数据库方法。其中,机器学习又可分为:归纳学习方法、基于范例学习、遗传 算法等。统计方法可分为:回归分析、判别分析、聚类分析、探索性分析等。 神经网络方法可分为:前向神经网络、自组织神经网络等。数据库方法有多维 数据分析、面向属性归纳的方法。本节介绍几种比较典型的方法,分别是关联 分析、分类分析、聚类分析和序列模式分析。 ( 1 ) 关联分析 关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关 联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如 a p r j 0 、s t e m 、a i s 、d h p 等算法。关联分析的目的是挖掘隐藏在数据间 的相互关系,它能发现数据库中形如“9 0 的顾客在一次购买活动中购买商品a 的同时购买商品b ”之类的知识。 ( 2 ) 分类分析 分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述, 建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录 进行分类。举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录, 公司根据信誉程度,已将持卡人记录分成三类:良好、一般、较差,并且类别 标记已赋给了各个记录。分类分析就是分析该数据库的记录数据,对每个信誉 等级做出准确描述或挖掘分类规则,如“信誉良好的客户是指那些年收入在5 万元以上,年龄在4 0 5 0 岁之间的人士”,然后根据分类规则对其它拥有相同 属性的数据库记录进行分类。目前已有多种分类分析模型得到应用,其中几种 典型模型是线性回归模型、决策树模型、基本规则模型和神经网络模型。 ( 3 ) 聚类分析 第二章智能主题推送技术理论基础 聚类分析就是通过分析数据库中的记录数据,根据一定的分类规则,合理 地划分记录集合,确定每个记录所在类别。它所采用的分类规则是由聚类分析 工具决定的。聚类分析的方法很多,其中包括系统聚类法、分解法、加入法、 动态聚类法、模糊聚类法、运筹方法等。采用不同的聚类方法,对于相同的记 录集合可能有不同的划分结果。 ( 4 ) 序列模式分析 序列模式分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但 序列模式分析的侧重点在于分析数据问的前后序列关系。它能发现数据库中形 如“在某一段时间内,顾客购买商品a ,接着购买商品b ,而后购买商品c , 即序列a b c 出现的频度较高”之类的知识,序列模式分析描述的问题是: 在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘 序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在 进行序列模式分析时,同样也需要由用户输入最小置信度c 和最小支持度s 。 2 2 w e b 挖掘知识 2 2 1 w 曲挖掘的基本概念 随着i n t e m e t 的迅速发展和w 曲技术的广泛应用,出现了大量的在线文本, 这个巨大的非结构化数据海洋中蕴涵着极其丰富的有用信息和知识。同时,w 曲 本身包含丰富、动态的超链接信息和w 曲页面的访问和使用信息。但传统的数 据挖掘技术难于胜任对这些数据的挖掘。w 曲挖掘应运而生,它挖掘的对象是 海量、异构、分布式的文档以及服务器日志。w 曲挖掘是对w 曲文档的内容、 w 曲上可利用资源的使用情况以及资源之间的关系进行分析,从中发现有效的、 新颖的、潜在有用的、并且最终可理解的模式【2 。 2 2 2 w e b 挖掘的分类 w 曲上信息的多样性决定了w 曲挖掘任务的多样性,根据w e b 挖掘对象 的不同,可以将w e b 挖掘分成w 曲内容挖掘( w 曲c o m e n tm i n j n 曲,w e b 结构 挖掘( w 曲s t n l c t u r em i i l i n 曲,w 曲使用挖掘( w e bu s a g em i n i n g ) 三类。 儿 第二章智能主题推送技术理论基础 ( 1 ) w 曲内容挖掘 w e b 内容挖掘是指对w 曲页面内容进行挖掘,从文本,图像,音频,视 频等各种形式的网络资源中发现所需的特定化信息。w 曲内容挖掘的重点是页 面分类和聚类。w 曲页面的分类是根据页面的不同特征,将其划归为事先建立 起来的不同的类。w 曲页面的聚类是指在没有给定主题类别的情况下,将w 曲 页面集合聚成若干个簇,并且同一簇的页面内容相似性尽可能大,而簇之间的 相似度尽可能小。w 曲内容挖掘可分为w 曲文本挖掘和w 曲多媒体挖掘,针 对的对象分别是w 曲文本信息和w e b 多媒体信息。 ( 2 ) w 曲结构挖掘 w 曲结构挖掘是指对w 曲潜在的链接结构模式进行挖掘,从w 曲组织结 构和链接关系中推导信息与知识的过程。w 曲结构挖掘的思想源于引文分析, 即通过分析一个网页链接和被链接数量以及对象来建立w 曲自身的链接结构模 式。该模式可用于网页分类,并由此获得有关不同网页间相似度及关联度的信 息,并有助于用户找到指向相关主题的权威站点。s p e r t l l s 在p 鄹i t e 系统圳中提 出一种比较简单的w e b 结构知识挖掘方法,该方法把超级链接按方向分成向上 链接、向下链接、交叉链接、向外链接。对于网络搜索而言,一个重要的问题 是要找到对某个搜索主题而言可以当作权威信息源的一些网页【2 5 。 ( 3 ) w 曲使用挖掘 w 曲使用挖掘是用挖掘w 曲服务器日志获取的信息来预测用户浏览行为的 技术,指从用户的访问日志中挖掘用户的访问模式。w 曲内容挖掘和w 曲结构 挖掘的对象是网上的原始数据,而使用挖掘的数据来自于用户使用网络的过程 中,即在用户和网络交互的过程中抽取出来的第二手数据,这些数据包括服务 器的访问记录、代理服务器日志文件、浏览器日志记录、用户注册信息、用户 对话或交易信息等其它信息。现在研究较多的是对日志文件的挖掘。w 曲使用 挖掘己成功应用到个性化推荐、系统改进以及商业智能等方面【29 1 。w 曲日志挖 掘方法可分为基于w 曲事务的方法和基于数据立方的方法。前者是将用户会话 划分成事务序列,然后采用数据挖掘的方法挖掘频繁路径等知识,后者则将w e b 日志组织成数据立方用于数据挖掘和o l a j p 。目前比较成功的应用产品包括 w 曲m i n e r 和w 曲s i t e 【3 1 j 2 1 等。w 曲使用挖掘一般分为三个步骤:数据预处理, 1 2 第二章智能主题推送技术理论基础 模式挖掘和模式分析,如图2 1 所示。 图2 1 w e b 使用挖掘流程 三种w 曲挖掘的类型比较如表2 1 所示。 表2 1w c b 挖掘类型比较 和模式 w 曲内容挖掘w 曲结构挖 w e b 使用挖 信息检索观点数据库观点掘掘 数 据 非结构化、半结构化 半结构化、数据库形式 链接结构 交互形式 形的网站 式 主 要 服务器日志 数 文本文档,超文本文档 超文本文档链接结构记录、浏览 据 器日志记录 表词、短语、概念或实体、边界标志图( o e m ) 、关系型表、 图形 不关系型数据关系型数据图形 机器学习、 方t f i d f 和变体、机器学 p r o 州咖r y 算、法、i l p 、p r o p r i e t a r y 算 统计学、修 法 习、统计学修改后的关联规则 法 改后的关联 规则 应 归类、聚类、发掘抽取 站点建设、 规则、发掘文本模式、 发掘高频的子结构、发 归类、聚类 改进和营 用掘网站体系结构销、建立用 建立模式 户模式 2 3 本章小结 本章介绍了数据挖掘和w 曲挖掘的基本知识。包括数据挖掘的概念、过程 和数据挖掘的主要技术方法,w 曲挖掘的基本概念和w 曲挖掘的分类。 第三章w 曲日志挖掘预处理的研究 第三章w e b 日志挖掘预处理的研究 数据预处理是w 曲日志挖掘的第一阶段,是对w 曲日志文件中的数据进行 提取、分解、合并,最后转化为适合进行数据挖掘的数据格式,并保存到数据库 中,等待进一步的处理。该阶段包括数据清洗、用户识别、会话识别、路径填充、 事务识别等步骤。预处理的结果好坏直接影响到挖掘算法产生的规则与模式,是 保证w e b 日志挖掘质量的关键。 3 1 w e b 日志数据采集 在w 曲日志挖掘中,数据最直接的来源是w 曲服务器上的w 曲日志文件。 w 曲日志文件非常明确地记录了访问者的浏览行为,因此在w e b 日志挖掘中有 很重要的地位。 w e b 用户访问日志分别记录在三个地方:客户端、代理服务器端和w 曲服 务器端。三种日志数据集记载了用户使用网络资源的不同模式。客户端浏览器记 录了单个用户对单个站点或单个用户对多个站点的用户访问情况;w 曲服务器的 日志则记录了多个用户访问单个网站的情况,服务器方具有w 曲站点的完整的 结构信息,电子商务交易信息等;代理服务器日志跟踪记录了多个用户访问多个 网站的情况,同时代理服务器内部的c a c h e 内,也记录了多个用户对多个站点的 访问内容。三种日志数据集的数据类型、反映用户浏览行为的信息和获取相应信 息的方法差异很大。代理服务器和w 曲服务器日志数据的收集是由服务器自动 记录的,客户端日志数据则需要有专门的程序收集,比如客户端的代理软件或者 经过修改的浏览器等。相对而言,w 曲服务器端日志格式标准化程度是最高的。 w e b 服务器记录的日志反映出多个用户对单个站点的访问行为。根据w 3 c 的h t t p 说明,w 曲服务器日志主要包括:u 也、动作、资源的类型、资源的 大小、请求的时间、在资源上停留的时间、请求者的h l t e l e t 域名、用户、服务 器状态等。其它的还有站点描述数据以及概念层次,描述数据主要有站点拓扑结 构的描述以及每个w 曲页上的元数据,比如:页描绘纪录,概念层次等。w 曲服 务器日志记录了用户访问该站点时每个页面的请求信息。日志记录的格式主要分 4 第三章w c b 日志挖掘预处理的研究 为两种:通用日志格式c l f ( c o m m o nl o gf o 蚰a t ) 和扩展通用日志格式 e c l f ( e x t e n d e d c o m m o n l o g f o n n a i ) 。一般服务器上存放的日志文件为c l f ,其 主要结构如表3 1 所示。 表3 1 服务器日志文件格式 域描述选择 日期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论