




已阅读5页,还剩55页未读, 继续免费阅读
(计算机科学与技术专业论文)面向互动型网络媒体的不良信息检测与过滤.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 互动式网络媒体技术使得信息传播形式由传统的单向进行转变为交互式的双向进 行。它具有快捷性、多渠道性和广泛性等特点。另一方面,互动式网络也为不良信息的 发布提供的便利渠道。近年来,如何从大量的w e b 信息资源中检测及过滤不良信息成为 学术界和商界广泛关注的课题。 网络论坛是互动式媒体的一个典型代表,本文以网络论坛为研究对象,通过查阅相 关文献资料,回顾了信息过滤技术的相关理论,并主要完成了以下研究工作: ( 1 ) 实现网络论坛信息的自动抽取。本文分别从网络论坛站点结构和页面信息块进 行信息抽取,采用基于h t m l 结构的信息抽取技术,先用h t m l 解析器将h t m l 文档 解析成d o m 树,然后通过对d o m 树的操作实现信息抽取。 ( 2 ) 实现了面向网络论坛文本的预处理和模型表示。本文根据网络论坛的结构特点, 提出了一种改进的特征权重算法来计算特征项的权重,采用基于词条的向量空间模型来 表示网络论坛文本的内容,向量中的每一维元素被称为一个特征项。 ( 3 ) 建立网络不良信息过滤器。本文分析和总结了不良信息的内容、结构和传播特 征,根据不良信息的特点,采用了一种基于朴素贝叶斯的改进算法,建立了不对称贝叶 斯过滤器,并根据过滤模型的评价指标验证信息过滤的效率。 ( 4 ) 设计并实现了互动网络媒体不良信息过滤系统。本文采用了二级过滤策略,将 基于关键词过滤技术和内容过滤技术有机结合,对经关键词过滤后的可疑样本再进行内 容过滤;根据不良信息分布的不均衡性,建立了朴素贝叶斯分类器和不对称贝叶斯分类 器进行信息过滤;最后,通过实验比较了两种分类器的性能。 关键词:互动型网络媒体;不良信息过滤;向量空间模型;贝叶斯分类 英文摘要 h a r m f u li n f o r m a t i o nd e t e c t i o na n df i l t e r i n gt o w a r d i n t e r a c t i v ew e bm e d i a a b s t r a c t t h ei n f o r m a t i o nc o m m u n i c a t i o n s t y l e h a sb e e n c h a n g e df r o m t h et r a d i t i o n a l u n i d i r e c t i o n a ld e l i v e r i n gt ot h ei n t e r a c t i v eb i d i r e c t i o n a ld e l i v e r i n gi nt h ei n t e r a c t i v en e t w o r k 纳m e 、) t l 【,w h i c hb r i n g sm u c hb e n e f i tf o ru ss u c ha su n i v e r s a l i t y ,t i m e l i n e s s ,a n d m u l t i - c h a n n e lc h a r a c t e r i s t i c ,e t c o nt h eo t h e rh a n d ,i tp r o v i d e sm u c ho p p o r t u n i t yf o rt h e d i s t r i b u t i o no fh a r m f u li n f o r m a t i o n r e c e n t l y ,h o wt od e t e c ta n df i l t e rt h eh a r m f u li n f o r m a t i o n f r o mw e bd a mh a sb e e nah o tt o p i ci n t h ew e b m i n i n gc o m m u n i t y t h i st h e s i st a k e sn e t w o r kf o r u m ,ar e p r e s e n t a t i v em o d a l i t yo ft h ei n t e r a c t i v em e d i af o r a l le x a m p l e ,a n ds t u d i e sf o l l o w i n gc o n t e n t s : ( 1 ) a u t o m a t i ci n f o r m a t i o ne x t r a c t i o n i no r d e rt oe x t r a c tt h ei n f o r m a t i o na u t o m a t i c , t h i sa r t i c l es e p a r a t e l ye x t r a c t st h ei n f o r m a t i o nf r o mt h en e t w o r kf o r u ms t r u c t u r ea n dt h ep a g e b l o c ko fi n f o r m a t i o n f i r s t l yu s e st h eh t m lr e s o l v e rt oa n a l y z et h eh t m ld o c u m e n t st h e d o m t r e e ,s e c o n d l ye x t r a c tt h ei n f o r m a t i o n e x t r a c t i o nf r o md o m t r e e ( 2 ) t e x tp r e p r o c e s s i n ga n dr e p r e s e n t a t i o nt o w a r d st ow e bf o r u md a t a a c c o r d i n gt o t h en e t w o r kf o r u mf e a t u r e ,p r o p o s e dak i n do fi m p r o v e m e n t sc h a r a c t e r i s t i cw e i g h ta l g o r i t h m , w h i c hu s e st h en e wf u n c t i o ns u b s t i t u t i o n 。u s e dv e c t o rs p a c em o d e lt oe x p r e s st h ew e b f o r u mc o n t e n t ,i nw h i c he l e m e n ti sc a l l e daf e a t u r e ( 3 ) c o n s t r u c t i n gt h 6f i l t e rf o rt h eh a r m f u li n f o r m a t i o ni nw e bf o r u m t h i sa r t i c l e a n a l y z e sa n ds u m m a r i e st h e h a r m f u li n f o r m a t i o nc o n t e n t , t h es t r u c t u r ea n dt h ed i s s e m i n a t i o n c h a r a c t e r i s t i c a c c o r d i n gt oh a r m f u li n f o r m a t i o n , t h en a i v eb a y si m p r o v e m e n ta l g o r i t h mw a s u s e d , w h i c hw a su s e dt oe s t a b l i s ht h ea s y m m e t r i c a ln a i v eb a y sf i l t e r a l s of i l t e rm o d e l s e v a l u a t i n gw a si n t r o d u c e d ( 4 ) d e s i g na n di m p l e m e n t a t i o no fh a r m f u li n f o r m a t i o nf i l t e r i n gs y s t e m t h i sa r t i c l e h a su s e dt h es e c o n d l e v e lf i l t e rs t r a t e g y t h es u s p i c i o u ss a m p l ep 俎 l i e so nt h ec o n t e n tf i l t e r a f t e rp a s s i n gt h r o u g ht h e k e yw o r df i l t r a t i o n a c c o r d i n gt o t h eh a r m f u li n f o r m a t i o n d i s t r i b u t e dd i s p r o p o r t i o n a l l y ,w es e p a r a t e l ye s t a b l i s ht h en a i v eb a y ss o r t e ra n dt h e 热文摘要 a s y m m e t r i c a lb a y ss o r t e r a tl a s t ;t w ok i n do fs o r t e r sp e r f o r m a n c ew a sc o m p a r e dt h r o u g h t h ee x p e r i m e n t 。 k e yw o r d s :w e bm e d i a :h a r m f u li n f o r m a t i o nf i l t e r i n g :v s m : b a y sc l a s s i f i e s 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成 博硕士学位论文= = 亘囱互动型圆终基签丝丕基值皇拴型皇过洼= = 。除论文中已经 注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表 的成果。本声明的法律责任由本人承担。 学位论文作者签名: 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文 的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学 位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库( 中国学术 期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技术信息研究 所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后 遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密口( 请在以上方框内打“4 ) 论文作者签名师签名:砌 砷年7 月红日 面向互动型网络媒体的不良信息检测与过滤 第1 章引言 1 1 论文研究背景及意义 伴随网络的发展,基于网络的信息交流变得十分频繁。其信息传播具有广泛性、实 时性、互动性、用户主导等主要特征。其中互动性是网络媒体独特和最显著的功能【l 】。 网络信息传播的互动性是指传受双方的信息双向传播,当传播者将自己的信息在网络上 传播之后,接收者对信息做出反馈,实现信息交流的双向互动【2 】。网络信息传播使传统 的线性叙事、单向传播转变为立体式发布、双向互动传播。网络媒体的互动功能表现为 信息的传递和接收方之间的双向互动交流,如网络论坛( b b s ) 、电子论坛、网上调查、 网络聊天室、留言板、新闻跟贴、e m a i l 方式的读编交流等。其中,网络论坛( b b s ) 最为常见p 圳。 互动信息具有及时性、快捷性、多渠道性和广泛性等特点。人们可以轻松地享有互 联网所提供的丰富信息;但同时网络垃圾信息也随之而生,人们越来越容易遭受到色情、 反动、暴力、迷信等不健康信息的侵袭。这些不良信息深深地毒害着人们的思想,腐蚀 着人们的灵魂,给社会秩序造成了极大的危害【5 】。网络不良信息种类繁多,形式多样, 大体可以分为互联网上出现的违背社会主义精神文明建设要求,违背中华民族优良文化 传统与习惯,以及其它违背社会公德的各类信息,包括文字、图片、音视频等形式1 6 1 。 从其危害性来说,网络不良信息是指互联网上对人的身体造成损害,给人的精神带来污 染,使人的思想产生混乱,让人的心理变得异常的垃圾信息,它们包括色情信息、暴力 信息、迷信信息等【7 - 9 。 不良信息过滤与普通意义上的信息过滤有着较大的差别,普通的信息过滤是指从动 态的信息流中将满足用户喜好的有用信息挑选出来【1 0 1 ,这需要用户的合作,需要用户对 信息进行反馈或者群体合作,而不良信息过滤大都直接处理过滤结果,基本不需要用户 的参与。本文以互动型网络媒体的典型代表网络论坛为例,针对其中出现的不良信息, 通过开展不良信息过滤的研究。一方面,可以有效的识别出不良信息,另一方面,通过 建立不良信息过滤模型,避免互联网带来的负面影响。提高因特网上不良信息的过滤技 第l 章引言 术,不仅可以丰富信息资源管理,而且可以更好地利用各种信息资源,防止和控制不良 信息的侵入,从而为加速我国社会信息化的进程、构建和谐社会服务【1 1 】。 1 2 国内外研究现状 自从1 9 8 2 年,d e n n i n g 提出信息过滤( i i 响m l a t i o nf i l t e r i n g ) 的概念以来【1 2 】,对信息监 控与过滤技术的研究就越来越受到人们的重视。 1 2 1 国外研究现状 m f l o n e 等学者于1 9 8 7 年在c a c m 上发表了一篇很有影响的文章,他构造了名为 “i n f o r m a t i o nl e n s ”的系统,提出了三种信息选择模式:认知、经济、社会【1 3 】。他们发 现了两种主要的过滤方法:( 1 ) 认知过滤,采用一种机制,描述消息内容和消息接受者的 信息需求特征,然后用这些描述智能化地将消息与接受者的要求进行匹配;( 2 ) 社会过滤, 在一个团体中,利用个人和组织中个体间相互关系进行过滤。 j e n n i n g s & h i g u c h i 在1 9 9 2 年采用神经网络分类模型来对文本的关联性进行分类 【1 4 】。神经网络模型不仅表示了词与词之间的相互联系,同时还可以表达出并未出现的但 仍与一类文本与其主要概念相关的词。经过等级划分的文章,根据阈值进行过滤, b r o w s e 的一个子程序负责更新神经网络模型,在每个阅读阶段用户评估检索的文章 之后运行。 r a s k u t t i 等学者在描述用户习惯的基础之上,提出了用户模型的探索式统计方法, 采用客户机服务器结构的v o d 实验服务系统;根据用户的喜好,抽取那些与用户相关 的信息,使用户能够在大量的信息中获取自己感兴趣的信息”】。根据用户的爱好,使用 探索式统计方法建立用户模型,并以此创建索引,然后在线推荐选择出来的内容,系统 的新颖之处在于用户模型有两种:否定的用户模型和肯定的用户模型。 c i t e s e e a 等学者提出了一种新的方法:伪文档,伪文档就是表示用户研究兴趣的用 户模型部件,是一些从出版物( 杂志、期刊等) 中摘录出的代表信息特征的占位符【1 6 1 。 伪文档有两种方法来优化用户模型,一种是通过手工更新用户模型,另外是通过浏览数 据库赖优化模型。这两种方法实际上都是通过修改它们存储在伪文档中的用户模型来更 - 2 - 面向互动型网络媒体的不良信息检测与过滤 新的,在客户端,使用c o o k i e 分配一个唯一的用户识别码,这样每个用户就可以应对一 个唯一的用户模型。 j i n h w ak i m 等学者设计了基于用户知识的动态w e b 内容过滤【1 7 】。他们采用了基于 用户知识的多分类映射规则( m c i r ) 过滤方法,由领域专家维护知识库。通过实验 表明,该规则能够阻止未知w e b 内容进行访问。 1 2 2 国内研究现状 中文信息过滤的研究起步较晚,目前中文信息过滤和推送系统主要还是基于关键词 规则的过滤,真正的文本过滤研究较少:但随着t r e c 会议提供了较为成熟的评测过滤 系统的指标,国内的很多研究机构相继开展了信息过滤技术特别是面向中文的信息过滤 技术的研究,积累了很多宝贵的经验,也取得了一些不错的成绩。 田范江等人提出的进化式信息过滤方法,该方法通过类似自然选择的过程,从多个 剧毒描述用户的需求信息;同时还引入了继承、类数等一些面向对象程序设计语言中的 常概念,增加了系统的易用性,这种方法有较好的效率,可以缩短文本训练时间,提高 过滤质量。 苏贵洋、马颖华等人从不良信息中最为普及的中文色情文本过滤入手,用近邻法算 法构造对比了4 种特征项选择的方法在色情文本中应用,它们分别是字、词、标点符号 和词性等特征【1 9 1 。实验表明,所设计的过滤器在保证速度的前提下,很好的完成了基于 内容的高精度过滤。 黄萱菁采用了一种基于文本分类技术的文本过滤算法,把基于v s m 的主题分类算 法与文本态度分类结合起来【2 0 1 。实验结果表明,该方法具有较高的精度和召回率,同时 在实际应用中也取得了很好的效果。 胡娟丽、姚勇、刘志镜采用了内容过滤和协同过滤相结合的混合过滤模式,利用高 级语义知识进行w e b 文档的主题归类,并引入了典型推荐的思想把用户进行归类2 1 1 。 文档和用户的兴趣文件根据文档( 兴趣文档) 在分类主题上的概率分布来表示,通过典 型反馈信息进行用户兴趣文件的更新,获得了较好的结果。 - 3 - 第1 章引言 陆宏菊等人在基于遗传算法的信息过滤系统中引入模糊聚类思想【2 2 1 。对种群中的每 个个体进行模糊相似矩阵直接聚类,然后根据聚类的结果采用所提出的适应度函数来评 估种群的适应度,通过迭代训练得出更准确的用户兴趣模板,从而提高了信息过滤的准 确率。 邢春晓、高凤荣等人对传统的协同过滤算法中不能及时反映用户的兴趣变化问题进 行了改进,提出了两种改进度量1 2 3 】:基于时间的数据权重和基于资源相似度的数据权重, 在此基础上将它们有机结合,并将这两种权重引入基于资源的协同过滤算法的生成推荐 过程中。 1 2 3 现存的问题 不良信息过滤可以基于机器学习理论,使用文本学习和文本分类等技术。在处理英 文自动分类过程中,提出了多种比较成熟的算法,取得了一定的成绩,但已有的这些文 本处理技术大多都是以英语为研究对象发展起来的,因此具有一定的局限性,这些算法 用来处理汉语是,效果不是很理想,这使得中文文本的处理无法直接套用西方已成熟的 理论和技术。中文文本过滤技术在最近得到了业内人士的普遍关注。一方面是随着英特 网的迅速发展和用户需求的不断增加,另一方面是网上中文信息以前所未有的速度递 增,这些都为中文文本过滤技术提出了更高的要求。就面向中文的文本过滤系统而言, 国内的研制还处在初级阶段。研究人员也提出了一些中文文本过滤的信息分流机制和基 于范例的中文文本过滤模型等重要的方法和思想f 2 4 1 ,所开发的实验系统在不同领域所达 到的过滤精度却不是很好。国内在中文文本分类领域也进行了大量的研究,但针对不良 文本过滤进行的工作尚不多见。 因此本文从中文文本分类领域着手,对如何过滤不良文本信息进行研究;同时考虑 到互动型网络媒体的代表网络论坛的语言特点和结构特点,对文本的向量表示和分类模 型进行适当改进。 1 3 论文研究内容及组织 本文主要研究了互动型网络媒体的典型代表网络论坛,根据网络论坛的特点,实现 对网络论坛的信息抽取和文本表示;根据不良信息的特征,设计出了不良信息过滤模型。 面向互动型网络媒体的不良信息检测与过滤 实现计算机对网络论坛的信息监控。本文共分为六章: 第一章首先介绍课题的研究背景,然后分别概述了国内外关于信息过滤的研究现状 和存在的问题。 第二章是本论文的理论基础部分。分析和总结了不良文本的特征表示,介绍信息过 滤的概念及相关技术,信息过滤与文本分类和文本检索之间的关系。 第三章主要以互动型网络媒体的代表网络论坛为例,讨论了如何表示互动型网络媒 体上的信息。采用基于h t m l 结构的信息抽取技术,先用h t m l 解析器将h t m l 文档 解析成d o m 树,然后通过对d o m 树的操作实现信息抽取。同时,根据网络论坛的特 点,讨论了经预处理后如何更好的进行文本表示。 第四章主要讨论了信息过滤中涉及到的一些关键技术,过滤模型和信息过滤评估方 法。重点介绍了朴素贝叶斯分类的相关理论,采用了一种对朴素贝叶斯算法进行改进的 新算法,建立了不对称贝叶斯过滤器。 第五章详细描述了所设计和实现的互动型网络媒体不良信息过滤系统。介绍了过滤 系统流程、系统的主要模块以及开发环境;根据不良信息分布特征,建立了朴素贝叶斯 分类器和不对称贝叶斯分类器,并进行试验论证。 第六章对本文的工作进行了总结,并对下一步的研究工作提出了若干设想。 - 5 - 第2 章信息过滤基础 第2 章信息过滤基础 信息过滤( i n f o r m a t i o nf i l t e r i n g ) 一直是伴随着信息检索( i n f o r m a t i o nr e t r i e v a l ) 而 长期被人们研究,信息检索2 5 】就是用来描述寻找符合人们兴趣的信息处理过程,即从大 量的动态产生的信息中找出最忠实地满足用户真实所需的信息,且屏蔽其它无用的信 息。信息过滤【2 6 】是一种系统化的方法,用来从动态的信息流中抽取出符合用户个性化需 求的信息;而传统的信息检索则是从静态数据库中查找信息。信息过滤系统检查所有的 进入信息流并与用户需求进行匹配计算,只将用户需要的文档送给用户。 2 1 不良文本的特征 2 1 1 不良文本的用词特征 由于非法文本的特殊性,除了极少数的非法文本中的词是以正常的形式表示外,一 般的非法文本中的用词常常以非正常形式出现,以此逃避基于关键词的过滤。对非法文 本用词的特征采取以下办法加以处理: ( 1 ) 使用特殊符号间隔敏感词的识别处理方式 汉语的书面用法通常是以逗号、句号等符号断句的,文本分词也是以断句符号标志 进行分词处理的。识别文本中的合法性首先从文本中是否使用诸如“& 、“群 、“ ” 等特殊符号间隔敏感词,不进行处理很难理解,最简单的方法是建立正则表达式并利用 循环语句查找所有字符串间的特殊符号并删除,使得敏感信息恢复自然的组合状态。 ( 2 ) 拼音替代关键词中字的识别处理方式 识别文中的信息是否合法,下一步是要考虑文中的信息是否有拼音或者其他符号代 替。一般含有不良信息的文本中常将敏感信息中的部分字词用拼音替代,这里可以借助 字典从文中查找匹配拼音字词。 查找相邻字最大概率能组成词的字,建立拼音与字词对照表,并将其在文中出现的 次数累加,统计拼音对应的词出现的词频总和,便于后面统计文档中关键词频使用。 ( 3 ) 将敏感字拆分成偏旁部首和非单字的识别方式 面向互动型网络媒体的不良信息检测与过滤 还有一种识别不良信情况是要查询文中是否有偏旁部首及非单字出现的情况,此种 情况还需要借助一些特定的字典进行匹配和识别,基本的识别算法描述如下h 7 i : 第一步:查找文中出现的汉字偏旁部首,判断其右邻的字是否偏旁部首; 第二步:若字典中存在以左边偏旁和其右邻的偏旁组成的字,利用分词算法查找 该字结合其相邻字构成词的能力;如字典中不存在以偏旁组成的词,否则转 到步骤第三步; 第三步:如果没有对应的字,排除敏感词中字变化的可能,转到步骤s t e p l 寻找后 面可能的偏旁字。 ( 4 ) 其它形式 对于错字的判断,目前还无法做到正确的判断,但这种情况在含有不良信息的文档 中还是存在的,比如“溅人 、“沟日等。对同音词及同义词的判断,需要考虑该词 对应的上下文语境,根据使用该词的实际情况,借助专业的同义词典、上下位词典、歧 义知识描述库、同音词典等进行匹配。 2 1 2 不良文本的结构特征 由于非法文本的特殊性,导致了他们具有合法信息不同的特征,从而使得利用一般 的信息过滤技术的识别效果不是很好。因此,如果想较好的识别不良信息,应首先了解 非法文本的主要特征,然后采取相对应的过滤办法。非法文本内容的结构特征主要有以 下几个方面 删: ( 1 ) 有些内容与合法文本内容一致,但在这些合法文本内容中隐藏着一些不良信息。 例如有关对历史伟人的评价,只有少数部分包含反动内容。 ( 2 ) 含有信箱、电话、地址等信息,这些信息也构成进行判别的重要依据。不良信息 发布者通过发布链接等,来扩大不良信息传播范围。 ( 3 ) 暗语或寓意表达隐含的意思。如:胡c o r e 。 从上面可以看出,在内容上,非法文本中包含大量合法内容,从而影响对文本内容 的正确理解,暗语之类的词出现则更加使得文档的某些属性特征不明显,同样影响属性 选择和对内容的理解。 一7 第2 章信息过滤基础 2 1 3 不良信息的传播方法 随着网络技术的不断发展,互动型网络媒体中的信息也在飞速地增长着,这些信息 给人们获取知识带来了巨大的便利,但同时也给许多非法文本的传播提供了互动平台, 加速这些非法信息的传播。非法文本在互动型网络媒体上的传播方式是多种多样的,主 要有以下几种: ( 1 ) 在网络论坛论坛( b b s ) 上发布非法信息:网络论坛是当前网上比较流行的信息发 布手段,网络论坛的内容的来源具有未知性,对信息的发布者也没有很好的监管手段, 这也使得浏览者能够比较随意地发表网络垃圾信息。 ( 2 ) 在聊天室里发布非法信息:聊天室是一种实时的网上信息交换方式。高度实时 性和多并发性是其最大的特点。与网络论坛类似,聊天室同样具有信息来源的未知性、 内容的不可控性等缺点,它也是互动型网络媒体中不良信息传播的途径之一。 ( 3 ) 向用户邮箱中发送包含非法内容的邮件:不良信息发布者将非法内容以邮件的 形式直接出现在文本正文中,或者发送包含非法网站网址的邮件及动态链接工具的下载 地址,通过读编交流方式传播不良信息。 2 2 信息过滤的体系结构 通常的信息过滤技术就是指通过u r l 地址列表法过滤、关键字过滤、图像过滤等 手段,对互联网用户进行访问控制和管理的技术。一个简单的过滤系统一般由下几个部 分组成:信源( s o u r c e ) 、过滤器( f i l t e r ) 、用户( u s e r ) 及个性特征库( p r o f i l e ) 。 信息过滤器是信息源和信息用户之间的中介。在一般情况下,信息源和用户都不拥有对 方的知识,使得用户兴趣相关的信息难以被发现。过滤器处于信源与用户之间,信源向 过滤器提供信息,过滤器根据个性化文件库有选择地向用户递送信息,用户可以自己决 定是否向过滤器发反馈信息以指明哪些信息符合他们的信息需求,使过滤器通过学习、 调整可以更好地提供符合用户个性化需求的信息。h a n a n i 等定义了一个简单的信息过滤 系统结构图,如图2 1 所示【2 7 1 。 - 8 一 面向互动型网络媒体的不良信息检测与过滤 图2 1 简单信息过滤模型 f i g 2 1s i m p l ei n f o r m a t i o nf i l t e r i n gm o d e l 信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的长期的信息需 求提供服务。用户兴趣模型是对一段时期内用户检索兴趣的一种描述,表明了用户对什 么样的内容感兴趣,对什么内容不感兴趣。在实际检索过程中,它其实就是用户输入的 关键词串。现在大多数的搜索引擎提供的检索界面多是它的“简单检索方式。用户在 输入关键词的时候一般也只输入感兴趣的词,而很少输入那些应该被排除的词。因此, 一般用户描述数据只是表达了用户感兴趣的内容。图2 2 是b e l k i n 和c r o f t 给出的一个 信息过滤的通用模型【2 8 】。 第2 章信息过滤基础 2 3 信息过滤分类汹,制 图2 2 通用信息过滤模型 f i g 2 2c o m m o ni n f o r m a t i o nf i l t e r i n gm o d e l 2 3 1 分级法 分级法其实就是对网络信息进行分类过滤的方法,它是根据网页的属性特征,采用 一定的分类算法将网页映射成已经建好的分类体系中,在进行使用时,只需与过滤模板 面向互动型网络媒体的不良信息检测与过滤 进行比较来决定是否应该过滤;由网页作者实施的分级叫做自我分级,而由第三方实施 的分级叫第三方分级。 利用网页内容分级法过滤网络不良信息可以灵活地设置过滤模板,深入反映用户的 思想观点和价值观念,是未来一段时间内比较可行的方法;同时用人工分级方法过滤信 息错误率相对较低,并可以准确的对图像、视频等多媒体信息进行准确分级;但网页内 容分级也存在明显的缺陷:第一,自我分级的质量难以保证,网页作者希望更多人浏览 其网页,而该方法却要求作者参与到信息过滤中,因此是不现实的;第二,分级法要求 网络用户必须向网站提供准确的信息,因此可以很容易逃避分级过滤的要求而能浏览到 不良信息。 2 3 2u r l 地址列表法 u r l 地址列表法是利用预先编制好的u r l 地址列表决定允许还是禁止用户访问网 络信息的一种方法,是信息过滤中最为直接也最为简单的方法。u r l 有两种过滤法可: 白名单和黑名单,前者是允许访问的u r l 地址列表,后者是禁止访问的u r l 地址列表。 u r l 地址列表需要一定的标准来收集和编制,但是互联网上的不良信息每时每刻都在不 断变化,因此u r l 列表还需要不断的更新。 u r l 过滤由于有人工的参与,因此过滤准确率较高;但u r l 过滤必需依赖事先开 列出的特定网址,而这些特定的网址获得相对比较耗时和费成本,对非法u r l 的覆盖 程度不高。u r l 过滤仅仅将互联网分为两种类型:允许访问和拒绝访问,只能针对已知 的u r l 进行处理,不能对图像搜索的结果进行分类;如果将不良文本嵌入到图像文件 中或者以图像形式进行传播,那么可以轻易地逃避u r l 过滤。 2 3 3 文本内容过滤技术 在信息过滤系统中,动态文本分析法首先把用户的需求描述成为用户需求模板,然 后根据这一模板对动态的文本信息进行过滤,再利用反馈机制改进用户需求模板。采用 动态文本分析法需要解决以下四个方面的问题:第一,如何描述用户需求模板;第二, 如何进行描述网络信息文档;第三,采用何种匹配技术;第四,如何进行反馈。主要方 法有:关键词匹配法、潜在语义索引法和神经网络。 第2 章信息过滤基础 ( 1 ) 关键词匹配法 关键词匹配法中比较常用两种模型为:布尔逻辑模型和向量空间模型。布尔逻辑模 型进行过滤需要根据一定的具有二值逻辑的特征变量,通过布尔操作符把表示文档信息 的特征项转变成布尔表达式,用它来作为进行文本过滤的依据。基于向量空间模型的关 键词匹配法是以特征向量为基础,根据计算用户需求的向量与过滤文本向量的夹角余 弦,如果计算出来的结果大于某个事先给定的阈值,则该文本需要过滤掉。基于关键词 的过滤算法实现简单,具有很强的实用性;但它也有明显的缺点:只能进行简单的机械 匹配,系统难以理解文本的含义,因此不易区分相似文本。 ( 2 ) 潜在语义索引算法 潜在语义索引法则在一定程度上解决了传统词汇难以解决的问题。同义词是指文本 中使用不相同的词语来表达同一概念,这样会在过滤的时候有些文档会被遗漏。潜在语 义索引法是基于文档集中潜在的语义关系构造一个索引项文档空间,相似主题的文档在 该空间中对应的位置点相距很近。潜在语义索引法有很多优点,它具有丰富的表达能力, 过滤精度较高,但该缺乏直观意义,很难理解。 ( 3 ) 神经网络算法 利用神经网络技术过滤旨在模拟人脑的神经系统结构与功能,把用户兴趣表示成一 个人工神经网络。经过训练的神经网络可实现文档向量到评价向量的映射,把代表不同 文档的特征向量映射为相应的评价向量。该方法模拟了人脑对信息进行过滤的原理,并 结合各种数学算法来实现信息过滤功能,具备一定的容错性。神经网络不符合现实的要 求,首先该方法非常复杂,不易理解;其次,过滤数度慢,不适宜进行大样本训练。 2 3 4 多媒体信息过滤技术 网络不良信息不仅仅以文本形式出现,还包括大量的多媒体信息。多媒体信息不仅 包括文本信息,还包括图像信息、音频信息和视频信息,因此多媒体信息的过滤要比文 本信息过滤困难得多。目前对多媒体信息过滤主要有两种方法,第一种是基于文本的多 媒体信息过滤,第二种是基于内容的多媒体过滤。基于文本的多媒体信息过滤方法是目 前多媒体信息过滤最常用的方法。其过滤原理是以关键词的形式来反映多媒体物理特征 面向互动型网络媒体的不良信息检测与过滤 和内容特征,并对抽取出的关键词进行著录与标引,建立类似于文本文献检索系统的索 引数据库,过滤时通过文本匹配来完成。基于内容的多媒体信息过滤流程是:首先要从 多媒体数据流中进行特征提取。多媒体数据中的特征可以使从图像与视频中提取的视觉 特征,也可以是音频中提取的听觉特征。当用户浏览多媒体信息时,系统会将需要浏览 的多媒体信息与不良信息库中的多媒体物样本进行相似度匹配,如果匹配的值超过一定 阈值,则禁止用户浏览。多媒体信息是多种媒介的结合,在结构上具有明显的缺陷,进 行过滤时需要很大的计算量。首先,目前的计算机视觉和人工智能技术都无法对多媒体 信息自动进行文本标注,而必须依赖于人工,其次,多媒体信息中所包含的丰富的视觉 特征往往很难进行客观描述。因此,对于多媒体信息过滤的研究,还有很长的路要走。 2 4 信息过滤与文本分类 文本分类就是将文本归到若干个类别中,在文本分类过程中,文本的类别可是是预 先给定的,也可以是不确定的。文本自动分类是指在给定分类体系下,根据文本内容自 动确定文本类别的过程。信息过滤与文本分类非常相似,文本分类的技术多数都可用于 信息过滤。从文本分类角度来看,信息过滤就是要求将文档分为有用信息和无用信息两 类中的一类,是一个二值分类问题。信息过滤与文本分类之间的不同之处在于分类方法 中的类别不会经常改变。相对而言,信息过滤所依赖的用户偏好会动态变化,同时信息 过滤需要运用到分类的方法。 不良信息的过滤可以看作是一种两类分类方法,可形式化的定义为:假设预定义的 两类文本集,类型为c = q ,c 2 ,其中q 表示属于不良信息的文本类型,乞表示不属于不 良信息的文本类型。而要进行分类的文本集为d = 西,破,以) ,则不良文本过滤的任务 就是给文本集d 中的文档吐( i = l ,2 ,拧) 分配一个类型标记q 或者岛,然后将标记为q 的文本过滤掉【3 1 1 。下图为文本分类的一般过程: 训练过程分类过程 图2 3 文本分类过程 f i g 2 3t h ep r o c e s so f t e x tc l a s s i f i c a t i o n 2 5 信息过滤与文本信息检索 信息过滤和信息检索既有共同之处又具有不同之处,信息过滤和信息检索都是为了 帮助用户寻找感兴趣的信息,过滤实质是建立在检索的基础上,它们的关系类似于一个 硬币的两个侧面,是处于一个统一体的不同侧面。信息过滤监测新到达的文件并筛选出 和用户模板匹配的文件,而信息检索根据用户的查询采用基于相似度的方法从文档集中 列出所要检索的文档列表。 信息检索和信息过滤是有着明显的区别的。首先,信息检索处理的是一个静态数据 库,而信息过滤则是处理动态数据流,信息源事先并未被格式化过。其次,信息检索中 用户需求可能很长一段时间保持不变,而在信息过滤过程中,系统可能需要与用户反复 交互,需要根据过滤结果进行不断调整,以便逐步达到过滤要求,信息过滤是一个重复 使用,不断迭代的过程,而且系统的整体性能也是一个不断学习提高的过程 3 2 】。 信息检索主要有两种方法:统计的、语义的和上下文结构的【3 3 】。第一种方法强调文 档和文档集中词频的统计关系【3 4 ,3 5 1 。语义检索方法是对文档和查询的特性进行刻化以表 面向互动型网络媒体的不良信息检测与过滤 现出其潜在的意义【3 6 如。第二种方法主要是利用检索系统获得的语义结构和上下文信 息。例如,使用一些建立了词与词之间关系的词典【3 羽。下图为信息检索的一般过程: 图2 4 信息检索过程 f i g 2 4t h ep r o c e s so fi n f o r m a t i o n r e t r i e v a l r 2 6 本章小结 本章内容是本论文的理论基础部分,介绍了信息过滤的概念及相关技术。首先介绍 了不良信息的用词特征、结构特征和不良信息的传播方式,从各个方面对不良信息进行 分析,然后介绍了信息过滤的体系结构,分别给出了简单过滤模型和通用的过滤模型; 最后详细介绍了不良信息过滤的主要方法,包括:分级法,u r l 地址列表法,文本内容 过滤技术和多媒体信息过滤技术。 第2 章信息过滤基础 信息过滤、文本分类、和信息检索这三个概念之间既有相似的地方,又有较大的区 别,本文分别比较了信息过滤与文本分类,信息过滤与文本检索之间的关系,并给出了 文本分类和信息检索的一般过程。 面向互动型网络媒体的不良信息检测与过滤 第3 章信息抽取与预处理 互动型网络媒体的表现形式多种多样,它们的共同特点是信息互动。本章以互动型 网络媒体的典型代表网络论坛( b b s ) 为例,对其进行信息抽取和预处理,为下一步进 行不良信息过滤做好准备工作。 网络论坛是一种半结构化的信息,需要对网络论坛网页的h t m l 文件进行必要处 理,从中自动地提取网络论坛中的帖子线索信息,如帖子标题,帖子内容等。网络论坛 网页大多数都是由h t m l 文档来表示的,h t m l 的“标记”只是告诉浏览器如何显示 它所定义的信息,不适合作为一种计算机的数据交换方式。需要采用w e b 信息抽取技 术从这种半结构化的h t m l 文档中提取所需要的信息。 3 1 信息抽取 信息抽取是指从文本文档中识别出特定的目标信息( 或数据) ,并将其形成结构化 的信息( 或数据) 的一个过程。信息抽取是一种文本处理技术,其目的是根据预定好的 模板,从自然语言文本中抽取出特定的信息,并将其形成结构化的数据,然后填入一个 数据库中供用户查询使用的过程 3 9 1 。信息抽取不仅能帮助人们方便地找到所需信息,而 且信息的内容经过合理的分析和组织后,人们可以有效地获取感兴趣的信息,并可在此 基础上进一步进行数据挖掘、文本生成等后续信息处理。信息抽取的方法主要有以下几 种。 3 1 1 基于自然语言处理方式 自然语言处理技术通常用于自由文本的信息抽取。一般需要经过以下几个步骤:句 法分析、语义标注、专有对象的识别和抽取规则。具体地说,首先把文本分割成多个句 子,对一个句子的句子成分进行标记;其次利用句子结构、短语等关系建立基于语法和 语义的抽取规则实现信息抽取。规则一般是从人工标注的语料库中自动学习获得。主要 适用范围是源文档中含有大量文本的情况。 基于自然语言的信息抽取技术将w e b 文档视为文本进行处理,这种方法有很多缺 点:首先,抽取的过程中没有考虑w e b 文档独特结构,抽取规则简单,缺乏健壮性; 第3 章信息抽取与预处理 其次,如果要获得有效的抽取规则,则需要大量的样本进行学习,达到自动抽取的效果 较难实现,而且速度较慢;再次,这种方法只支持记录型的语义模式结构,不支持对复 杂对象的抽取,然而w e b 页面中的文本通常不是结构完整的句子,所以适用范围较窄, 具有一定的局限性【4 0 l 。 3 1 2 基于包装器的信息抽取方式 包装器由一系列的抽取规则和应用这些规则进行信息抽取的程序组成。通常,一个 包装器只能处理一种特定结构的信息源。一般情况下,从不同信息源中抽取信息,需要 一系列对应的包装器程序库。而包装器归纳法则不同,它采用归纳式学习生成抽取规则, 可以自动分析出待抽取信息在网页中的结构特征并实现抽取,基于归纳学习的信息抽 取模型如图3 1 所示【4 1 1 。 图3 1 包装器的多种形式 f i g 3 1m a n yk i n d so fw r a p p e r s 分装器可接受针对特定信息源的查询请求,并从该信息源中找出相关的网页,然后 把需要的信息提取出来返回给用户。通常,一个分装器只能处理一种特定的信息源。从 几个不同信息源中抽取信息,需要一系列的分装器程序库。分装器的运行速度很快,因 为它们要在线处理用户的提问。它还要能应付网络经常变化、运行欠稳定的特点。 面向互动型网络媒体的不良信息检测与过滤 3 1 3 基于o n t o l o g y 的信息抽取方式 o n t o l o g y 描述了程序和人共享知识的概念化规范,o n t o l o g y 描述了代理之间的概念 和关系1 4 2 1 。基于o n t o l o g y 的信息抽取主要是利用了对数据本身的描述信息实现抽取, 对网页结构的依赖较少。使用该方法时,首先需要由某领域知识专家采用人工的方式书 写某一应用领域的o n t o l o g y ,并根据o n t o l o g y 中关键字的描述信息产生抽取规则;另 外系统还将根据边界分隔符将源文档分割为多个描述某一事物不同实例的文本块,将抽 取出的结果存入数据库中。 基于o n t o l o g y 的信息抽取主要优点是对网页结构的依赖较少,只要创建了足够强大 的o n t o l o g y ,系统就可以对某一领域中的网页实现信息自动抽取。但它的缺点也很明显: 首先,由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的同时,增加 了对网页中所含的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年智能终端设备租赁服务协议
- 2025年新型医疗健康信息管理系统安全保障与服务契约
- 2025年特色家政服务与社区生活照料合同范本
- 2025年跨境电商航空货运包机运输定制化服务协议
- 2025年幼儿园环境美化与绿色装修材料选购合同
- 2025年专业冷链配送餐饮塑料餐具采购协议
- 2025年互联网中小企业科技金融服务战略合作协议
- 2025年人工智能金融产品研发及市场推广服务合同
- 水彩笔金鱼课件
- 2025年度幼儿园园长任命及幼儿教育质量提升责任协议
- 船舶公司维修管理制度
- 2025届天津市八年级英语第二学期期末达标测试试题含答案
- 限价商品房购房定金合同书
- 检测类安全管理制度
- 品管圈在提高住院患者口服药规范服用率中的运用
- 喉炎病人护理课件
- 通信质量员试题及答案
- 银行还款证明协议书
- 《初中英语教师教学经验分享课件》
- TSG Z7002-2022特种设备检测机构核准规则
- 基于数据的员工能力预测模型-全面剖析
评论
0/150
提交评论