（计算机应用技术专业论文）基于内容安全的中文网页过滤系统.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：63 大小：2.27MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（计算机应用技术专业论文）基于内容安全的中文网页过滤系统.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着互联网的进一步发展，合法和非法的信息大量充斥其间，基于内容的信息安全已经成为安全领域的一个新焦点。为了给用户能提供健康的、安全的信息，就有必要对非法网页进行过滤处理。在这一领域，已经有许多相关技术，由于汉语语言的特殊性，基于内容安全的中文网页过滤技术还有待进一步完善。本文在对内容安全以及中文网页过滤技术发展现状分析的基础上，对其中两项关键技术中文分词技术和过滤器技术。进行了详细讨论。构造了一个具有学习新词功能的中文分词系统，其性能较原有系统得到了提高。同时，应用概率模型和向量空间模型设计了两种过滤器算法，结合这两种算法的优点，构造了一个高性能的网页过滤器。最后，应用所设计的模型，完成了中文网页过滤系统的总体设计、实现和测试。测试结果证明，由于提高了中文分词环节的精确度和过滤器环节的准确度，中文网页过滤系统的性能得到了进一步的提高。关键词：信息过滤中文分词向量空间模型概率模型a b s t r a c tw i t h t h e 如n h e rd e v e l o p m e mo f i n t e m e t ，i n w h i c h i s 如l lo f ag r e a t 锄o u n to f l e g a la j l di 1 1 e g a li n f o m l a t i o n ，t h ec o m e mi n f b 蛐a t i o n 珀【sa l r e a d yb e e nan e wm e m b e ri ns e c u r i t yf i e l d ，t 0o 彘rm eu s e ro fi n t e m e th e a i t h ya n ds e c u r ei n f o r m a t i o n ，hi sn e c e s s a r yt of i l t e ro u tt h ed i r t yw e bp a g e s d e s p i t em a l l yr e i e v a n tt e c h n o i o g i e sa p p e a r i n gt l l ec o n t e n t - b a s e dc h i n e s ew e bp a g e ，f i l t e r i n gt e c h n o l o g yr e m a i n st ob ei m p r o v e do 、i n gt ot h ep a n i c u l 盯时o fc h i n e s el a l l g u a g e t w op i v o t a l t e c h n o l o 西e s ，c h i n e s ew o r ds e g m e n t a t i o nt e c h n o l o g ya n dn l t e r i n gt e c h n o l o g yh a v e b e e nd i s c u s s e da f t e rm ec o n t e n ts e c u r i t yo fi n f o m l a t i o na n dt h ep r e s e n td e v e l o p m e n to fc h i n e s ew e bf i l t e ra r ea n a l y z e d b a s e do nt h ef b 肿e rd i s c u s s i o n ，ac h i n e s ew o r ds e g m e n t a t i o ns y s t e mw i t ht h ea b i l i 哆o fl e x i c a l a c q u i s i t i o nw a sp r o p o s e d ，w h i c hh a si m p r o v e dp e r f o n n a n c e sm a nt r a d i t i o n a ls y s t e m s a tt h es a m et i m e ，t h i sm e s i sp r o p o s e st w of i l t e r i n ga l g o r i t h m su s i n gp m b a b m t ym o d e la n dv e c t o rs p a c em o d e l ，t h u sc o n s t m c t i n ga ne f i b c t i v ew e bp a g ef i l t e rb a s e do nt h ea d v a n t a g e so ft h e s et w oa l g o r i t h m s f i n a l l y ，o nn l eb a s i so fd e s i g n e dm o d e la b o v e ，t h eg e n e r a ld e s i g n i n g ，i m p l e m e n t a t i o na n dt e s t i n go ft h ec h i n e s ew e bp a g en l t e r i n gs y s t e ma r ea c c o m p l i s h e d t h ef u r t h e rr e v i s e dp e r f o n n a i l c e so ft h ec h i n e s ew e bp a g en l t e r i n gs y s t e mp r o v et r u ew i t ht h ea i do fm ei m p m v e da c c u m c yo fc h i n e s ew o r ds e g m e n t a i i o na 1 1 d6 l t e rd m c e d u r e s k e y w o r d ：i n f b r m a t i o nf i i t e r i n g、k c t o rs p a c em o d e lc h i n e s ew o r ds e g m e n t a t i o np r o b a b i i 咐m o d e l创新性声明本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容外，论文中不包含他人已经发表或撰写的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所作过的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：丝：殍关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用复印、影印、缩印或其它手段保存论文。( 保密的论文在解密后遵守此规定)本学位论文属于保密在一年解密后适用本授权书。本人答名：弛寸急本人签名：2 k! 导师签名日期：生五：z 盘日期：兰竖：也第一章绪论第一章绪论i n t e 黻e t 在给人l f 】檄来无尽蛇宥爝信息鹃爨射，选带来7 大羹酶垃圾信感，翅菇l 墨户簸赣交弼户浚戮静垃圾帮转、渲玻蕤籁，殴及珏e 赫e 主大量 # 法斌煮上的色情、反动内容等。同时，随箫现代通信投术高速发展人类越来越多地采用了电予化的方式进行催息传递。电子邮件、手帆短信、网上即时通讯( q q 、黼s nm e s s e n 害e r ) 等电予谯售惠传遴方式窒翦蟪受烈火啻3 弱毒辣，夫有取代缀奔信函帮话凿电话等传统信息传递方式的趋势。然而，睢貔辩证法指出，事物想有其两面性。如今，电予化的信息传递方式已经出现了令人头疼的问题倍息内容的釉类与数量急剧膨账，使褥非法鞠不良的信怠大鬟充痒其越。蟊辩警蓠遥蕊鼷终上装逶秘海爨支零售愚，嚣入工翔定其链霞劳弱豫萁中鼹非法和不良部分是明鼹不现实的。憋于此，如何能让计算机自幼地对通信网络上电子文本的性质进行判定是目前迫切灞要解决的一大问题。1 1 内容安全i + i 。l 信息安全信息技术的发展与广泛应用，深刻地改变了人们生活、生产和管理的方忒，加快了国家现代化和社会文明的发熙。但是，信息技术本身的固商特性，特别是绩意积霹络灼无嚣爨耨经，令蓥惑纯避程存在蕾霆大翁鑫惑安全鼹照。蕊惑安全问题已经成为各国信息涌动和国家蜜众保障所必颁蕊对的经常性问题。它不仅给一国的信息化进程带米现实的挑战，黼且给国家与阑家之间带来了新的制约关系。信惑安全最裙是攒僚簿穰塞匏傈蜜注、完整链、可蔼鞋秘可控篷霆个方颟“l ；现在，入们聂多魂籁翔予扶综合瑟强、拭广义鞠鼎度柬理辩话怠安全，认为现代的信息安垒包括了经济、政治、科技、军事、思想文化以及社会稳定等各个领域，涉及到个人权益、企业生存、金融风险防范、亭会稳定积国防安全等各个方露，是餐理安全、霜终安全、数器安全、内容安全、搭惑基疆设藏安全与公共、黧家信息安全的总和。没有储息安全，就没有真正意义上的政治安垒、军事安全和经济安全，也、没有完整意义上的国家安全。基于内容安全的中文网页过滤系统1 1 2 内容安全概述信息内容安全是信息安全的一个重要分支。信息内容的定义来源于数字内容产业。1 9 9 5 年西方七国信息会议首次明确将网络文化产业称作“信息内容产业( d i g i t a lc o m e n ti n d u s t r y ) ”。我国将信息内容产业定义为基于数字化、网络化，利用信息资源创意、制作、开发、分销、交易的产品和服务的产业，其中的“信息内容”涉及动画、游戏、影视、数字出版、数字创作、数字馆藏、数字广告、互联网、信息服务、咨询、移动内容、数字化教育、内容软件等。信息内容主要可分为政务型、公益型、商业型三种类型。因此，从技术角度看，网络文化安全的主体就是信息内容安全。内容安全是目前信息安全中最为活跃的安全领域，属于o s i 七层协议模型或t c p i p 模型应用层中的信息安全部分，建构在物理安全和网络安全之上。内容安全的宗旨在于防止未经授权的信息内容进出网络。内容安全的内涵非常广泛，至少包括以下六个方面：政治性方面：防止来自国内外反动势力的攻击、诬陷和西方反华势力的和平演变图谋：健康性方面：剔除色情、淫秽、暴力和封建迷信内容等：保密性方面：防止国家和企业机密被窃取、泄露和流失：隐私性方面：防止个人隐私被盗取、倒卖、滥用和扩散；知识产权方面：防止知识产权被剽窃、盗用等：防护性方面：防止病毒、垃圾邮件、网络蠕虫等恶意信息耗费网络资源。1 1 3 内容安全技术现状内容安全技术正在从单一的对文本信息的检测向多媒体信息检测发展，从百兆流量检测向千兆流量检测发展，从统计分析向智能分析发展，从单一功能产品向层级式的整体解决方案发展。潜在的技术发展趋势包括i p 骨干网安全、内容分级技术、多媒体信息识别技术、i p v 6 网络的内容安全、移动终端的信息内容防护等。当前，内容安全的主要技术包括：1 信息获取技术它分为主动获取技术和被动获取技术。主动获取技术通过向网络注入数据包后的反馈来获取信息，特点是接入方式简单，能够获取更广泛的信息内容，但会对网络造成额外的负荷。例如，基于移动爬虫的w e b 信息获取技术，已经广泛地被网络搜索工具所采用。第一章绪论被动获取技术则在网络出入口上通过镜像或癸踌谈听方式漱取网络信息。特点莛揍入鬻要鞲络警璎者懿舞箨，获取魏疼容仅袋子遴窭零遗鼹终篱鼗撵滚。被动获取拽术不会给网络带来额外流擞。例如，目前大多数入侵检测系统、湖获型安全产品都是采用被动方式获取网络信息。2 ，馈怠爽窖识鄹技术信息内容识巍是攒辩获取静网络信息内容进裙识别、判断、分类，确嫩其是否为所需蕊的目标内容。识别的准确艘和速度是熟中的重要指标。主要分为文字、声音、图像、霉形识别。文字识别题括关键字特征诱属性稍识疑、语法滔义语囊谖戮、兰瑟立场属性识拳，涉及蕊鬻嚣黎、串莲配、鑫然语言理瓣、分类算法、聚类算法等。鹤前的入侵检测产品、舫瘸繇产品、反垃圾邮件产品、员工上网过滤产品等基本上都采用基于文字的识别方法。音频炎容浚黯分橱技术魏骚突瓣予音频绩惑糗索矮域匏范畴。育关音频猿意稳索豹研究工佟是驭2 0 世纪9 。年代中后期开始的。近年来，引起了众多研究机构和学者的广泛重视。目前，相关的语音识别技术已部分进入实用阶段主礤用于彩视盗版艇奁、广豢鼗播等。蚕豫谈魏援零瑟蔚尚在实验室掰究赣菠。毽内复篁大学、蜍尔滨工渡大学、中科院计辣所、国防科技大学等单俄在开展相关研究。3 。控制阻断技术黯予谖襄凄楚 # 法僖感峦吝，成礴搴窝赛鞋经是蘸令重要搔檬。簌辩黻裴摇上分为基于i p 地垃阻断、基于内容的阻断；扶实现方式上分为软件阻断和硬件阻断；从阻断方法上分为数据包重定向和数据包丢弃。具体地在垃圾邮件剔除、涉密盎容过滤、著莹权盗躅戆取证、鸯港及色揍邀察靛疆赣帮警告等方嚣已经梭入使臻，菸帮藏熬产燕獭现，魏豫a 羲e 溉b s 莪i e l d 设备。莓内暗尔滨工韭大学、中科院计算所、国防科技大学、东北大学等单位在歼展相关研究。4 傣慰内容分级鼹终“踅薅差、零鞭离”魏祷点使褥不蹇肉寨戳嚣繇未骞魏速度在垒球扩散，网络不良内容甚至还杂谶成青少年生理上的伤害。“网络上瘾瘫”是近些年出现的医学名词。其患者过度依赖网络，在下网后会出现精神萎靡、姆体不适等疵状。我国应该建立叁己翡瓣上蠢容努缀禄榷，适父母镰护毯镪豁谈子逶离互联爨上有潜在蔻密的内容。5 图像过滤露裁，大多数实鼯慰用蛉基于内容过滤敷产懿主要是邋过髑更中文零信感躲截驳器努辨，缝含簧绞鲍基予臻。谤阏控裁爨| 表翡鼹络过滤技术实瑗过滤麓麓。其缺点怒不能适应i n t e r n e t 的迅速发展和动态变化，具有明鬣的滞后性。一然不良网络信息的提供者采取了回避某些墩感词汇，将文本嵌入到豳像文件中，泼直莲基于蠹枣安垒熬孛文瓣贾过游系统接以图像文件的形式出现镣方法，从而可以轻易地通过网络过滤和监测系统。为她，需要对嘲页中的图像滋行分析和溅解，以实现鲻络过滤。屋蓊这一技术述没有这爨实麓系统豹要求。6 信息内容审计信息内容审计的目标就是真实全筒地将发生在网络上的所有密件记录下来，为事嚣的遥套疆供完整壤旗筑资凝。镶爨躲竞整瞧蹩搴谤系统最熬黉豹撩标之一。通过对网络信息进行审计，政府部门可以实时监控本区域内互联网的使用情况，为信息安全的执法提供依据。虽然审计辩施相对网上的攻击和窃密行为显得有嬲被动，但它对追查网上发缴的犯罪军亍为艇起裂十分羹簧的作用，也对嚏部人员犯嚣超到了鞠旋懿藏慑佟羯。信息内容审计采用的主要技术是以旁路方式捕凝受控网段内的数据流，遇过协议分析、模式匹配等拽术手段对网络数据流进行审计，并对非法流量进行监控秘取迂。一般缘采爱多级分- 蠢式接系缀梅，莠提供数攥检索功瑟联餐襞讫统诗分柝能力，对部分非法网络行为( 如w e b 藏面浏览、q q 聊天行为、b b s 发言等) 可j 行重放演示。目秘，髑络内容审计产品翡发展滞舞予鼹络流爨迅速增长鲍现竣。7 防瘸簿技拳包括分稚式网络蠕虫报警防范体系、良性蠕虫对抗技术、网关型病毒检测与遏制技术、移动终端的瘸褥防护技术等。1 1 4 内容安全所面临的挑战出于互驳丽、数字魄襁、n g n ( n e x tg e n c r 雠n e 嘶拯熬赢速发展，数字内容产晶豹种类与数羹怨溺澎张，其中夔莠不齐，反动言论、色主、暴力等不良内容也充f 窜其间，如果相应的信息内寐安全标准、法规与技术乎段不能及时跟上，必将造成内容产业无序发展的混乱局面。同b 寸由于内容安全涉及国家安全、毒圭会稳定帮爱心譬蠢，受劐霪家、季圭会酾公众营遮关注，这鳖都傻信悫悫骞安全面临严峻的挑战。当前，内容安全所面临的严峻挑战主要体现在以下几个方面：通信网中超大数据流量的现状向现有的内容安全技术提出鞭大的挑战。出予缺乏走容分级豁准程内容避滤产品，使褥保护毒少年懿康成长阀鬈霸澎突出。政务型信息内容的泄密将带来严菔的后果。因此，对信息液产的安全等级评定、标记、监控技术撼出了更高的簧求。痿惑内容戆整管麓戆越来蘧突臻。跑螽，夭餐爨售惠豹实嚣孪 | 盏控、澹迸麓都是必须解决的问题。第一章绪论大囊糕费网络带宽鹣恶意数据兖嚣霹终空游，如病毒，嘲终蠖虫、d d 瞒波赘、垃圾邸襻等，亟持跌嚣于弼静瀑蒋趣虢蓬滤秘粼豫，获垒鼹角度确豫瓣臻资源的合理利用。因此，农储息内容安全的技术和产鼎研究方面，j 艟期的重点可归结为：偿息离容势缓括穗鹩裁定及穗斑靛过滤产晶与援术；售塞资产靛安全等缴语定蔹零及产品：大流爨黼络信息静突时监控技术岛产品；移动终端的防病簿与防泄漏技术岛产品；i p v 6 的信息内容蜜仝技术与产晶；骨干网内容过滤技术与产品；基于图像内容监管技术与产品；基予啻频鲍内嚣鳖管技术与产燕；鸯家缀分毒式蜒终悫容篮警俸系；镶惑两容浆渗透与反渗透攘术与产磊：鼹关型瓣缮精囊及病毒筑鸯杀技术与产晶。l 。2 选题营景纵观信息寂全领域的几个组成部分，不难发现，物理安全和网络安全都只涔及烈了技术方麟辩管理方疆靛同题，谣内容安全戮不然。崮翦文攘到戆蠹吝安全豹蠹涵寒蓍，蠹容安垒牵挂剩我蓬熬竣治安全。竟豁卡六藩霆中全会发表豹申熬中央关于撇强党的执政能力建设的决窳里明确指出，要坚决防范和打击各种敞对势力的渗嫒、颠覆和分裂活动，确保国家的政治瘦企、文化安垒和信息安全。内襄安全蔺越在莱释程度上潦谨哥疆上升魏一个政滚闷蘧。宅誊接美系蓑鼗蓉煞溺家利益、社会稳定i 三i 及贰心导向，覆菔丽非常宽，影响力很大。对非法网页的过滤，关系憋个社会舆论和社会安稳问题，意义非常擞大。出手现翕懿鼹页过滤系绕，在处理书文谗言过程中，亳蓑一整不是之娃。零文褥孛文蜜然添言理磐获本与耀络巷息蜜金技术穗绪会，设计一静蘩予蠹容理解的网页内容安全过滤系统，来对非法网聪进行过滤。中文是我国的母语，本文主鞭对中文网页嫩幸亍处理，下文所涉及的嘲页都是指按g b 2 3 1 2 标准编码的中文嘲页。整个系统竣餮在蠹部弼与蚪嚣翳珏。辩l 髓) 之藏，麓够黯襞逶过翡w e b 夏羲翡文本内容进行分析。具体说，系统要事先定义“非法主题”。截获网页后，根搌内密进行分析，判断是否涉放所定义的非法擞题的文章；如果不是，则不加处理丽塞搂逶过；如巢是，魁黠其遴簿颓彝谈嚣g f 涉囊菲法主题的文章有不阚趋缓彝：支掩豁，反对游，审立熬等等) ，瑷裁断滚黼夏痰容是否非法。国家对智熊网页过滤系统非常重视，不仅在国家8 6 3 信息安全虑急项目上予以立项，同时获褥了教育部的重点支持。楚者本次的毕烛设计课题怒出匡务院下达翳霹终舆埝调控系统瑷鞋器子漂遂，蠹匡家8 s 3 漂蘧基金支持。6基于内容安全的中文网页过滤系统1 3 本文工作本文在对中文分词技术和过滤器技术改进的基础上，实现了一个高效的中文网页过滤系统，具体内容如下：1 完成了网页过滤系统的架构设计首先针对项目的需求，对整个系统的架构进行了设计，对各个模块的功能及任务进行了定义和划分。文中所实现的中文网页过滤系统，在运行中分为两个过程，即学习和过滤过程。学习过程，是通过有指导的学习，即由外界人工参与的学习，对新词和过滤的样本进行训练，这个过程运行在w i n d 0 w s 平台上。过滤过程引用学习过程得到的数据，对网页进行预处理、中文分词、特征提取等过程之后，完成网页性质的判定，这个过程在l i n u x 平台实现。2 中文分词模块的设计在互联网环境下，对现有比较流行的两种中文分词系统进行了测试分析，发现了其实现架构上的缺陷。设计了一种适合于互联网环境下中文分词系统的新架构，并设计实现其相关功能模块的算法。3 过滤器模块的设计通过对常用文本分类模型的分析比较，发现概率模型和向量空间模型对网页过滤比较有效。其次，对这两种模型的原理和应用进行了详细地论述，并设计了相应的过滤算法。最后，结合这两种算法的优点，构造了一个高效的网页过滤器。4 中文网页过滤系统的实现在改进了中文分词环节和过滤器环节的基础上，应用设计的新架构，实现了一个比较高性能的中文网页过滤系统。测试结果表明，过滤系统的性能得到了进步的提高。网页过滤系统所涉及的知识面比较广，本文只对其中的两项关键技术作了讨论，以后将在与其相关的网页去噪、特征词提取、未登录词和闽值的确定等方面做进一步研究。本文所采用的思想和设计的算法，具有一定的通用性，对与中文信息处理相关的应用都有一定的借鉴意义。第二章中文娜更过滤技术第二章中文网页过滤技术阙页过滤系统的功能燕对网络中的“非法闻甄”进行过滤。本章酋先建立中文溺爽过滤系绕的基奉模鹜，然君篱要讨论相关豹技术和算法，最后分析现有中文分词技术羁过滤器技术懿难点亵不足之楚。2 1 网页过滤系统架构僚怠过滤是大瓶稹内容处理的一种典型成用。它是对陆续到达的信息进行过滤操乍，将符合用户需求的信息傈留，不符合的去除，并根据用户的搽作不断调整过滤策略。鲡暴把辖瑟检索称为一种爽墼的“授”钕i 1 1 ) 豹方式基于爨嚣躲分类算法遮粪簿法愁羚蘩锩势类文零与键夸粪囊鼗蕊骞上翦穗荚禚液，氇裁楚鞭攒菜些关键掌嗣蹈现与西策决定类别的。蕊中，簸熊铡的一些算法是溉则学习的苒汝，铡始r l p p 毯r ，文零分淡中使鼹鏊予娥慰的方法，最晕是呔a 梦埝、d 瓣e 糖黠秘w o l s s 1 9 鼙拶2 淡蠹戆，簸嚣e 穗鼹 9 辫怒在熟糕激瓣z 与w i 瓤蜞i 鹁毒撼滋穗艄p i n e 翔鞲n 蕊r 嬲强。懑琶凇融嚣眭耀冀法懿黎辩主撬窭了黻p p e r 袋e # 瓣dj n c r e m e n t a lp 籼n i n gt op r o d u c ee n d rr o d u c t i o n ) 算法腻用于文本分擞中。各种撼予燃霹戆学习箨法串罄要龟戆戡下两个舻爨；生或鬟戴鹈臻羹袈辩。焱难或逡疆孛，每疆壤嚣禁个耧基藿镌躲装悫溪豁) 珏受婪方蔑窝攥黎孛鬻蕊予矮，一豢戮黎热条件成立( 例如没有予蹶w 以加入丁) ，从而形成条规则；襁修翦过程中，删第= 章中文舟页过游技术除那些可能与训练样本太过接近的趣则子项或规则本身，因为训练样本中包含噪音，麴莱麓其太过接滋，铡氇越接邋臻音。綦热灏2 2 戆a ) 掰示，当遽过瓣训练集的学习艇成规则且避过测试集优化后，对新文本的类别判断工作就很简单了，只要在规则组中按照待分类文本的内容柬查找相斑的规则，根掘找到的圭贝则就可鞋决定箕类裂。在这孝孛方法孛，蕊娥暴骞可读羧铁及易于援德瓣特点，帮它霹滥在获取规则后很容易地进行手工修改舰则，从而w 以加入菜魍专家的意觅以便提高分类器的性能，并融其分类过程简单且迅速，但是它存在个问题：如粜从规则集合中搜不到合适的觏则，则没农报好的解决办法，算法的灵活度和适应性比较羲。2 ) 基于i 匈最空间的分炎算法1 9 6 9 年，g e r a r ds a l t o n 和m c g i l l 提出向爨空间模型v s m ( v e c t o rs n a c em o d 0 1 ) ，在这耱揍璧中，训练群零黛阕疆表示麓波特惩词筏戏夔两量空翊，文本被表示为向量空闻中的一个点，例如，文本d j 被表示为( t j ，t j 2 ，) ，其中m 表示向量空间的维度，每一维代表从文本中抽取得到的某个特征。猩基于向量空删的表示下，育许多文本分类滟算法。在墓予商量空间静褒示下，蠢诲多文本分类的算法“”。魏图2 2b ) 掰示，其主要思想就是在向量空间中来对待分类的文本进行判断。当然判断的方法不同，就存在着不同的具体算法，例如，根据相似度来判断或是通过向量空间中划分不阏类裂魏决策平瑟来判鞭等。最零冤瓣鬃瑟方法载是鬏据稳鑫冀度亲粪赣类鬟，这种方法中的主要的思想是：对于一个待分类的新文本，依据棚似度在向量空间中查找与其邻近的训练样本或者类别，如果是查找与其邻近的训练样本，则肖k 近邻法等；如果是查找与其邻近熬类别，刚有r - o c c h i o 方法等。3 ) 基予概窀的分类算法使用概率结构来袭涿特征项，怒由b e l k i n 和c r o f t 于1 9 9 2 年提出的。谯这类算法中，根据新文本的特征项在训练榉本中的一魑概率统计僮来估计其所属炎别。其中，簸裙觅蕊算法蹙羚素盈时蘩( n 藏垤8 姆e s ) 黪法以及它的一些改送算法。朴素贝叶斯算法被广泛用于模式谈别与机器学刊的应用中，因此在1 9 9 0 年也被研究者k o n o n e n k o 引入到文本分类领域。这种概率分类器【勺理论依掘是贝叶斯公式，朝：p ( c f d ) 。丝盟等黑塑( 2 1 )1t “j其中，d 表示一簇毒分类戆文零，c i 剐表承类别i 。在公式( 2 1 ) 中，翔鬃缓设类剐均勾分布，粪| j 可戳去除公式中的p ( c i ) ；褥公式中的分母相对于群肖的类别而言都相等，因此也可以省去。最后的公式中只要计算p ( d ，c i ) ，为了方便计算l 毫基于痞容安金瓣串文稠孤过滤幂统遮个条件摄率，在朴素贝时期算法中作了一个独立性假设，即特摄词之闻拔认为楚楱互蓉纬独立鹣，连载燕说菜令类烈下懿菜拿特征的条终撬率被缓设与焚嶷蹦下的其它特秘的条件概率栩互独立。予怒可以方便蛾计算出这个浆件概率：p ( d a ) = n p ( 砰饿c f )( 2 ”2 )枞e 0最蜃缮劐文零d 矮予炎爨i 褥鬣攀簸。在这种分类算法中，如果有x 个黎剐，则要计算出x 个概率值率值最大即墩肖可能的那令擞别为最艏的结果。公式寝示为：国矗= 嚣g 疆鑫x 尹a ，d 最后选撵概( 2 3 )在满足独立性假设的情况下，朴索风时斯方法照最有效的方法之一。0 过滤器技术存在的问题过滤嚣技术，是文本分类菝术鹣释典型痊鬻，是凳结聚分为台法霹贾霸饕法网页两类。蕊有豹过滤器技术都是基于丽页分类技术基础而上，把网页分类囊沭运用到网烈过滤这个特殊场合，除了对分类算法进行改进外，邂硬对应用模式，避行台理的设计。基于虎容安全斡嬲疆过滤技术，髓蒋互联瓣静教震鲢越来越受关注，霾翦暑缝残秀巷惑寮垒颚壤豹令耨焦煮。邋遥对瑗有过滤技术静分析帮测试发现，现商的过滤器在以下两方谳商待更深入研究。过滤器的凇确度瓣夏过滤系统，是姆合法戆霹茭缳餐，棼法静瓣煲去豫。焱累准确褒不离，褥造成很多漏报或误报，卵把合法的滤除了或把非法的保留了，遮将造成很大的不良影响。所以，过滤嚣的准确度，尤为重要。出于中文语吉的特殊性，基于中文语言懿过滤器磅竞爨躺起渗，提关的簿法还不是缀泼熟，建确震一救还迭不戮安蘑要求。过滤器的应用模型网页过滤也与瞬页分类有不同盼地方，如：煺舞过滤毒不爨的安全等绒，瞬炎过滤畜霹只骞菲注霹茭一类落练撵零簿。在露页分类中，蠡暴要将结果努为n 类，必须提供这n 凝学习样本。在网页过滤中，在某些场台，只能提供嚣过滤的非浚曩兰题的样本，耐没有相对应的合法样本。这样，有些分擞算法就在网络过滤中失效。测夏过滤稳对予丽夏分类酌犍隳经，也对其实现搂整提出了蓊翡要求。在土嚣讨论豹三类网蕊分类模型中，基于内容的方法，是蒸予精确匹配域生成规则的，灵活度比较小，只适合于襁特定情况下使用。基于向擞空间和概率的方法灵活较离，适用度较好，医此，本文主要载这鼹秘方法述行讨论。，笔誊戳裰率模整帮淘鬣窒嚣旗鹜为蒜璃，分霸设计7 对应的遗滤算法。在掇率模型中，馘带有学习记忆功能的贝时斯算法为基础，根据其学习过程中得到的第二章串文州受过滤技术1 9概窭数据库为蝴入点，对冀凇确度进行敬避。在向擞空间模型中，设计了一种只霰提供菲法两燹秘该竣款溪簸裁霹竣工撵良好静过滤葵法，黯某些只提粪一类谶练样本的特殊情况进行处理。同时，结含了这两种算法的优点，构造出一个高觳的过滤器，将糕第四章进行详细讨论。2 s 小结本章阐述了中文网页过滤系统的模型和相关技术。在此基础上，对其中辫项关键技术中文分运技术秘过滤器技术，进亍了测试积努褥，并撬出了一些致避意见。后续帮节，将在本紫的分析基础上，对中文分词技术和过滤器技术，谶行进一步深入讨论。基于内容蜜垒韵中文弼页过滤系统第三章中文分词模块设计中文分词是中文髓鼹过滤系统中关系到最终结聚的一项关键技术，其精确度海壹菝影拣整令系统熬稳麓。本章瓣曩联潮环襞下懿孛文分词，浚架稳设计翻薪词学习为切入点，对其j 簸行改进。在此基础上，针对改进后的中文分词系统架构，完成各个功能模块的设计与实现，并进行测试与封装，实现一个在互联网环境下藏注熊静中文分词系绫。3 1 分词模块架构设计由繁二零貔溅试翻分析可鞋看密，在互联羁环凌下，簧统分诞系统熬精确囊受到了影响。进一步分析发现，这是由阕络环境下中文语言的新特征所引起的。在网络环境下，中文语言的新特征表现为：新词出现的频度比较尚和交流的表达用语不艇范。互联网本身是一种载体，供人们焱阋和交流信息。互联阏的出现，改变了人类阅读信息的载体。回顾历史，竹简时代的语言不同于甲骨文时代的语言，妻氏上的语言，又筵新了竹简拜寸代的语言。到了印刷术的磐及时谯，囱话小泌就开始风行。如今爨了耀络语言酌对代，语富氇有了瑟静特征。与传统语言鞠耽，置联网环境下的中文语言表现为简洁化、多样化、口语化和新词更新频率快等新特征。词典，作为一种人学习和理解文字的工具，也是中文分词系统切分单词的依握。瑶代汉语淫典楚1 9 7 8 年1 2 月歪式公开发行耱，l | 芟霉5 6 万条：1 9 8 3 年1月第二版，收词5 6 万条；1 9 9 6 年7 周第三版，牧词6 万条；2 0 0 2 年5 月第翻版，收词6 1 万条；2 0 0 5 年7 月第五版，收词6 5 万条。从第一版到第二版经过5 年时澍，词数没巍增加，从第二版到第三版经过1 3 年，增艇4 0 0 0 条调，从第三版到第西舨经过6 年嚣寸闯，瀵糯1 0 0 0 词，放第四舨到第五舨经过3 年嚣于潮，增搦4 0 0 0词，这些增加都是净增墩。这些数据波明：在现代社会中，新词是在不断增加的。这些新词，也可能在网络环境中被使用，再加上农网络特定环境产生的新词谮，霹终强凌下豹赣霉藏会鬟多。黄绫嗣爽豹录入速震，已经运送不貔鼹上藜谲产生的速度，使用传统词典米理解网络谮裔，会产生很大的歧义。分词系统，使用传统静态的词媳作为依据，由此也产生了一定的误差。传统谣典的制定，都是由语言锈域的专家，袋豢聿会生活巾大家用裂的调语，按照一定规则取舍，编冀成的。其他人书写或表达，都要按照权威字典的谬法和语义束进行。在网络这种栽体上，当鼠标键盘取代了纸笔，网民在使用网络语言第三肇中文分词禳块设计2上也就有了新的麓毋。例如：为了表达简洁经常使用一些大家都明爨的矮写或简写，爻? 方褒遗交瀛经繁餐臻弱潺或络语，为了蒋理淫臻豉令洼羟零键用一些径异的词汇，为了追琦乏新颖经常使用一些自己制造的词汇。猩互联网这个环境下，交流的人经常是一个团体，只辩这个团体认研的表达方式，就会成为种习惯。热暴这转表达方式被其毪显体接受健薅势热淡黄疆，褥委# 广泛搜弼，懿形藏了麓魏鼋谱。当这个词，大家舔认溺，它藕成了嬲络上豹一个耨调。这个谰的镬瑁方法或意义，可能会筠传统汉语的舰则或语法毙企不同。对用这些不规拭的用法，用传统词典来理解这些语言，就会产生歧义，嚼样，中文分词系统依赖传统鲍词冀寒镪努这些司语，邀羲稷感达戮裁望篷了。渤上面分析糟出，网络语畜与传统语言栩比有了一姥撼著的新特性：一是新词出现速度和更新遮度加快，：是语言的使用习惯口语化、简写化、不舰则化。在开放曩联嬲环缓下，簌靠传统艇裂静嫠态谶典，寒瑾籍帮讶势凌惫燮位款不摄簧 l 翡潮络语言，存程很大靛不怼。溉在的大多数中文分词系统，都引入朱徽渌词识别模块，来智能识别词库中没有的调。但是出予锯能识别只8 根据一些明显特征和娥则来识别，对人名、地名、桃棱耋等特殊诞条谈溪率比较裹，薄予婆套实甄意义麓瑟词，也裁无魏灸力了。与人类丰富浞活的语言创造能力和表达能力相比，计算机的智能识别能力还相攘很远。引入个用来特定学习新词的过摆，就尤为熬瑟了。针对弱终语言鹣新特程，魏莱怒孛文分词系统露分词语蘑簌赣熊谪蕊瀣设诗为动恣不断更薪静，邵诵瘁能僳诞对于待切转语料韵耨对完整性，切分的精确瘦就能榭很大的改善。基于以上分析，本章从中文分词的实溉架构上进行淑进，来改善分词的效果。整个系统架枣奄由两部分缎成：一为学习过程，二为分溺遵程。耨瓣中文努溺系统学习瑟诵遮程帮分词过褪豹实凌絮稳据霭3 鞠3 ，2 所示：鬻3 。i 学骂蓑道遥褪滚疆”学习新词过程的任务，是簧究成对文章中产生的新词的抽取、判宛和录入任基于内容安垒鹩中文嘲页过游系统务。新词，怒还未录入词媳中的已经被认可并经常使用有一定语义的词语。学习錾运过程弱辩霉| 入来登豢键识剐模块+ 柬慰文孛戆一些入名、穗察、凝穆名簿骞嘲定搭配关系但没有实簖语义的词语，进行自动识别。未登录词识别模块，童瑟用来识别一嬲有明显特征的、无语义的固定搭配，这些词没有具体语义，不加入词露。未登泶词识射模块，是词典功筑豹一个补兖。图3 2 分词过程流程分词过程的任务，楚宠成对一篇中文文章的韬分、歧义调处璎和未登蒙谰处疆经务，本颦蠡句后续章节褥对这死个穗驻模块箨洋缁讨论。本过褪在切分功髓中，所依据的词滕，是学习过程产生的结果，是实时更新的，并且对于待切分语料来说，是相对完备的。本分弱畚绫，在蘩分徐毅壤霉壤城分运方法，京学习囊逶分诞泠段使羹蒸子统计的方法，在歧义词处溅阶段使用基于理解的方法。通过结合使用这三种技术，利用其各自的优势，来提商性能。本中文分词系统，如果学习的语料比较全磁，褥烈的词库藏施跟上薪词瓣灌搠，基予渡逶疼毂中文分诞系统毂糖度，裁可以褥剜一定的提离。学习新词过程和分词过程，是以词库为交互媒体的。词库的组织，不但影响中文分记的切分精确度，而且还直接彩响其处理速发，将在下一节对词库的缎织方法，进行详细讨论。以下各节，针对改谶后中文分词系统的新架构，对其中的各个功能环节，避行重新设计。3 2 词库组织结构设计汉字的编码体系由区位码、内码及交换码等( 它们之闻存在一定的映射关系)秘残，强蔫诗舞撬多瑷蠹鞴形式来楚瀵中文，嗣嚣圣肉玛氇有g b 2 3 1 2 、u n i c o d e 、u t f 8 、b i 9 5 等好几种编码标准。本文以g b 2 3 1 2 标准作为基准，对其他形式的编码，第三鬻中文分词横块设计在处瑷之前转换为g 3 1 2 编码。程凝豹分诿蘩秘下，孛文势溺豹诿痒分为强罄分：汉溪基疆透露、专篷本语词库、新词词库和蚊义词词库。汉语基础词滕，录入目前融经存在的大摄通用词汇，怒分词系统的煅基本词库。带业术语词瘁，是根据一烂特殊行业而建立地专溺词露，是汉语基戳谲库的一个耠充。毅谲溺瘁，是本中文分词系统焱攀习毅竭过程所褥蓟豹谲蓐，录入一些眈较新的词、汇，也是汉语基础词库的一个补充。歧义词词库，录入熬舆型歧义词处理的参考信息，是歧义词处理过程所依据的知识库。菇中，这些词库的存储格式都为二进制文件。弼疼，霆整令糗壤分词豹蘩撩，迄决定麓分词系统静效率帮糖度。在对文熬 2 0 j 的分析中发现，分词系统豹词库如果支持h a s h 查找，淼找效率会更高。根据将词魔加载到内存臌是否支持动态更新，本节设计了两种h a s h 结构和与疑对应的查我爨法。一差孛是袋惩静态数据缝擒，j 啜廖褥健方式，一次热载成功，遮合瘸二分查找法快速定位；另一种是袋闻动态数播镰构，链表存储方式，动态更新，适合用分块法来提高梭索效率。农分词系统的运行过程中，两种组织结构，同时工作，互相补充。其中，汉语基础词库和专业术语词库使用游惫数据结橡；勰词谣痒窝竣义谲谲疼搜麓动态数据缝褊。对汉语基础词库和专业术语词库，在运干亍过程中不需藤动态增长，使用静态顺序存储结构来完成。以词的酋警作为索引，所膏以该字为首字的词条组织在一超，髑图3 。3 豹 a s 差维擒亲表示。索$ l 拭叛槲琏圈3 。3 毫予潺表在内荐中匏数据结褥p i ：搔向所有首字为第i 个汉字c e i 的弱条的指针p 指向首字为c c i 的第k 个词条的指针w j l c ：黄字为c c i 的第k 个词( 词条按内码顺序从小到大排剃，不包括酋字)a 瓣w 溆豹震缝( 懿撬逶往，侩镶，菠义信惠簿)i i ：字c c i 的索引颈占5 个字节，其结构形式如嘲3 4 所示：基于内窖安黛的中文两页过滤篆统图3 4i i 的结构组织矮中，n ：酋卒为c c i 的词数目；n a g ：熙否单独成词标志。铡懿，词表审艨有以“教”字嚣头的调为教案、教誊孝、教程、教馨、教改、教奄、教诲、教掰、教练、教耀、教授、教爨，其在内存巾鹩逻辑表承( 非物理表示)如图3 5 所示：削3 5“教”孚开头的字的逻辑表示查找某个特定的词条时，首先利用h a s h 方法，根据首字c c i 算出i ，的地址，露对所有以c c 为首字的词条进行二分焱找。如果找到，返回其属性信息，委剡返为空。新词词腭和歧义词词库是动态加载更新的，适会用链表作为存储方式，结构如图3 6 所示。为了提高查找速度，依据袭3 1 的统计数据l ，我们对其按词的长度进季亍了分块e 壤爨溪逶谲静斑瑗频率，努燕嚣字运，三字诿，霞字溺，多字谣，疆个块，这样珂以在查找遥殿和占用空间方面都得到较好的效果。图3 ，7 以“事”为例，描述了其在内存中的逻辑表示。戳翊黄字为“趋造蛙谶黎字数所占t 匕例( )出现频率( )鹫3 + 6h a 然袁串的数据续鞠表3 1 汉语词的一些统计结果敢字拼字捂叫字桁霉宇指纂字运黢譬调兰零诲西宰谰雾拿l 垂8 s 8 9 l2 6 3 磊22 | 8 孚孽t 们。9 7 61 9 91 6 3 95 6 7 53 9 5 62 2 l1 1 9多掌谰8 5 5 06 4 60 2 9第兰章中文分词模块设计- 韦p l - 2叫事，越l 属性卜叫串件l 属性lp r 31 事迹艟i 属性卜一p r d一事半功倍i 属性卜一p r m圈3 7 以“事”为例的逻辑表不查找某个特定的词条时，首先利用h a s h 算法，根据首字c c 算出i ，的地址，然后根据要查找词条的字数，在对应的字数块内顺序查找。如果找到，返回其属性信息，否则返回为空。本节所用到的h a s h 算法，没有地址冲突是以空间来换取查找效率。在计算机中，以g b 2 3 1 2 编码的一个汉字是由两个字节组成，每个汉字第一个字节的取值范围是b 0 c f ，第二个字节的取值范围是a 0 f e 。h a s h 地址的算法，是把第一个字节左移8 位，再加上地二个字节所得到的。为了去除无用的地址，在运算时对第一个字节减去b o ，对第二个字节减去a o 。设一个汉字c c i 表示为x y ( x ，y 分别表示一个字节，其中x 为高字节，y 为低字节) ，设每个字的头节点所占的空间为n ，则c c ，的h a s h 地址为h a s h 地址= ( ( x b 0 ) + 2 5 6 + ( y a 0 ) ) + n( 3 1 )经测试和计算，本分词系统在正常运行时，所占用的系统内存在1 0 m 左右，查找条词的平均时间复杂度为1 8 6 。3 3 学习新词算法设计学习新词过程的任务，是要完成对文章中所产生新词的抽取和判定。在机械匹配分词的过程中，当遇到不认识的新词，只有按单字处理。现有的学习新词方法【2 ，都是对整篇文章进行全文统计，从而获得中、高频的词条。这种方法，适合于在有大量生词的情况下使用，也对一些低频新词无法判别。本文所浼的新词，是相对词库而苦没被有录入的词语。随着学习新词过程的不断学习，词库会逐渐完整，“新词”数量也就相对来说更少一些。本文是在现有词库的基础上学习新词的，如果对全文进行统计，不仅容易引入大量相对于该新词的噪声信息，而且运行速度较慢。对此，采用一种只对局部进行统计的方法，来学习生词，比较有效。大量的逆向最大匹配法切分结果表明，在已切分的结果中，9 2 的新词是已单字形式出现，7 6 的新词出现在中文分词切分有歧义的位置。因此，如果处理完单字和有歧义位置的新词，即可囊括9 9 6 的新词。基于以上分析，本文以分词结果中单字为基础，通过向其左边和右边“砌词”的方法来寻找新词。基于内容安全的中文网页过滤系统在新词的抽取和判定过程中，分为两个步骤来完成：一是信息统计过程，二是新词判定过程。对一篇已经完成初步切分的文章，先执行信息统计过程，再对统计的结果进行判定。l - 信息统计过程在学习新词过程中，对输入的文章，根据符号和分隔信息，截断为一组组只包含中文字符的待切分短句，然后输入机械分词环节。在机械分词环节，依靠现有词库，分别运用逆向最大匹配法和正向最大匹配法进行切分，并比较两种方法切分的结果，寻找可能产生歧义的位置。个单字并列入新词的考察范围。这样，的学习范围。对于可能产生歧义的地方，切分为一个就把有歧义位置的新词也纳入了单字图3 8 学习新词的统计流程图为了除去文中临时的惯用搭配，比如人名、地名、机构名等，引入未登录词识别模块，对这些具有特殊标志的临时搭配进行识别，从新词的考察范围中去除。第三章中文分词模块设计在文章中，对其中黔单字避行统计，默单字走萋旗，与其切分结聚中左边或农迭鹣谪，进簿攒接，缀蔽个蓊模式，剃a 褥裁定溺条集，莠统计蒺耪关癌蠹。在判定环节。对待定词条熊中临时词进杼判定，如果满足判定条件，则判定为条合理的新词，菇修改统计信息，同时把该字从单宇液中删除。獭裹中没有单字，蘸擎字与意意谲毵祷成蕊搂式骜不瀵麓耘谣条孛辩，寻撬过程绣柬。笔者统计出了一些黼频出现豹单警。这些单宇般不太可能与其他词构成新词。为了提高效率，把它们列入停用字袭，不用纳入考察范围。圈3 ，8 撼述了学习裁调靛统诗浚毽。在缝诗过程中，据箍锈分昀结累，嚣拽不在箨嚣字袤爨黥摹字，并戮其秀密发患，莓萁左边酾右边静谲季辩接，统诗其掇现的相关信息。2 新词判寇过程谩一个语句在经j 妻逑蕊鬃夫疆懿法谚分簿翁筵莱秀字符审s ，s = f e e 2c 3 c k c 。) ( c k 是汉字组成的词，媳举字词或多字词) 。设c 1 为单字，如聚啄1存在，统计词条c i 1c i 崧文章f 出现的频率；如粜c + l 存在，统计词条c ，c 在文章f 出瓒的频率，并热入与c i 挺芙翁德爨定静溺条集q 。势褥文献【2 3 】，壤据缀成瑟词条黪不覆特征，为秘鞭薪词弓| 入支祷爱鞠鬣信腹的概念。设词祭c 在文挡f 中的出现频度t ( c ，f ) 称为该词的支持度，涎为s h p p o h 。设运条e 交通e l ( 单字) 窥诿2 ( 攀字或多字) 袋接缝藏，橡谡搂式是e l + c 2或c 2 + e i ，那么词条c 程文中出现的频率与词c i 谯文中出现的频率之比，称为词条c 对于词c l 的置信度，记为c r e d i t ( c i c l ) 。c f e d i 够| c 0 。联e ，夥取e l 囝 k ，k 2 ，k 为预设阈值) ，来过滤除去一些由于偶然l 临界彳导到的谰条，选出中离频词为瓤谢。曩薅塞，爱浚运慕e 由c l 移岛缝合翡稳定毪。东鬟绩度大予菜令颈凌阕鬣译，即可认为是新词。上面两种判断方法，都是在机械分词的基础上，借鉴无词欺

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于内容安全的中文网页过滤系统.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于内容安全的中文网页过滤系统.pdf

文档简介

温馨提示

最新文档

评论

相关文档