(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf_第1页
(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf_第2页
(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf_第3页
(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf_第4页
(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(模式识别与智能系统专业论文)基于论点倾向的网络信息内容实时分析研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

嚣矮太拳臻士攀证论文 r 5 3 2 7 3 0 基予谶点籁彝鹣丽终繁息内容实站分辑磷究 基于论点倾翔的潮络信息内容实时分析研究 专业:模式识别与智能羝统 学生;裁军导辩;裁嘉勇 藕要 随着嚣联隧上熬镶怠交换越来越频繁,一些受瑟静影穗遵醛之蕊策。 例如备种迷信、色情、黎力和其他非法信息的传播,内部网中敏感信息的 渣瀑激及器释隐藏在爨黉窝郄髂中懿非法玻赘等,都已纛蕊了入稍鑫豢关 注的焦点问题。由于上述问题都属于馨于内容的攻诲形式,传统的防火墙 霹魏嚣裁爵力。凳了保辩互联两络静安全,研究钟辩溺络稽怠内容的过滤 技术已经成为了食追切鸵要求。 在这羊申应用需求的背景之下,本文针对网络信息内容的实时分析中的 关键技拳,靼多美穗字实酵搜索技术,汉语分词接求爨汉诿文本懿蠹寮谖 别和分类技术迸彳亍了研究。文中提出了基于论点倾向的网络信息内容实时 势撰煞方法,霹荻辩嚣缭辛戆逶售数攥送行裳露翡分新帮楚理,胰露谈潮 出其中的各种非法信息。 文串稳出了稀基于祷豹多关键字搜索方法,用于对网络通信数据之 中戆辑有关键字避露实瓣裹效涎搜索。羁对,本文逐攫撂汉语款蠡然落法 规则总结出了句子主干提取的原理,辩迸一步解析出汉语藻本句型的诺义 分掇及萁浚篾较蓬戆辊黝,最终提出了静对霹终德患蠹蜜魏谂点矮商送 行实时判别的方法,并鼠开发出了一套对应的函数库对该方法加以实蛾。 实验测试结繁表弱,文串辑挺密豹方法能够实现对弼络信息内容串所 含非法信息熬实趟识裂,当范例文本中盘褒蠢个或杰个以上匏关键运( 向) 时,其文本论点倾向的判决正确率达到8 0 域是更高。 关键词:内容过滤多关键学搜索论点识别谮法分析实时 四川大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 t h er e s e a r c ha b o u tt h ec o n t e n t i o nb a s e d n e t w o r ki n f o r m a t i o nr e a lt i m e a n a l y s i s m a j o r :p a t t e mr e c o g n i t i o n & i n t e l l i g e n ts y s t e m g r a d u a t es t u d e n t :l i uj u na d v i s o r :l i u j i a y o n g a b s t r a c t b e c a u s et h ei n f o r m a t i o ne x c h a n g ei ni n t e r a c ti sm o r ea n dm o r ef r e q u e n t m a n yn e g a t i v ee f f e c t sh a v ea l s oa p p e a r e d f o re x a m p l e ,t h es p r e a do f t h et e x t a b o u tv i o l e n c e ,b l i n df a i t h ,e r o t i c i s ma n dt h eo t h e ru n l a w f u li n f o r m a t i o n , t h ed i s c l o s u r eo ft h es e c r e ti n f o r m a t i o n t h ei n t r u s i o nh i d i n gi nw e bo re m a l l a n ds oo n a l lo ft h e s e q u e s t i o n sh a v eb e c o m eo u rf o c u s b e c a t i s e t h e q u e s t i o n sa r ea l lt h ei n t r u s i o mb a s e do n t h ec o n t e n t t h et r a d i t i o n a lf i r e w a l l s h a v en oe f f e c to nt h e m i no r d e rt oe n s u r et h es a f e t yo ft h en e t w o r k t h e r ei s a nu r g e n tr e q u i r e m e mt or e s e a r c ht h ec o n t e n tf i l t e r i n g t e c h n o l o g yo ft h e n e t w o r ki n f o r m a t i o n a c c o r d i n g t ot h i s r e q u i r e m e n t ,t h i sp a p e r h a sr e s e a r c h e dt h e k e y t e c h n o l o g i e so f t h en e t w o r ki n f o r m a t i o nr e a lt i m ea n a l y z i n g ,s u c ha st h em u l t i k e y w o r d s r e a lt i m es e a r c h i n gt e c h n o l o g y , c h i n e s ew o r ds e g m e n t a t i o n ,a n dt h e c o n t e n ti d e n t i f i e a t i o na n dc l a s s i f y i n go f 也ec h i n e s et e x t t h ec o n t e n t i o n b a s e dn e t w o r ki n f o r m a t i o nr e a lt i m ea n a l y s i s ( n i r t a ) m e t h o di nt h i sp a p e r c a na n a l y z ea n dp r o c e s st h et r a n s p o r t a t i o nd a t ao ft h en e t w o r ki nr e a lt i m e a n di d e n t i f yt h eu n l a w f u li n f o r m a t i o n f i r s t ,t h em e t h o do f m u l t ik e y w o r d ss e a r c h i n gi sp u tf o r w a r di nt h i sp a p e r t h em e t h o di sb a s e do nt h et r e es 仃u c t l l r c a n di su s e df o rt h er e a lt i m e k e y w o r d ss e a r c h i n go ft h en e t w o r kc o m m u n i c a t i o nd a 执n e x t , t h ep a p e r s u m m a r i z e st h ep r i n c i p l e st og e tt h em a i np a r t so ft h ec h i n e s es e n t e n c e s a c c o r d i n gt o t h ec h i n e s es y n t a xr u l e s ,a n da n a l y z e st h er e a l i z a t i o na n d e r r o r - c o r r e c t i o nm e c h a n i s m st oi d e n t i t yt h ec o n t e n t i o no ft h eb a s i cs e n t e n c e s o nt h eb a s e so ft h ep r i n c i p l e sa n dt h em e c h a n i s m sa b o v e ,t h i sp a p e rb r i n g s f o r w a r dt h em e t h o dt oi d e n t i t yt h ec o n t e n t i o no ft h en e t w o r ki n f o r m a t i o ni n r e a lt i m e ,a n da l s os h o w sas e r i e so ff u n c t i o n sf o rt h er e a l i z a t i o no ft h e m e t h o d t h ee l e m e n t a r yt e s t sp r o v e 也a tt h em e t h o d si nt h i sp a p e rc a nf i n d 也e u n l a w f u li n f o r m a t i o no f t h en e t w o r ki nr e a lt i m e a n dt h et e s t st ot h ee x a m p l e t e x t sa l s op r o v et h a ti ft h en u m b e ro ft h ek e y w o r d s ( k e ys e n t e n c e s ) i na n n 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 e x a m p l et e x t i s5o ra b o v e ,t h er i g h tr a t eo ft h ew h o l et e x t sc o n t e n t i o n j u d g i n g w i l lb e8 0 o ra b o v e k e y w o r d s :c o m e mf i l t e r i n g c o n t e n t i o ni d e n t i f i c a t i o n m u l t ik e y w o r d s s e a r c h i n g s y n t a xa n a l y s i s r e a lt i m e 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 l 概述 互联网的前身是a r p a n e t ,一开始只是被应用于军事领域。2 0 世 纪末,随着个人计算机在全球范围内的大规模普及,要求在各个计算机之 间实现资源共享的呼声也越来越迫切。在这种强烈需求的背景下,内联网 络首先得到了应用。它将一个公司、企业或是组织内部的计算机通过各种 网络设备和协议连接在一起,实现了单个机构内部的信息资源共享。随后, 外联网络的出现,又把各个内联网络以及个人的计算机连接起来,使得各 个公司、企业、组织和个人之间的信息资源共享成为了可能。这样,在席 卷全球的信息化建设浪潮中,内联和外联网的规模不断地迅速扩大,最终 形成了覆盖世界各地的互联网络,全球性的信息资源共享最终得以实现。 进入2 1 世纪,互联网络正在快速地向着大规模、高性能、智能化和 安全化的方向发展。它已逐步演变成了一个开发和使用信息资源的覆盖全 球的平台,进入了人类社会生活的方方面面。据统计,全球的互联网用户 数在2 0 0 2 年底已突破六亿大关。互联网络的迅速发展和应用,在政治、 经济、军事、科技和文化等社会领域中都产生了深刻的影响。人类正在经 历着从工业时代向信息时代过渡的伟大变革。 互联网进入我国的时间是在2 0 世纪9 0 年代。短短几年时间内,随着 我国信息化建设的全面推进,互联网在得到了飞速的发展。这不仅表现在 互联网的基础设施方面,也表现在互联网的用户人数、互联网在各行各业 的广泛应用等方面。根据第1 1 次中国互联网络发展状况分析报告 的调查结果显示,截至2 0 0 2 年1 2 月3 1 日为止,我国的上网计算机总数 已达2 0 8 3 万台,上网用户总数高达5 9 1 0 万人。同时,互联网促生的各种 业务象雨后春笋般地不断出现,各行各业的信息化应用程度不断提高,互 联网在人民生活的各个方面发挥着越来越大的作用。 在经济建设方面,互联网极大地提高了劳动生产率,推动了我国生产 力的进步;同时在精神生活方面,互联网作为新兴的第四媒体,在文化传 播中的地位和作用也日益突出。 在利用互联网传播先进文化的同时,对网上文化垃圾与网上文化的安 全也不容忽视。网上各种迷信、色情、暴力和反动信息的有害传播,极大 四川大学硕士学位论文 基于论点倾向的两络信息内容实时分析研芄 地危豢了网民的身心健康,对公众利益造成了很大的损害。对这些问题必 须用法律手段进行繁理。网络只密安全方能蠢强大懿生愈力,没鸯安全豹 有效饿就没有互联网的健康发展,公众的利益就得不到保障。 务穗菲法售息在互联弼上懿转撵,投大魏影确了精褥交裙豹建设滋 程:同时,将病毒隐藏在阕页和邮件中的隐蔽裂攻击方式,也令传统的防 灾墙不能抵销。灸了僳漳甄联网络豹安全,翔强对公菸网络秩序的控制和 管理,避行针对网络信息内容过滤的方法和技术的研究具有十分明显的社 会意义和经济价值。 疆前各籼鼹络馈息内签的过滤系统基本上都是纂予“关键字+ 黑鑫 表”的模式。它不能根据网络信息所表达的内容,熙不能根据其所表达 静立场毅褒患寒对该售惠宓羹狱獒剐或分类,滚戳灌怒久稍希錾黠阏络僖 息加以智能化的有效监测和控制的需求,其应用范围存在麓很大的局限 往。锋对这耱情况,在本文率鬟爨了一种新的过滤系统一基于论点预 向的网络信息内容实时分柝系统。 本课题的研究成果将赢接应用于随络信息内容的各种滥控应用,如f 5 i 络信息分类乓过滤系统、特定电予郯 孛簸溅与按割系绞等等。这些斑焉系 统能够对网络上的数据包中的信息内容进行实时的关键字搜索和论点识 剩,技爨瘸户掰定义戆安全策臻搿这些麓意内察透行务耩藕筛选,实现对 各种迷信、色情、暴力和反动等非法网络信息的传输阻断、察件告警、记 渌、窜计和跟踪,同辩氇黥够过滤各种隐藏在诸如阏蕊、邮件等网络应用 层数据中的恶意代码。该成聚垮直接为鬓象有关职能部门溥璎秘疑嬲互联 网上的非法信息的传播提供强有力的技术保障和有效簪段,同时也能够在 阚终缀慰上骁止各秽窿瘸豢孛携鹣意钱褥攻壶。 本文提出了一种基于论点倾向识别的网络信息内容实时分析方法,并 宠残了系统懿设诗等实现。课题磷究残巢该主簧包括以下三个部分:( 1 ) 、 实时的多关键字搜索模块:( 2 ) 关键旬( 包含有关键字的旬予) 论点识别 模块;( 3 ) 全文两络信息内容的论点倾向识别模块。 为了实现网络馈息爽蜜实时分板系筑豹功能,本义按照爨设诗熬舞法 编写了w a n a l y s e 函数摩。在函数库中封装了本系统全部的模块,通过函 四川大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 数库所提供的外部调用函数,用户就能够十分方便地使用系统。这样,整 个系统对于用户而言就变成了一个黑匣子,不必深入地学习和了解它内部 的原理和机制。就能够完全地使用系统的所有功能。函数库中包括了两个 部分:w a n a l y s e d 1 1 动态链接库本身,以及一套按照论点识别算法的要求 所建立起来的专用词典。 最后,还进行了系统的性能测试。测试项目包括两项:系统运行的速 度和论点识别的正确率。而测试所得到的结果表明本系统已经满足了各项 设计技术指标的要求。然后以一个实际的防火墙项目为例,说明了本系统 的应用。 目前有关文本主题提取的主要方法,大都建立在词频统计和向量空间 的基础之上。由于没有进行语法分析,这些方法对于不同种类的语言来说 都可以加以适用,但同时也就没有针对任何一种语言而加以优化:另外, 这些方法为了提取出文本的主题或是其论点的倾向性,首先往往需要搜集 大量的范例文本来进行繁琐的系统训练。而本文所提出的方法不仅能够利 用基于树的高效关键字搜索技术来初步地判别出文本的主题;而且还专门 针对汉语的特点而构造了一整套的语法知识规则,利用汉语语法分析和向 量空间的技术,来逐步地提取出文本的主干,再进一步识别出其论点倾向。 同时,利用该方法用户可以很方便的设置自己所感兴趣的论点,而无需进 行大量的训练工作。 2 网络信息实时分析和处理的特点 2 1 计算机网络数据传输的特殊性 与电话、广播、电视等传统的数据传输方式相比,计算机网络数据的 传输具有很多不同的特点。这些特点中与本系统直接相关的主要有三种: 高速性,分包性和多路并行性。 2 1 1 高速性 计算机网络信息的传输具有高速性。目前常见的网络传输速度有 四川丈学硕士学位论文基于论点倾向的髑络信息内容实时分析研究 l o m 和l o o m 两种( 1 0 0 0 m 以上的多麓予网络骨干结点) 。以一个汉字占 两个字节来计算,阅时不考虑其它因素的话,仅1 0 m 网络每秒锋就能够 传输5 0 0 万汉字。螫实时地处理如此大薰的数据,就对系统的处理速度和 效率掇迤了投意静簧裘。 2 。1 2 分包性 网络信息的传输是基于协议的,而现在世界上绝大部分的网络都采用 了t c p i p 协议来进行数攒的传输。t c p i p 协议所窥定的数据俦输模式截 括u d p 和t c p 两种。u d p 是一种无连接的、不可靠的传输模式,丽t c p 却是有连接的、可靠的。u d p 和t c p 都把需簧传送的数据封装在数据包 中,菇透过数据售农鼹终上进行转辕。数据惫麴大小罄畜其上限( 该上袋 由通信双方计算机的设置和网络路由所决定) ,如果需要传送的数据总量 怒遘了数据惫豹最大容量辩,藏必须恕该数撼信息鹭装在多个数据包中, 以网络数据流的形式进行依次传输。 阻t c p 协议来说。当利用t c p 来发送多子一个数据包容量的数据时, 首先癸进行鼹台计算机之阅的连接,建立起一条有效豹网终数据流。然盛 把要发送的数据封装为多个数据包,在数据流中依次进行传输。当所有的 数据懿抟毒蠹完毕之纛,霉零次孛赣连接,关阙数据浚潋结紊本次任务。这 其中各个t c p 数据包的大小和它们之间的时间间隔都不是确定不变的。 镶魏,滏我稍溺笺一个内容丰富的溺页时,实际主该黼页的内容是由许多 个大小不一、到达时间间隔不均的数据包传送到我们计算桃之上的。 簧对网络信息内容进彳亍分析,系统就必须能够处骥一篇网络内容作为 网络数据漉,分戈多个数撰包先嚣至达戆情嚣,要能够把对这些数擐寇分 别进行分析所得到的结果统一起来。 2 1 3 多路并行性 程采霉有连接传输协议( 如t c p ) 静情撬下,鞠络中往往同时存在 麓多个连接。也就是说,网络上同时存穰着多路数据流,它们之闻利用数 据包分时发送的机制来实现多路数据流的并行传输。 6 四川大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 这样,就要求本系统必须能够配合网络数据的传输模式,能够支持对 多路数据流的并行分析。 2 2 对网络信息内容的实时分析和处理 本系统用于对所截获的网络信息进行实时的分析和处理,识别出其中 的违反安全策略信息( 下文简称非法信息) 。这里所指的非法信息包括以 下两类: 1 )可以通过关键字搜索来确定的非法信息 对于某些种类的非法网络信息,可以只通过对特定关键字的搜索来加 以识别。如果信息中包括了特定的关键字,那么就可以确定它是非法的。 关键字搜索可用于确定一些不需要判断其论点倾向性的非法信息。例 如各种暴力、迷信和色情的内容等。同时,利用关键字搜索也能够查找出 隐藏在网络应用层信息中的恶意代码。例如,各种隐藏在网页和电子邮件 中的病毒、木马、j a v aa p p l e t 和c o o k i e s 等。对于这些恶意代码,传统 的防火墙是不能防御的,只能通过在应用层上的内容过滤来加以清除。 2 )需要通过论点倾向识别来确定的非法信息 对于某些种类的非法网络信息,不能够仅仅通过关键字搜索来加以确 定,还需要判断其论点。 例如,有一篇政治性的网络内容,如果它包含了“东突组织”这个关 键字,那么它既有可能是一篇抨击“东突组织”、维护祖国统一的正面文 章,也有可能是一份挑拨民族矛盾、鼓动分裂的非法信息。为了确定它到 底是否非法,就有必要对其论点进行提取,进行进一步的识别。在网络中 的合法政治性信息占了绝大多数的情况下,这样做可以防止合法信息被误 判为非法,保护正面性的宣传教育活动。 对网络信息内容的实时分析和处理的要求如下: 1 ) 在1 0 0 m 网络环境的情况下。能够进行实时的多关键字搜索和网络信 息内容的论点倾向识别。 2 ) 用户可以自定义关键字和论点,系统能够根据用户的定义进行分析和 截获。 四川大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 3 ) 系统能够支持同时存在的多达3 0 0 0 路数据流的并行分析。 4 1 对每个连接以及每个数据包的处理,用户都可以选择是只进行关键字 搜索,还是同时要进行论点分析。 5 ) 对网络信息内容进行论点识别的正确率大于8 0 。 3 网络信息内容实时分析系统的现状 网络信息内容的实时分析的关键技术包括以下三个方面:多关键字 实时搜索技术,汉语分词技术和汉语文本的内容识别和分类技术。进行分 析时,首先通过关键字搜索查找出可疑文本,然后通过汉语分词处理把可 疑文本划分为各个单独的词语,最后再进行文本的内容识别和分类,以判 断出这份可疑文本是否确实是非法信息。 目前市场上已有的网络信息内容检测产品主要都是基于“关键字十黑 白表”的模式。其中的“关键字”采用了包括关键字搜索、词频统计和矢 量分析等技术;而“黑白表”则包括t c p i p 、w e b 和邮件地址黑白表等。 它们都无法对网络信息内容进行基于论点的分析。 这些产品包括国外的赛门铁克公司的s y m a n t e cw e bs e c u r i t y 和 s y m a n t e em a i l g e a r ”,趋势科技的i n t e r s c a nm e s s a g i n gs e c u r i t y s u i t e ”,以及f o r t i n e t 公司的f o r t i g a t e ”等;而国内的则有北京网 警创新公司的n e t c o pf s 1 0 0 0 ”“,以及硅车科技公司的佳盾内容过滤软 件等。 3 1 多关键字实时搜索技术 进行多关键字搜索时,最普通的方法是把各个关键字逐个地在目标文 本中进行查找。这种方法十分简单但效率很低。为了提高度关键字搜索的 效率,研究者们业引入了诸如“二分查找”,“动态优化排序”,“分块并行 查找”等多种技术。 就多关键字搜索算法的整体水平来说,国外已达到较高的程度,但其 中优秀算法的源代码并不公开。如g o o g l e 搜索引擎等。而国内该算法的 发展水平,可由病毒扫描技术得出( 对多病毒码的搜索实际上也就是对多 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 关键字的搜索) ,诸如金山毒霸,k v 系列等杀毒软件。这些软件主要面向 的是个人用户。而在针对企业级的对整个网络数据流进行实时监控的方 面,虽已推出了一些产品,但从总体上来说还未达到成熟阶段,具有较大 的发展空间。 3 2 汉语分词技术 分词的正确率是关键句论点分析正确率的基础。由于汉语语法的复杂 性和汉字组合为词语的多样性,使得分词问题不能简单地得到解决。现今 的计算机自动分词系统所采用的基本方法主要包括以下几个:机械匹配 法、特征词库法、约束矩阵法、语法分析法和理解切分法等。同时,在这 些基本方法的基础之上,研究者们还提出了多种的改进意见,以提高分词 的正确率和效率。如:“基于e m 算法的汉语自动分词方法”“,“一种 改进的m m 分词算法”“”和“利用上下文信息解决汉语自动分词中的组 合型歧义”。等。 目前的关于分词的研究主要面向的是汉语机器翻译等领域。清华大 学,北京大学,复旦大学,山西大学,中科院、m i c r o s o f t 中国研究院等 都有各自的成果。其中分词的最高正确率已达9 5 以上。但现有语义分析 方法和技术的着重点多数在于对汉语语法结构的分析,句子的拆分和机器 翻译等方面。由于研究目标的不一致,其计算和优化的侧重点也不一致, 使已有成果不能直接应用于对网络环境下信息内容的分析和监测。 以北京大学计算语言所的分词系统”为例,该系统在p e n t i u m i i 6 4 m b 内存机器上速度为每秒5 千词,以每个词平均占三个汉字计算, 其数据处理速度为每秒3 0 k b 。照此计算,在l o o m 网络环境中,如果关键 句所占的数据量占总数据量的比例超过0 3 ,该系统将无法满足需求。 而如果同时考虑在一个实际的应用程序中其它诸如网络数据获取,语义分 析和分析结果响应等其它耗费的话,上述比例还将大为降低。 3 3 汉语文本的内容识别和分类技术 在分词完成之后,就可以对汉语文本进行内容识别和分类。而当前的 四川i 大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 文本内容识别和分类大多都是基于词频统计和向量空间模型的技术。 词频统计是指统计出在一篇目标文本中出现频率最高的那些词语,把 这些词语作为该文本的特征词,用特征词的相关主题来代表文本的主题。 通过大量的文本分析,可以发现,能够反映文本主题信息的特征词的词性 有一定的规律,它们大多是名词、少数动词和少数形容词。而一般来说, 介词、副词、叹词、冠词、限定词等不能作为特征词,在进行统计时应该 加以忽略。 向量空间模型是指在对目标文本进行词频统计之后,再结合各个词语 之间的位置信息来构造该文本的特征向量。当要查找某个特定主题时,则 选择多篇该类主题的范例文本,计算出这些范例文本的特征向量。通过比 较这两个向量的相似度从而判断目标文本的类别。计算两个向量之间的相 似度通常有两种方法:欧几里德距离法和向量夹角余弦法。 同时,在词频统计和向量空间模型的基础之上,许多学者还进一步利 用模式识别、神经网络、遗传算法、模糊算法、非参数估计等技术对汉语 文本的内容识别和分类做出了进一步的优化。如南开大学刘明吉等提出的 “基于v s m 的w e b 文本过滤模型,是利用遗传算法来降低文本特征矢 量的维数,从而为文本的分类、聚类以及其它处理提供了简练的特征表示 方法,提高了处理效率。而北京邮电大学郭燕慧等提出的“文本倾向识别 的置信度估计”。,则是利用置信度原理和非参数统计的方法来优化文 本判决的阀值区间,以提高文本的识别率和稳健性。 目前国内在汉语文本的内容识别和分类技术方面已开展了大量的工 作,取得了许多的优秀成果。但是利用这些方法来判别文本的论点倾向时, 如果要达至q 较高的正确率,对每个单独的待查找主题都要搜集大量的范例 文本来进行训练,这样就造成了使用上的很多不便之处。同时,这些方法 所耗费的计算时间一般也都比较多。因此,它们难以满足人们希望对网络 信息按照其立场和观点加以实时监测和控制的需求。 1 0 四j 大学硕士学位论文 基于论点倾向的两络信息内容实时分析研究 4 基于论点倾向的网络信息内容实时分析基本原理 4 1 系统在网络协议层中所处的位置 网络协议分为了不同的层次,每一层分别负责不同的通信功能。比如 t c p i p ,就是一组不同层次上的多个协议的组合。网络协议通常被认为是 一个四层协议系统,如下图l 所示。 应用层 传输层 网络层 链路层 圈1 网络协议的层次 1 ) 链路层,通常包括操作系统中的设备驱动程序和计算机中对应的网 卡。它们一起处理与电缆( 或其它任何传输媒介) 的物理接口细节。 2 ) 网络层,处理分组在网络中的活动。在t c p i p 中,网络层协议包括 i p 、1 c 和1 g m p 等。 3 ) 传输层,主要为两台主机上的应用程序提供端到端的通信。在t c p i p 中,传输协议有两个:t c p 和u d p 。 4 ) 应用层,负责处理特定的应用程序细节。 本文所述的网络信息内容实时分析系统位于应用层之中。经过还原后 的传输层数据( 如t c p 和u d p 中所携带的数据) ,既可以直接进入本系 统中进行分析,也可以再经过基于各种应用( 如h t t p 、s m t p 、p o p 3 、 f t p ) 还原之后再送入系统。 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 分析结果的输出 网络信息内容实时分析系统 jl j 怒 暑: 凸一 盎 皇 e扎 林 各种应用层协议的还原 f 经过还原之后的传输层数据 图2 系统在网络协议中所处的位置 4 2 本文涉及的有关术语 4 2 1 关键字 为了搜索网络通信中阐述某个特定主题的内容,首先必须设定该与主 题相关的各个关键字。当系统在网络的传输数据中搜索到关键字时,就可 以认为该处的信息内容阐述了与关键字所对应的主题。 4 2 2 关键旬 汉语文本的最小单位是单个的汉字,由汉字组成词语,再由词语组成 句子,最后由句子组成了文本。而关键旬是指网络信息内容中包含了某个 关键词的完整的句子。 4 2 3 关键句的论点 为了查找与某个特定主题相关的网络信息内容,首先要确定其所对应 四川大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 的关键字列表。同时,用户所设置的每一个关键字也都应该与一个确定的 主题相关。 如果关键旬中包含了关键字,也就等于是包含了和该关键字相关的主 题。这样,关键句的论点实际上就是指它对该主题所抱持的看法、观点和 态度。 4 2 4 论点倾向值 论点的倾向值用来表示一个论点的“对与错”。“对错”是一个主观性 的概念,由于每个入的立场、观念和思维模式都不尽相同,相同的一件事 情,甲认为它是正确的,而乙就可能认为它是一个错误。这在某些政治性 的领域表现得特别突出。例如,在一场战争或冲突中,双方往往都会认为 只有自己才是正义的那一方。因此,要判断论点倾向值,首先就要求用户 事先定义好自己的论点,以决定哪些是对哪些是错。当然,这些事先定义 的论点都与该用户自身的立场相符合。 对于论点倾向值的大小所代表的意义,本文做出了如下定义:如果一 篇文本所阐述的论点其倾向值大于零,那么就表明该论点是用户所赞同 的,倾向值越大则表明用户的赞同程度越高;如果小于零,那么就表明该 论点是用户所反对的,倾向值越小则表明用户的反对程度越大:而如果等 于零,那么就表明对于该论点用户持中立的立场。 4 2 5 用户对论点的定义 用户对论点的定义是隐性的。在网络信息内容实时分析系统中,为了 进行论点的计算,事先已建立起了一个专用词典。该词典中包含了大部分 的汉语词语,同时其中的每个词语又都包含有好几种属性。根据词语的不 同,这些属性都被赋予了相应的值。当用户对某个主题感兴趣时,需要首 先查找出词典中与该主题相关的词语。通过设置这些相关词语的属性,用 户就可以定义与该主题相关的属于自己的论点。 与论点相关的词语属性有两个:“权值”和“是否绝对”。“权值”属 性表明了该词语的感情倾向。褒性词语的权值大于零,贬性词语的权值小 四川大学硕士学位论文基于论点倾向的网络信息堕窒壅堕坌塑堕壅 于零,中性词语的权值等于零。而“是否绝对”属性则表明了词语的感情 倾向是否是客观的。用户在对这两个属性进行赋值时,实际上也就同时表 达了自己的立场,定义了自己的论点。例如,如果令“沙龙”这一词语的 权值大于零,同时令“阿拉法特”这一词语的权值小于零的话,则表明用 户站在以色列一方;而如果令“沙龙”的权值小于零而“阿拉法特”的权 值大于零的话,则表明用户是巴勒斯坦的支持者。 4 , 2 6 论点倾向值的可信度 由于汉语语言的复杂性,本系统所进行的论点识别难免有误判的情况 产生,不可能做到百分之百的正确。可信度表明了论点倾向值其正负的置 信概率,即该值的正负取向在多大的程度上是可靠的。可信度的值在0 和1 之间,值越大则表明该值越可靠。 4 3 论点识别的基本原理 网络中同时存在着多路数据流,可以把每一路数据流都看作一篇单独 的网络信息内容。 本文做出如下定义: 1 ) 符号只,表示一篇单独的网络信息内容。其中i 表示该信息内容所对 应的数据流是网络中的第几路,而j 则表示所捕获到的属于这路数据 流的数据包的总数。 2 ) f 中所包含的所有关键字组成了关键字集船,( k e y w o r ds e t ) 。设 f , 中共有关键字n个 ,则 船,= 僻,i 。,k 。z :,k 。正3 ,一k 。z 。) ,其中k 。表示第m 个关 键字的序号,z 。表示该关键字在数据流中的位置偏移量。 3 ) f ,中所包含的所有关键句组成了关键旬集脚,( k e y s e n t e n c e s e t ) 。设e ,中共有关键字n 个,则茁镕。,= 临s f 2 s3 ,s ,。j 。其 中s 。表示第m 个关键字所对应的关键句。 4 ) e ,的论点倾向值向量k ,= ,形:,3 ,形。) ,其中n 是关键字的 总数, 形。则表示第r f l 个关键旬的论点倾向值。 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 5 ) f ,整篇信息内容的论点倾向值为厶,。 在进行论点识别时,对已捕获的网络信息内容f ,首先采用基于树 的搜索算法进行多关键字的查找,得到关键字集k s ,。然后根据前面的 得到船,以及系统词典中所定义的断句符,查找出各个关键字所对应 的关键旬,得到关键旬集k s s ,。再根据k s s ,对各个关键句进行分词处 理。根据分词的结果,就可以分别计算出各个关键句的论点,得到论点倾 向值向量k ,。最后根据k ,中各个关键句的论点倾向判别结果进行综合处 理,就能够计算出整篇网络信息内容的论点倾向值l 。 5 网络信息内容实时分析系统的研究与实现 基于论点倾向的网络信息内容实时分析系统分为了五个模块,如图 3 所示。在本节中介绍了系统设计和实现的具体方法。 舟络信 息内窖 5 1 词典 图3 系统的模块流程图 要识别出网络信息内容所表达的论点,首先就必须建立适用于论点分 析的专用词典。该词典是一个基于a c c e s s 的数据库,其中包括了普通词 语表、量词表和断句符表等表单。词典中收集了各种常用的汉语词语。按 照论点识别算法的要求,每个表中都分别设置了各种不同的属性,而表中 的每个词语都被赋予了与其相对应的各种属性值。 嚣矮文学矮士学位论文 莲于论蠡顿鸯懿辑缝维惠内窖实酵分舔磷究 5 1 1 酱通词语表 鼋遂运谬表墨稼捂了词典串涂量词j 曩断萄猗之终豹蕨裔诲语,其中 个属性字段的设置如下表 i字段名称数据类型说明 【词语文本( 长度2 0 )词语本身 分为子句断句符,辅助词,介词,数词,餐 词性猿塑谒,实戮词,实形褰运;名词,动调等丸季申, 分别顺序用该宇段的最后灏9 个b i t 表示 对予名词,渤词,形容词,副谲这螽释词来 权值熬型 说,该字段表明了其感情倾向 是否绝对布尔其感倩倾向是否有绝对性 辘勘调处理方式字节麓勘词处理方式的选择 辅助词处理的参数1 ,对应不同的处理方式, 辘助词处理参数1熬型 该参数育不麓瓣意义 辅助词处理的参数2 ,对应不同的处理方式, 辘动调处理参数2撼墼 该势数有不同的意义 辘助词优先级字节表明辘助词处理的藏屠蹶垮 。寝1 、酱通词语表 毒关嚣性戆定义蘩下; 1 ) “词语”属性 稳该满住中静文本印谪语本身。它建无薰复的索弓l 字段,长发黻秘在 1 0 个汉字( 2 0 字节) 之内。 2 ) “词性”属性 字典中谣语熬谶性分为子匈羧句爨,辘助词,分词,数词,爨调,实 副词,实形容词,名词,动词等九种,按照顺序分别用属性字段的最后9 令b i t 表示。翔条该b i t 蔻l ,粼袭鹗词溪冥弯对应静调性。各词镁豹说秘 如下: 柏动谲( v e r b ) 1 6 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 动词是陈述动作、情况和变化的词语。如“跑”、“推”、“有”、“看”、 “听”、“漂动”等。 b 1 名词( n o u n ) 通常意义上的名词是表示名称( 如人、动物) 的词语,而代词是用 于代替名词、动词、形容词和数量词的词语。为了方便论点的计算, 本词典中所定义的名词则同时包括了通常意义上的名词和代词这两 种。词典中的名词如“中国”、“人民”、“班级”、“正义”、“你”、“我”、 “他”等。 c ) 实形容词( a d j ) 形容词是用以修饰名词,表示事物特征的词语。它分为两类:倾向 性形容词和程度性形容词。倾向性形容词表明了感情的倾向,如“好”, “坏”,“优秀”等;而程度性形容词表明的是程度大小,并不涉及感 情倾向,如“多”,“少”等。由于在论点识别中这两类形容词的计算 方法不同,可以将倾向性形容词归类于实形容词,而把程度性形容词 归类于辅助词之中。 d ) 实副词( a d v ) 副词是用以修饰或限制动词或形容词、表示程度或范围的词语。 和形容词类似,副词也分为两类:倾向性副词和程度性副词。倾向性 副词包括“偷偷摸摸”,“狼狈”等;而程度性形容词则包括“太”,“很” 等。词典里,将倾向性副词归类于实副词,而把程度性副词归类于辅 助词之中。 e ) 数词( n u m ) 数词是表示数目的词语。如“o 9 ”,“一十”,“百”,“千”,“壹 拾”,“i x ”,“,、“点”等。在“权值”字段中定义了它们的数值 大小。在“辅助词处理参数1 ”( a p l ) 中定义了它们是否属于数值单位 ( 如“百”,“千”等,是数值单位用1 表示,不是则用0 表示) 。例 如词语“八”的权值为8 ,a p l 为o :而“万”的权值为1 0 0 0 0 ,a p l 为1 。 f ) 介词( p r e p ) 四j i l 大学硕士学位论文 基于论点倾向的网络信息内容实时分析研究 介词是用以表示时间,方位,处所。状态等的词语。它分为前介 词和后介词两类,其语法格式为“前介词+ 中间成分”,“前介词+ 中间成分+ 后介词”,“中间成分+ 后介词”三种。前介词在“权值” 字段中用1 表示,如“在”,“对于”等:后介词用0 表示,如“之内”, “里”,“前”等。 介词词组举例:“对于我们”,“在车子之前”,“房子之内”。 要指出的是,词典中所定义的介词与通常意义上的介词略有不 同。对于一些用以表示动作对象的词语,如“把”、“被”等,汉语中 通常把它们划归为介词类。但是在本系统的词典中,将按照论点计算 的要求而把它们作为辅助词来处理。 g ) 辅助词( a s s i ) 辅助词用于处理在论点识别中的可能引发歧义的元素。它包括两 类:a 、纯辅助词;b 、程度性形容词和副词。纯辅助词包括“和、或、 的、地、得、了”等;而程度性形容词和副词则如( 3 ) 和( 4 ) 所述。为 了消除论点计算中的歧义,提高论点识别的正确率,必须对辅助词进 行特定的处理。 3 ) “权值”属性 对于名词、动词、实形容词和实副词等来说,其“权值”属性表明了 该词语的感情倾向。如果一个词语是用于描述一种正面性的事物或是进行 正面性的修饰,表明的是一种褒义的感情时,那么其“权值”应大于零; 如果一个词语是用于描述一种负面性的事物或是进行负面性的修饰,表明 的是一种贬义的感情时,那么其“权值”应小于零;而如果一个词语是用 于描述一种中性的事物或是进行中性的修饰,没有表明其褒贬性时,那么 其“权值”应等于零。权值大于零的词语如“优秀”、“支持”、“帮助”、 “善良”和“共产党”等;小于零的词语如“差劲”、“反对”、“捣乱”、 “邪恶”和“恐怖主义”等;等于零的词语如“走路”、“划船”、“告诉”、 “成都”和“汽车”等。 表达一个词语感情倾向的权值不仅由汉语的客观语法规则决定,同时 也受到人们主观因素的影响。例如,“善良”,“勤劳”,“勇敢”等的感情 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 倾向为“正”,而“邪恶”,“懒惰”,“卑鄙”的感情倾向为“负”,这都是 由客观规则所决定的;而“沙龙”和“阿拉法特”等词语,则要视乎各人 的主观倾向而定义为“正”、“负”或是“零”。 4 1 “是否绝对”属性 “是否绝对”属性只对名词和动词有效。 对于名词来说,该属性表明了该名词的感情倾向是否是客观的。举例 说明。假设有甲和乙两方,他们处于一个敌对和矛盾的立场。如果一个词 语的感情倾向在双方看起来都是相同的话,那么该词语就是客观的;而如 果一个词语的感情倾向在双方看起来是完全相反的话,那么该词语则是主 观的。客观的词语如“正义”、“赞扬”、“反对”、“汽车”和“告诉”等; 而主观的词语如“沙龙”和“阿拉法特”等。 而对于动词来说,“是否绝对”属性表明了该动词所修饰的名词的感 情倾向是否固定。也就是说,被修饰名词的“权值”是否具有固定的符号。 假设站在某人的立场来看,a 和b 这两个名词的权值正好相反。以“赞 美”一词为例,在“赞美+ a ”的句型中,a 的权值符号并不是固定的, 对a 的权值可以按照。因此“赞美”不具有绝对性。而对于“迫害”一 词来说,它所修饰的名词其感情倾向是固定的。无论立场是站在哪一方, 都一定会认为在“a + 迫害+ b ”的句型中a 的权值小于零,同时b 的权 值大于零。 r 5 ) “辅助词处理方式”( a m ) ,“辅助词处理参数1 ”( a p l ) ,“辅助词处 理参数2 ”( a p 2 ) 等属性 每个辅助词都对应着一种处理方式。该处理方式表明了在进行论点识 别时,辅助词与其它词语相结合的具体计算方法。而辅助词处理参数则作 为该计算方法的入口参数( 现在只用g u ta p l ,a p 2 用于以后的算法扩 展) 。 系统中根据汉语的语法规则引入了一些常用辅助词的标准算法。关于 这些标准算法的说明如下: a 1a m = 0 忽略该辅助词,不进行任何计算。 1 9 四川大学硕士学位论文基于论点倾向的网络信息内容实时分析研究 代表词:“啊”,“唉”。 b ) a m = i ,a p i = 词性 令该辅助词为b ,与之相邻的前一个词语为a ,则结构a + b 将结合 为一个新词x 。x 的权值等于a 的权值,而x 的词性为a p l 。 代表词:“的”,“得”,“了”,“着”。 例如“的( a s s i ) ”,其a m = i ,a p i = 4 ( 二进制的l o o ,即a d j ) 。由上 所述,“人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论