《短信防火墙相关》word版.doc_第1页
《短信防火墙相关》word版.doc_第2页
《短信防火墙相关》word版.doc_第3页
《短信防火墙相关》word版.doc_第4页
《短信防火墙相关》word版.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于文本信息过滤技术的短信防火墙系统设计与实现 世纪是信息时代,也是网络时代。随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务正以其短小、迅速、简便、价格低廉等诸多优点日益成为人们的一种重要通信和交流方式。移动短信业务在飞速发展的过程中,一方面给广大使用者带来了各种方便;另一方面由于各种垃圾短信的大量出现,也带来了信息安全上的问题,影响了人们的正常生活。因而非常有必要将这些垃圾短信过滤掉。通过对短信业务结构的分析,短信的发送方式有两种,一种是手机,另外一种是手机一手机,无论哪一种都是通过短信服务中心进行存储、转发,再到用户手机上。所以可以从两个方面对垃圾短信进行过滤,一种是短消息服务中心的过滤方式,另一种是手机终端的过滤方式。无论是从短消息服务中心的过滤方式还是手机终端的过滤方式,都存在一些不足。为了更好的实现垃圾短信过滤,本系统采用了短信服务中心的过滤方式。通过黑名单、双缓冲、多线程和反向有限自动机算法相结合,从而实现对垃圾短信的过滤。本文在此研究基础上,设计一个短信防火墙过滤系统,该系统按照软件工程的思路进行系统架构和设计,在设计开发过程中遵循面向对象的原则;采用多层结构设计,包含接入层,支撑层,实体层,数据层,重点对短信过滤系统做了分析,该过滤系统通过技术编程实现,可移植性好,代码执行效率高,与数据库连接方便。系统采用双缓冲技术,多线程技术,反向有限自动机技术来提升系统运行能力。业务处理和业务网站采用和相结合的四层体系结构实现。在表示层中实现了窗体的视觉元素组织和用户界面的设计;在应用逻辑层中实现了各功能模块的设计、组织逻辑和对的调用方法:在数据访问层建立实现系统所有对数据源的访问逻辑的。 主要创新点如下:()在过滤模块中采用双缓冲技术,提高系统的查询速度,实现了资源共享,同时双缓冲的交替使用,很大程度上避免了由于刷新而影响过滤功能的使用。在过滤模块中采用反向有限自动机算法,结合短信文本的特点。对短信文本进行一次扫描,可以大大减少匹配次数,在速度方面具有较高的优越性。从而获得更快的匹配速度和更小空间占用。()本系统采用结构与结构相结合的体系结构,分离公用组件层和通用业务逻辑层,简化了业务逻辑层的处理,使得每个具体业务的实现相对独立,大大提高了系统的重用性和可扩展性。 第页问题研究背景第章 绪论 随着中国手机用户的迅猛增长,手机短信因其使用方便、价格便宜和随时随地收发等优点而在短时间内得到大面积普及。短信业务自年起在中国正式推广,现已获得爆炸性的增长,手机短信己经成为人们交流的一种新手段。据统计,年的发送总量为亿条,年超过亿条,年达到亿条,到年为亿条,可见短信业务的市场空间巨大。但短信业务迅猛发展的同时,也带来了信息安全方面的问题。很多不轨分子利用短信骚扰他人正常生活;利用短信发布虚假信息进行诈骗;利用短信煽动闹事、散布谣言、攻击政府,影响社会稳定;利用短信传播色情、反动消息,危害公共安全:通过短信发布大量广告,影响人们的正常生活。因此很有必要对这些垃圾短信进行过滤。本文就将对此问题做出一定的研究。考虑到目前国内的短信绝大多数是中文短信,所以只要对中文垃圾短信进行过滤,就可以解决绝大部分的短信安全问题,因此我们的处理对象是中文短信。相关研究信息过滤相关研究概述年,提出信息过滤()的概念引。他描述了一个信息过滤的实例,在电子邮件系统中,利用过滤机制区分紧急的邮件和一般的例行邮件,同时根据用户需要限制例行信息的显示方式。为了解决这个问题,构造了一种“内容过滤器”,其中采用的主要技术包括有层次组织的邮箱、独立的私人邮箱、特殊的传输机制、阈值接受、资格认证等。 第页在此后的十年间,关于信息过滤的应用研究逐渐开展起来,研究领域也从最初的电子邮件延伸到其他相关领域,出现了许多研究成果,其中最有影响的是和他的同事在年发表的论文。他们提出了三种信息选择模式,即认知模式、经济模式和社会模式,并研制了系统。在这一期间,信息过滤研究得到了大规模的政府资助。年,美国国防高级研究项目署( ,)资助了第一届“”,极大地推动了信息过滤的发展。年,(美国国家标准和技术研究所)与联合赞助了每年一次的文本检索会议(,),对于文本检索和文本过滤倾注了极大的热忱。旨在通过提供规范的大规模语料(级)和对文本检索系统性能进行客观、公正的评测,来促进技术的交流、发展和产业化;促进政府部门、学术界、工业界之间的交流和合作,加速技术的产业化;发展对文本检索系统的评测技术。这对文本过滤技术的形成和发展提供了强有力的支持。随着因特网的迅速发展,需求的不断增加,在文本过滤以及相关技术方面,取得了长足的进展,成为信息产业新的增长点,许多文本过滤系统相继开发完成。如大学开发的()系统、研制的系统、基于协作过滤的系统和。也有一些过滤方案试图将内容过滤和协作过滤相结合,如系统就是结合了内容过滤和协作过滤两种模式的典型系统,该系统用于推荐网页。短信服务研究概述无线短信服务(),是全球公认的无线服务,它能够在移动用户及外部系统(如电子邮件、页面调度以及声音邮件系统)之间传送包括文字与数字的短信。短信服务于年出现在欧洲的无线领域,如全球移动通信系统(),一开始就包括了短信服务。这些无线数字网包括基于、码分多路访()和时分多路访司()等标准的网络。 第页短信服务中心()解决方案【】是基于一个智能网络方法,提供一个机制,用于将短信传送到无线设备,及从无线设备发送短信。其实现的关键部分为,作为短信的保存、转发系统,其底层无限网络提供了通信基础设施,通过信令进行寻址并且在短信服务中心()及无线网站之间进行短信传输。这个服务增加了对文本信息到目的地传输的保证。而且,无限短信服务器()支持多输入机制,它允许与不同的信息源及目的地进行相互联络。为了拓展短信增值业务,电信运营商为广大提供了互联网的入口。一般短信移动业务网的基本结构如图所示:内容和服务提供商短佰 【网关()短信服务中心新闻笑话天气预报银行动态图移动短信业务网的基本结构根据短信的业务基本结构,我们知道短消息的发送与接收是由移动网络中的短消息服务中心()来完成的,依靠的存储和转发机制。发送方发送短信息,短消息业务中心对其进行存储转发,并以接收方的回馈信号来对发送方计费,短信发送到短信中心后,如果对方处于关机或不在服务区,信息在短信中心储存小 第页短信发送方式根据短信的业务基本结构,我们知道短消息的发送与接收是由移动网络中的短消息服务中心来完成的,采用存储和转发机制。发送方发送短信息,短消息业务中心对其进行存储转发。一般有以下两种短信发送方式:()手机。都有一个由电信运营商提供的服务号码。手机用户想预订某个的短信服务,只需给该的服务号码发送预订短信,以后会自动发送其预订的内容给手机用户。预订短信的收费可以是按条收费的,也可以是按月计算的。为了吸引用户预订其资源,可能向大量手机用户发送广告短信,从而导致垃圾短信的产生。而且,有的设计规定诱使用户订购其短信服务。的接入管理可能会影响垃圾短信的产生。例如在省申请一个资格,然后把需要的垃圾短信发送到省的用户。省会处理所在省的投诉,但是因为短信的发送者位于省,使用的也是省的短信网关,省对他们可能无能为力。为此,必须加强的管理。()手机手机。手机手机的发送方式更加自由。任何人都可以利用手机给任何手机号码发送短信。这种方式给垃圾短信的监管带来一定的困难,因为没有较好的预防措施。单纯采用手工发送垃圾短信,对系统的影响较小。事实上,有部分的垃圾短信发送者采用个人群发器发送短信。该设备直接连接手机和计算机,然后通过程序直接发送短信。该设备能在短时间内发送出大量的垃圾短信。由于成本低,这种方法使用也相当普遍,许多短信诈骗就是采用该发送方式。短信过滤方式式:根据短信息的传输过程和发送方式来看,对短信息过滤主要有两种方短消息服务中心的过滤技术这种过滤方式主要是在短消息服务中心进行过滤。在对实时接收的短信息进行存储转发的时候,对有害信息实施监控,这种监控大多采用短信内容 第页识别和状态监测相结合的监管模式。第一种:基于短信关键词的过滤方式。如何较好地识别出一条短信是否是垃圾短信是非常困难的。根据统计学,我们可以利用关键词来进行自动识别和过滤。这种方式是以设置关键词的方式来过滤垃圾短信。如果短信中出现某些关键词,就将此条短信过滤掉。使用关键词可以完全实现智能化,不需要投入过多的人力。但这种方式有很明显的缺点,一方面仅凭某个关键词就过滤掉此条短信,会造成很多非垃圾短信也会被过滤掉,另一方面短信范畴太广,关键词太少,也会造成垃圾短信过滤的准确性比较低。第种:状态监测。电信运营商可以对某一个手机或某一个单位时间发送或接收的短信数量进行统计,一旦发现该统计值超过某一个值就报警。如果能检测到大量发送垃圾短信的个人或者服务商,立即对其进行监管和过滤。短消息服务中心的过滤方式在实际使用中有很多的局限性,其一,由于通讯公司不是行政管理机构,过滤和拦截有害短信息暂时还缺少足够的法律依据,所以目前大部分通讯公司对有害信息的发送者仅采取临时性监控措施,因而有害短信能够轻易地突破这道防线。另外垃圾短信发送者还经常使用多部号码发送短信,从而逃避监管:其一,短信息的收费是以接收方的反馈信息来收费的,如果对大量信息不予转发,会直接影响通讯运营商的利益,也造成通讯运营商对信息过滤和拦截的兴趣不高。手机中的过滤技术这种方式是在手机中预先设定包含手机或短信服务商号码的黑名单,白名单等,在接收信息时根据黑名单来识别是否对信息拦截和过滤,即“手机 短信防火墙”,目前这种功能仅出现在一些少量手机中。这种方法也同样存在局限性,由于是采用预先设定的黑名单,在对有害信息进行拦截时存在不足,因为有害信息发送者经常变换手机号码,致使黑名单失效。本文的内容安排本文共分章,大致结构如下:第章介绍论文的研究背景和研究现状,阐述信息过滤相关领域国内 第页外的研究现状,并介绍了短信的发送方式和过滤方式。第章介绍短信防火墙系统中过滤模块的相关技术,包含缓冲技术,反向有限自动机算法和多线程,并介绍了开发技术及开发框架。第章短信防火墙系统的需求分析。包括用户需求、接入需求、短信需求等。第章短信防火墙系统的设计。能设计、安全设计等。第章短信防火墙系统的实现。模块的实现方法。包括系统总体设计、数据库设计、性包含系统环境配置,开发技术及几个第章短信防火墙系统的部署及运行测试。包含系统安装配置,系统测试及评价等。 第页第章短信防火墙系统相关技术本章主要是对短信防火墙系统中要用到的一些相关技术给出相关论述,其中过滤技术主要有缓冲技术、反向有限自动机算法、多线程技术。还介绍了技术、框架和框架。过滤技术缓冲技术用户设置的过滤规则是持续有效的,因而所有的个性化过滤规则都应该存放在数据库中。因而在程序开发中,获取过滤规则的方式主要是查询数据库,除此以外,也可能是通过或者别的某种方法,但无论哪种方法,在大量的并发访问面前,它们都可能成为效率的瓶颈,为了解决这些问题,人们提出了很多解决方案,其中之一就是缓存技术】,缓存是用来临时存放一些经常被使用的程序片段或数据。缓存通常都是静态,速度是非常的快。使用缓存可以大大提高处理速度,而不用频繁的去操作数据库。但缓存功能也有其自身的不足。例如,内容可能不是最新、最准确的,为此,必须设置合适的缓存策略。由于本文所采用的是短信服务中心的过滤方式,而短信中心每秒钟会处理上千条以上的短信,这就意味着过滤模块必须超过这样的处理速度,才不会影响短信中心处理短信的时间。而过滤模块需要同时面对大量的用户过滤规则,这些过滤规则存放在数据库中,如果使用普通的数据库操作是不可能达到这样的效果的,必须采用更好的方法来提高处理效率,这种技术就是缓存技术。过滤模块在处理短信中心的短信之前,先使用缓存技术把所有的用户过滤规则一次性转入缓存,这里使用的是,然后再处理短信中心过来的短信,进行过滤,这样处理的效率会大大提高,能够达到响应时间要求。由于缓存存放的是静态数据,所以必须定期对数据进行更新。 第页反向有限自动机算法有限自动机的基本思想是根据输入和当前的状态决定下一个状态和输出,接着再进入下一次输入。在字符串多模式匹配中,向自动机输入所要查找的目标字符串,自动机可以输出查找到的模式串以及模式串在目标串的位置。有限自动机的构造过程是将模式串集合变换成由转向函数,失效函数和输出函数所组成的树型有限自动机。在一般的有限自动机的构造中,每个模式串的字符是从前到后依次加到树型的有限自动机中的,在匹配时,目标串的输入,即匹配过程,也是按照从前到后的次序。而反向有限自动机】的构造中,每个模式串的字符从后到前,加到树型的自动机中,同时,匹配过程中,目标串的输入也是从后到前的顺序,即逆向扫描。下面举例说明反向有限自动机的算法。例:用反向有限自动机算法,在目标串“中华人民共和国家”中查找国家,共和国,人民,中华人民共和国,中国)中的模式串。用反向有限自动机算法可生成图所示的树型自动机,状态的集合为(,输入集合是中文编码集的字符,输出集合是模式串国家,共和国,人民,中华人民共和国,中国)。图一反向有限自动机转向函数(,)(,)由图中的实线箭头及上面的字符表示,定义了在箭头起始状 第页态时,如果“下一个输入是箭头上的字符,则自动机的状态转到(,),即箭头所指状态。这里,因为目标串是反向输入的, “下一个”是目标串的前一个字符。失效函数()()表示在状态时,如果“下一个”输入不在任何一个转向函数表示的箭头上,那么自动机的状态将转到(),即如果(,)不存在,则()。图中的虚线箭头表示了所有不为的转向函数,没有虚线箭头出发的状态的()。输出函数()()表示自动机在状态时,可提供的输出,表示找到的目标串。图一中双圈的状态表示有输出,()的值如方框所示:其他状态的输出为空。转向函数(,)或失效函数()进入下一状态。利用己构成的有限自动机进行多串一遍查找的过程如下:()从有限自动机的状态出发,从目标字符串的最后一个字符开始反向逐个取出的字符,并按转向函数(,)或失效函数()进入下一状态。()当输出函数()不为空时,输出()。匹配的过程如图所示:醴环搿巾?胃 图匹配过程反向有限自动机的算法的形式化描述设要匹配的目标串为:,。令,互,瓦)是模式串集合,共有个不同的模式串。“;表示第个模式串,其中是串的长度,;:表示正中的第个字符,。、和表示状态变量。是一个状态队列。(,)为转向函数,()为失效函数,()为输出函数。(,)不嵇嚣()生成自动机的状态集合,转向函数和初始输出函数的方法: 第页: :(。,)对任何使(,)不存在的(,): (,):;,:(,)存在 :一(,):一: :孕(,):():()生成失效函数和更新输出函数的方法:令为空每一个使(,)的靠加入队列():不为空取出的笫一个状态从队列中删除每个使(,)存在的进入:()(,)不存在:一()():(,)():;()() 第页()匹配: (,)不存在:():(,)()非空。:”()反向有限自动机匹配算法分析()反向有限自动机匹配算法为字符串处理提供了方便。()中文信息的特点,使得反向有限自动机会比正向有限自动机节省空间和提高速度。以模式串集合(红色,绿色,蓝色,天蓝色,粉红色)为例,它生成正向有限自动机和反向有限自动机的转向函数(,)如图和图所示。这里正向有限自动机共有个状态节点,而反向有限自动机仅有个状态节点。反向有限自动机匹配算法所需要内存空间比正向有限自动机要少。反向有限自动机匹配算法状态数的减少,特别是第一层节点的减少,将使匹配的平均速度得到提高。这里第一层节点是只与状态节点相邻的节点。从图和图可以看出,正向有限自动机的第一层节点是、,而反向有限自动机的第一层节点只有。这样正向有限自动机的(,)的计算时要比较个字符,而反向有限自动机的(,)的计算只要比较个字符,反向自动机的(,)的计算速度要更快。 第页图正向有限自动机图反向有限自动机在匹配过程中,转向(,)是计算量最大的一个部分,当模式串在文本串中出现概率较低时,匹配中更多的是在计算(,),而不是其它转向函数。当采用反向自动机,有效减少第一层节点数目,提高(,)计算速度时,整个匹配过程的速度也就提高了。多线程多线程【是这样一种机制,它允许在程序中并发执行多个指令流,每个指令流都称为一个线程,彼此间互相独立。线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其它习囤 第页线程共享一个存储空间,这使得线程间的通信远较进程简单。多个线程的执行是并发的,也就是在逻辑上“同时”,而不管是否是物理上的“同时”。如果系统只有一个,那么真正的“同时”是不可能的,但是由于的速度非常快,用户感觉不到其中的区别,因此我们也不用关心它,只需要设想各个线程是同时执行即可。多线程和传统的单线程在程序设计上最大的区别在于,由于各个线程的控制流彼此独立,使得各个线程之间的代码是乱序执行的,由此带来的线程调度,同步等问题,将在以后探讨:那么如何提供给我们要线程执行的代码呢?让我们来看一看类。类最重要的方法是(),它为类的方法()所调用,提供我们的线程所要执行的代码。为了指定我们自己的代码,只需要覆盖它!方法一:继承类,覆盖方法(),我们在创建的类的子类中重写(),加入线程所要执行的代码即可。这种方法简单明了,符合大家的习惯,但是,它也有一个很大的缺点,那就是如果我们的类已经从一个类继承(如小程序必须继承自类),则无法再继承类,这时如果我们又不想建立一个新的类,那么如何限制这个类必须包含这一方法呢?当然是使用接口!提供了接口来支持这种方法。方法二:实现接口,接口只有一个方法(),我们声明自己的类实现接口并提供这一方法,将我们的线程代码写入其中,就完成了这一部分的任务。使用接口来实现多线程使得我们能够在一个类中包容所有的代码,有利于封装,它的缺点在于,我们只能使用一套代码,若想创建多个线程并使各个线程执行不同的代码,则仍必须额外创建类。技术定义门是封装成个单一实体并通过网络发布给其它程序使用 第页的一系列功能集。它是自包含、自描述、模块化的应用,可以发布、定位、通过调用。可以执行从简单的请求到复杂商务处理的任何功能。一旦部署以后,其他应用程序可以发现并调用它部署的服务。因此,是构造开发的分布式系统的基础模块,它们允许所有的企业和个人快速、廉价建立和部署全球性的应用。将是下一代分布式系统的核心,它具有以下特点:()互操作性。任何可以和其它、交互。这种交互通过(,简单对象访问协议)【】实现,是一个几乎得到所有厂商支持的标准协议,任何平台和语言的程序都可以通过实现交互。()普通性。通过和】通信。因此,任何支持这两项技术的设备都可以访问。()易实现性。不象现有的分布式计算系统的具有复杂接口,许多厂商包括和也提供大量的免费工具来快速生成和部署。同时,现有的和组件系统很容易转向以的方式提供服务。()广泛支持性。几乎所有的厂商都支持协议和相关的技术。体系结构是一种新的分布式应用程序,它能使地理上分布在不同区域的计算机和设备在一起工作,以便为用户提供各种各样的服务,用户可以控制要获取信息的内容、时间、方式,而不必像以前那样在无数个信息孤岛中浏览,去寻找自己所需要的信息。基于、和等标准,通过程序自动启动和处理、或上的事务,动态地描述、发布、发现和调用跨平台、跨系统的分布式计算环境中的各种应用。的面向服务的架构()可以用图来描述,的三种角色(服务提供者、服务请求者、服务中介者)分别承担了不同的任务。在这三种角色上又有三种操作:发布、查找、绑定。其中,服务提供者通过 第页服务中介者配置和发布服务,服务请求者通过服务中介者查找所申请的服务,并绑定到这些服务上,以建立服务提供者和请求者之间的联系。图面向服务的构架在的三种操作中,发布操作使用技术,查找操作使用和技术的组合,而绑定操作使用和技术的组合。其中,绑定操作最重要,它是应用服务的具体实施和应用服务间的交互操作。服务提供者和服务请求者对规范的充分支持,保证并实现了应用服务间无缝的交互操作。架构的应用系统具有许多优点,主要表现在以下三个方面:()提高了共享对象间的互操作性;()提供了自动、即时的集成操作;()通过封装降低了系统的复杂性。曲的主要相关技术的主要相关技术有、等,它们的相互关系如图所示。最基本的平台是加。是一个在上广泛使用的协议,也就使得能在上广泛应用具备基本的协议基础。是一种元语言,可以用来书写特定的语言来描述客户和服务之间或者组件和复杂服务之间的交互。及其各种协调过程都采用的技术作为核心。在应用服务器之后,格式的消息被转变成中间件的请求。返回的结果也会转化成格式。有了作为核心技术,各种网站提供的服务都不再局限于一些花花绿绿的页面,而是可以进行编程调用的。 第页图的主要相关技术相互关系在此基础上需要增加一些服务,同时保持简单性和普遍性,来把构建成一个功能更强大的平台,以实现之间的调用、查找、服务描述等功能。在服务调用与消息传递上采用协议。在服务描述上采用。在服务查找上采用(,)规范。编程模型通过使用消息处理启用数据交换和应用程序逻辑远程调用,使数据能够通过防火墙,并在异类系统之间移动数据。虽然数据和应用程序逻辑的远程访问不是一个新概念,但以松耦合的方式进行这种操作却是一个全新的概念。的客户端和之间的唯一假设是接收者理解其接收到的消息。这样,用任何语言编写的、使用任何组件模型和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论