




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
开题题目:基于关键字的交换内容过滤技术的研究与实现1、选题描述:包括选题的背景、依据和意义、研究目标、研究内容以及对国内外相关领域研究现状的分析(可附页)选题背景、依据和意义:进入21世纪以来,计算机在我国开始普及并迅速发展,在国家有关政策的积极鼓励推进下,我国的信息化建设获得了巨大的成就。随着互联网的不断快速发展,信息个体之间的互联互通和信息共享已经成为人们迫切需要解决的问题,企事业单位、政府和军队等部门内部积累了大量的基础数据。但是,出于内外网和不对等区域之间数据交换安全性问题的考虑,这些部门无法实时和充分地利用这些基础数据作为信息化建设应用扩展,因而只能相互独立、数据分散地形成一个个“信息孤岛”、“数据孤岛”,严重影响了其信息化建设的进一步发展,也为信息化工作的开展带来了不便。此外,因病毒的疯狂肆虐、黑客日益猖獗、软件本身漏洞和设计缺陷而导致的泄密事件也越来越多,对党政机关、军队等单位的信息安全构成了极大的威胁。然而,传统的技术手段很难兼顾安全隔离和信息交换两者的需求,更缺乏对信息安全的严格审查,极易导致攻击代码的流入和重要信息的泄漏。简单的物理隔离、网闸技术等都不能从根本上解决问题,并且缺少对进程的交换数据中敏感的、涉密的信息进行实时的过滤防护。随之带来了严重的安全隐患。安全、高效的数据交换是当前企事业单位、各级政府部门和军队信息化建设进一步发展的核心和关键:随着计算机网络和分布式系统规模的不断扩大,网络硬件平台和操作系统与网络协议之间的异构性越来越明显,不同的应用平台与分布式系统形成的一个个“信息孤岛”。如何实现企业的分布式系统之间可靠的、高效的、实时的跨平台数据传输,使应用软件能够平滑地运行于不同平台上是目前政府和军队建设、企业生存和发展急需解决的问题。然而,不同政务部门、不同级别专网、不同应用平台之间的信息交换存在着严重的安全隐患,极易导致攻击代码的流入和重要信息的泄漏。因此,安全、高效的进行数据交换是目前迫切需要解决的问题。在此背景下,利用可控单向双通道通信、身份认证、访问控制、交换任务定制、敏感信息过滤和交换行为动态监管等技术,完成在可管可控条件下完成基于行为监管的实时的、高效的、安全的文件交换系统就显得十分必要。由于不同部门、不同应用平台和不同密级的信息系统之间的数据安全传输问题的研究和解决变得尤为重要,如何来确保信息系统之间所交换信息的安全性,尤其是对于庞杂的文本类(.txt/.doc/.docx/.rtf/.pdf/.excel/.ppt等)信息,如何有效地组织和管理这些需要发送的信息,并快速、准确、全面地为数据安全交换系统从中检测且过滤出这些敏感的以及不符合要求的信息,是整个系统能否确保安全交换的关键技术之一。传统的过滤只能支持少量的格式,主要是简单的TXT文本,并且笼统地将数据过滤问题归结为某一类过滤,已经不能满足当前信息发展的需要,而作为一个成熟的、全面的交换系统,我们必须更加全面地对可能出现敏感信息的文件进行严格过滤,从文件大小、类型和内容过滤等方面,更加细粒度定制过滤交换数据以确保降低通过交换系统传输的文件出现失泄密情况的可能性。因此为了满足用户日益增长的安全需求,对信息系统需要传送的数据进行敏感信息、涉密信息检测和过滤的技术研究和实现就具有十分重要的意义。信息系统交换数据内容中敏感成分检测和过滤模块的设计与实现是系统高效安全运行的重要保证。研究目标、研究内容:由于安全交换系统中传输的文件可能包含敏感或涉密信息,因此,在文件发送之前在发送方进行简单的敏感信息过滤是十分必要的。敏感信息过滤主要针对文本类文件(.txt/.doc/.docx/.rtf等)携带的内容进行扫描过滤。保证交换的内容符合安全交换系统中的定制策略。我采用的基于内容的敏感信息过滤方式,主要包括以下四个过程:(1)建立用户需求模板;(2)提取待过滤文本内容的特征向量;(3)待过滤文本与用户需求的匹配(过滤过程);(4)通信信息反馈,改进需求模板。具体实现原理如下:(1)待过滤文本的特征向量表示任一篇文本都可用关键词表示成一个n维向量。设文本的关键词为,表示文本中的第个关键词,其对应的词频向量为,词频定义为关键词在文本中出现的次数,若关键词在文本中没有出现,则为0。定义文本对应的权重向量为,其中定义为关键词在文本中的权重,即关键词文本的主题内容的贡献程度。关键词权重函数:其中:为关键词的段落频率;1表示关键词的词长;是比例因子;当关键词位于段首、段尾和结论句子时,可根据需要赋予一个小于1的值,否则,=0。(2)用户模板的向量表示用户模板即用户的需求模型,用于表达用户对于信息的具体需求,对于不同的主题需求,可用不同的向量表示。用户模板的向量表示有两种方式,第一种方式与(1)中文本向量的表示方法相同。这种方式需要示例文本,根据用户提出的示例文本提取关键词,统计词频,计算关键词权重。例如,针对某个主题的示例文本,其关键词向量为,其对应的词频向量为,其权重向量为。其中,表示示例文本的第个关键词,表示关键词在示例文本中了,出现的次数,表示关键词在示例文本中的权重。可根据公式(1)计算得出,只是不再表示关键词的段落频率,而表示它的篇章频率,即在示例文本中,有该关键词出现的文本数量。在第二种方式中,关键词权重不是由计算得出,而是由专家根据其经验给出某个主题的若干个关键词权重,并由此组成权重向量。(3)过滤算法关键词匹配法利用用户模板与待过滤文本向量的夹角余弦来衡量文本与主题之间的相似度。根据需要规定一个过滤阈值,当文本与主题之间的相似度大于时,说明文本的内容符合主题,是用户需求的信息。本作品采取的基于关键词匹配的过滤方法建立在关键词的基础上,通过加权、相关性判断等控制手段来体现概念因素。通过将文本内容转换成向量方式,易于数学处理,可操作性强,执行速度快,易于理解。其基本模型如图1所示:图1 敏感信息过滤基本模型用户可以根据需求建立用户需求模板,当出现待过滤文本时,使用分词词典对待过滤文本进行分词操作,并统计关键词词频,计算关键词权重,形成待过滤文本的特征向量;然后,通过过滤算法实现待过滤文本与用户需求模板的匹配,并根据预先设定的过滤阈值决定待过滤文本的取舍;最后,进行一定时间或者一定次数的过滤操作之后,还可根据用户反馈的信息改进用户需求模板,以提高过滤精度。国内外相关领域研究现状的分析:1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。2、拟解决的关键问题和拟采取的研究方案(可附页)关键问题及解决方案:由于文件安全交换系统中传输的文件可能包含敏感信息或者涉密信息,因此,在文件发送之前在发送方进行文件内容的敏感、涉密信息检测过滤是十分必要的。敏感信息过滤主要针对文本类文件(.txt/.doc/.docx/.rtf等)携带的内容进行扫描过滤。保证交换的内容符合文件安全交换系统中的定制策略。研究一,信息过滤的几种方法,主要有:1)基于黑白名单的过滤。 所谓白名单,有时候也被称为安全名单。例如对服务器管理员、网络服务商或公司来说,都会有一系列对自己来说是安全的网络服务器域名或IP地址列表,从这些网络服务器获取的信息通常被认为是安全的。这样,如果网络信息对应地址处在这个安全名单中,系统就会让这些信息不经过过滤器就直接到达客户端。所谓黑名单技术,即利用国内外很多组织提供的不良信息制造者或策源地的“黑名单”,过滤器得到信息请求后,先到“黑名单”上去查找。如果对应地址在名单中,就拒绝连接。白名单和黑名单通常是结合起来使用的。这种技术的优点是速度快,并可以动态更新;缺点是,会拒绝指向同一个黑名单的所有信息,误判率高。2)基于规则的过滤。基于规则的过滤方法是通过训练得到显式规则(通常用产生式表示)规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人类理解的规则,缺点在规律性不明显的应用领域效果较差。3)基于内容的过滤。KNN方法是一个经典的基于统计的方法,一直是模式识别领域研究的对象,在文本分类的早期研究中使用了KNN方法。 支持向量机(SuppoVectorMachine,简称SVM,也叫做支撑向量机)是在二十世纪90年代以来发展起来的一种统计学习方法,它通过构造最优线性分类面来指导分类SWM在解决小样本学习、非线性及高维模式识别问题中表现较好。Rocchio方法是信息检索领域常常用于相关反馈的方法。它用于分类的基本思路很简单:将所有训练文本向量化,类别向量等于所有正例向量和反例向量的加权差。4)关键词过滤技术 关键词过滤技术通过创建一些简单或复杂的与过滤信息关联的单词表来识别和处理被过滤文本。比如某些关键词大量出现在被过滤文本。这种方式比较类似反病毒软件利用的病毒特征一样,可以说这是一种简单的内容过滤方式来处理信息,它的基础是必须创建一个庞大的过滤关键词列表并不断的更新这些关键词。基于内容和规则的过滤实际上是一种基于自然语言理解的过滤技术,多从语意角度考虑,其过滤效率较低,严重影响用户获取信息的效率。关键词过滤技术以其方便、快捷而成为许多信息过滤系统首选和必备的过滤技术。然而,单纯的关键词过滤技术因为不考虑文本内容的语意而容易造成误判,降低了信息查准率、查全率和准确率。研究二,分词技术CC-CEDICT一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。IKIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 PaodingPaoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr接口,具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。能够对未知的词汇进行合理解析MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口1mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。2MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。由于文件安全交换系统初始默认过滤词汇较少,我准备采用的基于文本内容分词的敏感信息过滤方式,即采用分词结合关键字过滤方式对安全交换系统所传文件内容进行过滤,综合考虑,其过滤效果和工作性能都能够使用户满意。主要功能有:文件降级处理、文件类型检查、文件修改时间过滤、文件大小过滤、文件名称过滤。3、时间进度安排(可附页)周次时间内容第一周2.13-2.19清理寒假所看论文、算法,同时上图书馆互联网查阅相应文献,看是否能够查到开源的数据过滤软件或集成有数据过滤的大型的开源软件作为参考。第二周2.20-2.26总结从论文中提取的算法,理清思路,综合评估各算法的性能和效率,选定一两个算法作为实现目标,撰写开题报告。第三周2.27-3.4编写代码,完成文件大小过滤。第四周3.5-3.11编写代码,完成文件时间过滤。第五周3.12-3.18编写代码,完成文件类型过滤。第六周3.19-3.25编写代码,完成文件名称,文件内容过滤。第七
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 两人怎样签订合同协议书
- 农家带院子出售合同范本
- 拖拉机销售合同协议书模板
- 小儿推拿脾虚课件
- 家政空调安装服务合同范本
- 农村房屋修建质量协议书
- 冲床加工合伙协议书模板
- 买卖合同关系转让协议书
- 2025煤炭采购合同模板
- 2025年人教版新教材数学一年级上册复习与关联教案设计
- GB/T 24186-2022工程机械用高强度耐磨钢板和钢带
- GB/T 20000.6-2006标准化工作指南第6部分:标准化良好行为规范
- GB/T 16311-1996道路交通标线质量要求和检测方法
- GB/T 1149.4-2008内燃机活塞环第4部分:质量要求
- 地基基础工程施工方法及基础知识课件
- 江苏省无锡市各县区乡镇行政村村庄村名居民村民委员会明细及行政区划代码
- 2021社会保险法知识竞赛试题库及答案
- SF-36生活质量调查表(SF-36-含评分细则)
- 小学数学校本教研的实践与思考(课堂PPT)
- 经历是一种收获的作文5篇
- 血液透析管路及透析器安装操作评分标准
评论
0/150
提交评论