基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf_第1页
基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf_第2页
基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf_第3页
基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf_第4页
基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

基于Android的垃圾短信过滤系统优秀毕业论文 参考文献 可复制黏贴.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单位代码 10293密级 硕 士 学 位 论 文 论文题目 基于 android 的垃圾短信过滤系统 y006091630 张琛 王 勇教授 测试计量技术及仪器 虚拟仪器及网络化测控技术 工学硕士 二 一二年三月 学号 姓名 导师 学科专业 研究方向 申 请 学 位 类 别 论 文 提 交 日 期 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包 含其他人已经发表或撰写过的研究成果 也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料 与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意 本人学位论文及涉及相关资料若有不实 愿意承担一切相关的法律责任 南京邮电大学学位论文使用授权声明 本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文 档 允许论文被查阅和借阅 可以将学位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存 汇编本学位论文 本文电子文档的内容和纸质 论文的内容相一致 论文的公布 包括刊登 授权南京邮电大学研究生院 筹 办理 涉密学位论文在解密后适用本授权书 研究生签名 日期 研究生签名 导师签名 日期 南 京 邮 电 大 学南 京 邮 电 大 学 硕士学位论文摘要硕士学位论文摘要 学科 专业 测试计量技术及仪器 研 究 方 向 虚拟仪器及网络化测控技术 作者 张 琛 指 导 教 师 王 勇 题目 基于 android 的垃圾短信过滤系统 英 文 题 目 android based spam messages processing system 主题词 android 朴素贝叶斯 文本分类 垃圾短信 keywords android naive bayes text classification trash short message i 摘要摘要 移动短信业务在飞速发展的过程中 一方面给广大使用者带来了各种方便 另一方面由 于各种垃圾短信的大量出现 也带来了信息安全上的问题 影响了人们的正常生活 所谓热 点短信息就是人们一个阶段内最为关注的某类手机短信息 而现如今人们最关注的就是不断 收到的垃圾短信 本文就目前垃圾信息成为一个社会热点的现状 着重讨论对于垃圾短信的 分类以及增量式反馈解决手机用户对垃圾短信的不同判断标准的要求 本文首先介绍了垃圾短信的定义和反垃圾短信技术的发展现状 以及中文短信分类的基 本概念和原理 然后再重点介绍了贝叶斯分类方法的原理 分析了传统朴素贝叶斯算法在短 信过滤中所存在的局限性 合法短信被误判为垃圾短信将可能给用户带来更大的损失 并在 此基础上 采用了改进的朴素贝叶斯分类结合黑白名单过滤的短信过滤算法实现对短信的过 滤 在自建的中文短信语料库上的实验结果表明 该算法能在正确分类短信的同时 也能够 减少正常短信的误判率 在对短信进行分类时具有较好的性能 具体地说 本文的工作主要 包含下列内容 1 在本文自建的一个短信语料库的基础上 实现一种提高正常短信通过率的改进的贝 叶斯分类模型 并使用贝叶斯分类器应用于自建的短信语料库 分析 比较它的实 验性能与效果 2 基于实验模型 设计了一个基于 android 的短信过滤系统 自动对收到短信进行分 类 满足了短信过滤系统中的短信分类标准动态变化的要求 3 在目前缺少一个公开的 规范的中文短信语料库的现实条件下 自行收集并建立一 个真实的 规范的 能够适应实验要求的中文短信语料库 4 介绍垃圾短信过滤问题的研究现状 包括垃圾短信的定义 产生机理 危害以及常 用的分类技术 关键词关键词 android朴素贝叶斯算法文本分类垃圾短信 ii abstract the short message industry takes up honest work by its short rapid simple the price is inexpensive and so on many merits to become people s one kind of important correspondence and the exchange way day by day motion short message service in rapid development process on the one hand has brought each kind of convenience on the other hand as a result of each kind of trash short message massive appearances also has brought in the information security question has affected people s normal life the so called hot spots short message is that the people have been most concerned about a stage in a certain category of mobile phone short message and people are most concerned about now is continue to be received of the messages this paper on the current spam become a social hot spot of the status quo focusing on the classification of the trash messages as well as incremental feedback solutions for users of sms spam different criteria for judging firstly this paper introduces the development status quo of trashy short message and now anti trashy message technology as well as the basic concepts and principles of short message filtering then introduce the principle of bayesian classification mainly analyze the limitation existed in short message filtering using the traditional bayesian algorithm legitimate short message is misjudged which can bring user greater losses on this basis we adopt the improved naive bayes and black and white list to filter messages according to personalized feedback automatic incremental learning classifier further enhance accuracy the experimental results on chinese message corpus show that this algorithm correctly classifies short messages at the same time legitimate messages can also reduce false alarms we obtain good performance when classifying and filtering short messages this article contains mainly the following contents 1 based on the built in short message corpus introduce a improved bayesian classification model that reduced rate of normal messages misjudgment nb is used to carry out experiment on chinese merge corpus analyze and compare the experimental results and performance 2 design of a short message filtering system base on android os and according to the individual requirements of users automatically generate dynamic feedback filtering rules sms filtering system to meet the users in the dynamic change of classification iii criteria requirements 3 under the real conditions that there is no an open and standardized chinese message corpus a true and standardized one that is able to adapt to experiment is established 4 summarize the status quo of trashy message filtering investigating including the definition of trashy message and generating as well as the filtering technology used often keywords android naive bayes text classification trash short message iv 目录目录 摘要 i abstract ii 目录 iv 第一章 绪论 1 1 1 背景 1 1 2 垃圾短信简介 6 1 3 垃圾短信的研究现状 8 1 3 1 立法惩治 8 1 3 2 运营商端过滤技术 8 1 3 2 1 实时过滤机制 8 1 3 2 2 话单分析机制 9 1 3 2 3 协议监控机制 9 1 3 3 手机端过滤 9 1 4 论文的主要工作 10 1 5 论文结构 11 1 6 小结 11 第二章 中文信息分类算法的研究改进 12 2 1 中文分词技术 12 2 2 文本去噪处理 14 2 3 文本特征表示 15 2 4 特征选取 15 2 4 1 特征频度 tf term frequency 15 2 4 2 文档频度 df document frequency 16 2 5 贝叶斯算法 16 2 5 1 多变量贝努里事件模型 18 2 5 2 多项式事件模型 19 2 6 改进的贝叶斯分类算法 19 2 6 1 朴素 bayes 分类器的优缺点 19 2 6 2 bayes 算法在短信过滤系统应用中的改进 22 2 7 针对垃圾短信特点的分类算法改进 25 2 8 小结 29 第三章 垃圾短信过滤系统总体设计 30 3 1 android 基础知识 30 3 1 1android 平台的定义 30 3 1 2android 平台的特征 30 3 1 3android 开发平台的架构 31 3 1 4android 应用程序组件 31 3 1 4 1activity 31 3 1 4 2 service 32 3 1 4 3 broadcastreceiver 32 3 1 4 4 contentprovider 32 3 1 5android 中的 intent 33 v 3 2 系统需求分析 33 3 4 1 用户体验需求 33 3 4 2 功能需求 33 3 3 系统分词模块设计 34 3 4 贝叶斯分类器的设计 35 3 5 贝叶斯样本库的设计 35 3 6 垃圾短信自学习模块 36 3 7 垃圾短信规则自定义模块 36 3 8 本章小结 37 第四章 垃圾短信过滤系统实现 38 4 1 开发环境 38 4 2 系统概述 38 4 3 短信控制系统实现 40 4 3 1 短信过滤系统介绍 40 4 3 2 短信截获 41 4 3 3 短信过滤模块 42 4 3 4 短信黑白名单设置 43 4 3 5 系统设置 45 4 3 6 短信存储 45 4 4 贝叶斯过滤模块的实现 48 4 5 垃圾短信自学习模块的实现 49 4 6 垃圾短信规则自定义模块的实现 50 4 7 小结 50 第五章 系统测试 51 5 1 运行环境部署 51 5 2 功能测试 51 5 3 性能测试 52 5 4 小结 52 第六章 总结与展望 53 6 1 本文总结 53 6 2 展望 53 参考文献 55 致谢 57 攻读硕士学位期间发表的论文 58 南京邮电大学硕士学位论文第一章 绪论 1 第一章 绪论第一章 绪论 1 1 背景1 1 背景 最近几年中 我国的手机用户的总人数正在以越来越快的速度增加 手机信息具有方便 快捷经济实惠优点 所以越来越多的人们已经习惯于用手机短信来传递信息 手机短信息中 出现了各种各样内容的信息 人们对各类短信息的关注程度也因人而异 但是通常最令大家 头痛的就是会有很多垃圾短信不停的骚扰 所以对垃圾短信息的判断处理就成为了一个亟待 解决的问题 相信大家都曾经经历过这样一种情况 在热恋中的恋人正在等待着伴侣的短信 正在找工作的大学毕业生在焦急的等待着公司的面试通知 这时看到的却是一条推销二手汽 车的广告 随着我国手机用户和短信数量的飞速增长 垃圾短信息所占到的比例也随之越来 越高 众所周知 对垃圾短信息的人工手动处理需要占用大量的宝贵的时间和资源 因此我 们需要一种行之有效的自动过滤垃圾短信息的方法 并且该方法能够适应用户对各类垃圾短 信的不同判断标准 例如某人如果正需要二手车 那么二手车类的短信就不能被看做是垃圾 短信 将手机短信息的分类与信息过滤 信息推送以及搜索引擎等技术相结合 可以有效地提 高信息服务的质量 可以更好地帮助人们获取短信文本信息 而对垃圾短信和垃圾邮件的分 类过滤则是研究如何更好的获取信息的重点以及核心问题 如图 1 1 所示 搭载 android 操作系统的智能手机正在逐步取代塞班系统成为市场的主 导 通过美国市场研究机构 gartner 的调查 android 系统所占的市场份额已经从 2008 年的 0 51 增长到2010年的22 72 超越了windows mobile和ios 以微弱的劣势落后于symbian 同时 gartner 大胆预测 由于 android 的开源性 将促使其在 2011 年的市场比例超越 symbian 成为最大手机操作系统 由下图可以看出 在 2011 年 android 系统的使用量已经远远的超 越了 symbian 成为第一大手机操作系统 南京邮电大学硕士学位论文第一章 绪论 2 图 1 1 智能手机所采用的操作系统所占市场份额 随着 android 操作系统手机用户的增加 android 手机垃圾信息的问题也随之增加 因 此 现阶段我们需要找到一种稳定而且可行的系统去保护广大手机用户的利益 南京邮电大学硕士学位论文第一章 绪论 3 图 1 2 手机短信中不合理现象 2011 年度 工信部在对手机使用者在接受短信中遇到的不合理短信的调研中可以看出 广告过多 这一现象所占比重远远大于其他现象 排在随后两位的是收到带链接的短信以 及接收延迟时间过长 分别为 40 5 和 29 8 1 南京邮电大学硕士学位论文第一章 绪论 4 图 1 3 手机使用者收到的非法短信的内容 如图 1 3 所示我们可以看到 2011 年下半年 65 2 的用户收到过中奖类诈骗短信 比上 半年上涨 1 9 个百分点 仍明显领先于其他选项 居首位 而收到违法出售票据 证件类垃 圾短信的用户达到 47 1 比上半年增长 6 9 个百分点 跃居第二位 收到过冒充银行扣款 类诈骗短信的用户为 46 6 比上半年增加 1 3 个百分点 跌到第三位 收到零售业推销垃 圾短信的用户 居第四位 为 34 9 比上半年增长 7 8 个百分点 超过房地产推销垃圾短 信 收到房地产推销短信的用户增长 0 3 个百分点 为 32 6 与上半年相比 收到银行贷款诈骗和复制手机卡诈骗类诈骗短信的用户分别增加 8 7 个 百分点和 8 4 个百分点 应引起重视 收到过运营商业推介类垃圾短信的用户比上半年增长 0 2 个百分点 达 21 0 但从上半年的第六退居第八位 南京邮电大学硕士学位论文第一章 绪论 5 图 1 4 用户最反感的垃圾短信内容 调查显示 用户最反感的垃圾短信息的前两位都是诈骗类信息 中奖类诈骗和冒充银行 扣款类诈骗分别以 26 7 及 16 4 列前两位 排在其次的是违法出售票据 证件类及房地产推 销类垃圾短信 所占比例群超过 10 选择最反感四类诈骗比例虽然比上半年下降 5 5 个百 分点 但仍达到 65 3 1 南京邮电大学硕士学位论文第一章 绪论 6 图 1 5 用户平均每周收到的垃圾短信情况 如图 1 5 所示 据工信部统计 2011 年下半年 短信息用户平均每周收到垃圾短信息 11 4 条 环比下降了 1 6 条 下降 12 3 同比持平 用户收到垃圾短信息占全部短信息的比例 为 22 6 环比下降 4 7 个百分点 同比增加 1 5 个百分点 总体看来 同上半年调查结果 相比 2011 年下半年垃圾短信有所下降 但仍维持在一个较高的水平 治理垃圾短信仍任重 道远 1 经过以上的数据分析 我们可以看出垃圾信息正朝着多样化 大范围的趋势发展 可以 说垃圾信息已经影响到的我们的正常生活 而且 在今后 随着我国手机和短信数量的急速 增长 垃圾短信占到的比例也会越来越高 1 2 垃圾短信简介1 2 垃圾短信简介 到目前为止还没有一个正式的概念来描述垃圾短信 但是基本上所有的垃圾短信都是 非 请自到 并且有很多垃圾信息都有商业性质或者其他的宣传目的 与此同时 垃圾短信息的 判定和垃圾短信息的接收用户也有很大关系 不同的短信接受者对于同一条短信息是否为垃 南京邮电大学硕士学位论文第一章 绪论 7 圾短息的定义也很有可能存在着差异 要想合理的处理这一问题 必须综合利用法律 科技 等等方法 在法律上 进行立法对垃圾短信息的散播者予以法律的惩罚 从根本上切段垃圾 短信的来源 在科技上反垃圾短信技术可以分成两类 即 截断根源 和 存在过滤 截 断根源 是指通过阻断垃圾短信的来源来减少垃圾短信 但是现在发送短信的方法越来越多 要想实现从根源截断短信比较困难 另一种主流的技术是 存在过滤 即对已经发送出去的 短信进行判断过滤处理 我们可以将垃圾短信分为4类 骚扰型短信 欺诈型短信 非法广告短信 短信业务提 供商违规群发 根据 中华人民共和国电信条例 划定出的垃圾短信标准 如果一条短信息具有如下特 点 则它即为垃圾信息 2 图 1 6 中华人民共和国电信条例 划定出的垃圾短信标准 综合以上对垃圾信息的范围的说明 本文对垃圾短信的定义为 以欺诈 诽谤或恶意报 复为目的或违反广告法及其它法律法规的 行为违法性 或包含违背法律规定内容 内容违 法性 或其它有违社会公德和善良风俗内容的 影响用户自由通信的短信 3 南京邮电大学硕士学位论文第一章 绪论 8 1 3 垃圾短信的研究现状1 3 垃圾短信的研究现状 1 3 1 立法惩治立法惩治 我国为了综合管理垃圾信息欺诈行为 确保手机信息合理业务的有序运作 政府发布了 一系列方案 增强了对垃圾信息的整治力度 2004 年 4 月 信息产业部发布了 关于规范短 信息服务有关问题的通知 有效的规范了短信业务的健康发展 3 此外 国家工商行政管理 总局会同信息产业部还发布了 关于禁止发布含有不良内容声讯或短信息等电信信息服务广 告的通知 使散播垃圾信息的行为得到了充分制止 3 北京市政府在 2007 年 11 月发布了 关于进一步规范本市手机短信发布公共信息管理工 作的通知 该通知给出了四点要求 指导性的制定了短信发布的工作规则 4 1 3 2 运营商端过滤技术运营商端过滤技术 到目前为止 运营商端应用的比较成熟的信息过滤分类的措施可以分为下面几种 实时过 滤机制 话单分析机制和协议监测机制 5 这三种方法有着共同的目标 就是先获取短信息 然后对其进行分析分类 判断它是否为垃圾信息 若是则清除 不是则继续发送 1 3 2 1 实时过滤机制实时过滤机制 该机制的工作原理为 用户发送一条信息 信息在到达运营商的信息中心时 信息中心接 受该信息 再发出一个鉴权请求到终端 由终端进行监视并分析其内容进而判断其合法性 判断完成之后终端会再次发送一个鉴权响应到信息中心 该响应的内容为鉴权成功与否 短 信息合法则成功 反之则失败 5 若成功 则信息中心会按照原有的流程对该信息进行正常 的发送 若失败 则不发送该信息 中国信息产业部颁布了 短信息业务中心与短信息监控 中心接口规范 采用的就是这种实现方式 由于该规范的发布 使得如今已经有一些公司依照该规范研发了新型的基于运营商端的 短信过滤系统 但是该系统也具有一定的缺点 若将这一规范应用到运营商端短信过滤系统 中时 势必会改变短信息的正常的业务流程 而且目前所采用的 smsc 短信中心 也必须 按照监控系统的要求来做出相应的调整 这样得到的显而易见的结果就是 短信发送接收的 流程会变长 这将会导致 smsc 实际处理信息的能力下降 而短信收发流程的变长也将直接 导致到短信收发的时延加大 南京邮电大学硕士学位论文第一章 绪论 9 1 3 2 2 话单分析机制话单分析机制 该机制的原理为 话单分析机制 顾名思义 这种机制首先获取服务器上的话单 以此作 为统计信息源 与此同时垃圾短信的监控服务器也将会定时的连接计费服务器 该过程会下 载最新的话单记录 系统将该通话记录送至统计模块 由该模块进行统计处理 统计模块也 会定时的扫描工作目录 以话单的时间为顺序进行分析处理 5 统计分析的方法主要有以下三种 1 监控发送短信息的条数 如果一个号码发送的短信息的数目超过了预先设定的阀值 则可以确定这个号码为可疑号码 2 消息内容监控 收到一条短信时 先将短信进行分词 然后将其与监控系统中事先定 制好的关键词库作对比 例如 免费 中奖 二手车 发票 军火 等 以此来判 断垃圾短信 3 发送成功率监控 我们首先设定一个阀值 当系统监测到某用户发送短消息的成功率 达到或超过设定的阀值时 那么可以判断该号码为可疑号码 黑白名单管理模块在经过系统的统计分析监控模块检测到的可疑号码后 由管理模块内 部算法判断是否将其设定为黑名单用户 黑名单用户也可以由管理人员在后台进行添加管理 同样我们也可以手动添加白名单用户 该名单中的用户将不会收到发送短信的限制 黑名单 中的号码所发送的信息将会被送往短信息中心 由短信中心进行拦截处理 1 3 2 3 协议监控机制协议监控机制 该机制的工作原理为 监听现有系统 当短信息经过短息中心时 该信息被录入到短信息 的监测系统中 系统接受到该信息同时运用特定的算法对该信息进行实时的处理分析 若分 析结果显示该短信为垃圾信息 则反馈机制开始对这条信息进行拦截处理 同时将不会继续 发送这条信息到短信接受者 5 1 3 3 手机端过滤手机端过滤 在短信中心对短信进行过滤可能会导致被错误分类 因为个人对垃圾短信的定义不同 从而使信息无法到达用户而造成损失 过滤系统需要个性化的规则 即按照手机使用者的不 同需求来定义规则 与此同时 过滤系统要求能够实时处理信息 因此我们要尽量减少时延 短信中心要实时处理大批量的信息是较难实现的 所以把过滤分类程序放在手机端上是最合 南京邮电大学硕士学位论文第一章 绪论 10 理的 本文介绍的过滤系统就是采用手机端过滤 手机端过滤技术主要包括以下几种 1 黑白名单过滤法 此类方法提供了最基本的方法防止垃圾信息或电话的影响 手机中会内置一个黑名单列 表和白名单列表 收到黑名单列表中的号码发送的短信时 系统会将该短信丢弃 而收到由 白名单列表中的电话号码发送的短信时则直接将该短信交给用户 优点 该方法易于实现 同时不需要占据太多的系统资源 缺点 该方法会使黑名单列表中的号码越来越多 一个新 号码发送的垃圾信息能够轻易通过过滤系统 如果单纯使用白名单 当白名单中的联系人电 话改变后 新号码发送的短信会被当作垃圾短信被系统屏蔽 所以单纯的使用黑白名单过滤 是有很大的局限性的 2 关键字过滤 用户可以在手机内部预置一个垃圾短信中常常包含有的关键字的字库 当系统接受到一 条短信时 将短信内容进行分词然后再与字库中的关键字进行对比 通过设定相应的阀值来 判断该信息是否为垃圾短信 同时关键字过滤法也可以设置黑白名单列表 这样就可以综合 两种方法的优缺点 可以更好的实现短信过滤 3 基于内容的过滤 以上的方法实现起来较为简单 但是存在一些局限性 故我们提出了基于内容的垃圾短 信过滤的方法 该方法主要采用将短信内容分词再处理 主要运用到的技术有 bayes 分类 svm 人工神经网络等等 7 该方法可以使用自学习机制 同时系统中存在知识库 因此较 以上方法来说要复杂的多 但是过滤达到的效果也较以上方法好 本系统主要采用这种方法 来达到过滤的目的 1 4 论文的主要工作1 4 论文的主要工作 总体来说 本文主要做了以下工作 1 研究了在文本信息处理中涉及到的各种关键的技术 其中包括中文分词 特征词提 取 文本分类等等 在前人的科研基础上将朴素贝叶斯分类算法做了一定的改进 使其分类效果得到改善 同时针对垃圾短信与普通文本信息的差异 提出了针对垃 圾短信息所特有的分类算法改进方案 并通过实验验证了可行性 2 介绍了 android 系统 同时设计并实现了基于 android 的垃圾信息过滤系统 南京邮电大学硕士学位论文第一章 绪论 11 3 建立了一个较为完善的垃圾短信语料库 4 针对不同用户对垃圾信息的不同定义 系统可以使用户根据自己的需求来定义垃圾 短信的判断规则 5 设计了系统自学习模块 可以使得系统的语料库越来越完善 算法的精确度也随之 提高 1 5 论文结构1 5 论文结构 本文的结构如下 第一章 介绍本文的背景 垃圾短信的概念标准和垃圾短信的治理现状以及本文的主要 工作 第二章 介绍了中文分词技术 特征选取以及中文分类算法 同时提出了改进的 bayes 算法以及针对短信特点的文本分类算法 第三章 首先介绍了 android 系统的基本概念和 android 开发平台的特征 其次介绍了 系统的需求分析以及几大模块的设计过程 第四章 实现了一个以 android 系统为基础的垃圾信息分类过滤系统 本章介绍了系统 的实现 第五章 对系统进行了功能测试以及性能测试 第六章 对整篇文章的系统总结以及对未来该方向工作的展望 1 6 小结1 6 小结 本章主要介绍了法律上和实践中对垃圾短信的系统定义 依据几种对垃圾短信的不同判 断标准并结合不同用户的习惯给出垃圾短信的定义如下 以欺诈 诽谤或恶意报复为目的或 违反广告法以及其它法律法规的 行为违法性 或包含违背法律规定内容 内容违法性 或 其它有违社会公德和善良风俗内容的 干扰了短信用户的自由通信 生活安静 形式违法性 的短信息 同时本章分析了国内对垃圾短信的治理和他们采用的技术措施 本文实现了一个 适合于手机用户自定义垃圾短信规则的中文短信息的过滤系统 较好的解决了短信接受者对 短信息判断分类的要求 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 12 第二章 中文信息分类算法的研究改进第二章 中文信息分类算法的研究改进 随着 internet 的高速发展 internet 上的信息资源也变得越来越多 人们可以借助网 络很方便的获取自己想要的知识信息 甚至可以足不出户游览世界各地名胜古迹 但是 伴 随着信息资源的增多 人们想要在这些资源内找到自己想要的资源就变得越来越难 而且 我们浏览的大部分网页都是采用 html 这种半结构化的文本信息 因此 怎么样快速准确的在 大量信息中查找到有用的信息就逐渐成为了一个热点问题 8 在现在的信息处理方面 文本的表示大多采用 vsm 向量空间模型 向量空间模型 顾 名思义 就是用向量来表示一个文本的信息 使得文本成为特征空间中的一个点 在 vsm 中 文本集合形成一个矩阵 也就是特征空间中点的集合 词频矩阵就是应用 vsm 表示文本的一 种形式 文本被看作是由很多项 t 所组成的集合 对每个特征项 t 可以加上一个对应的权 值 w 这样将文档表示为加权的特征向量 2211nn wtwtwtdd 其中 d 表示文档 t 表示特征项 对应的 w 表示为该项的权重 7 每一篇文档 d 都可以看做是映射在该空间上 面的特征向量 我们先把文本集中的文本表示成文本的特征向量 随后经过训练这些特征向 量来达到分类的目的 特征项的选择有很多种 例如字和词 词组都可以 经过研究证明 使用词来充当特征项所得到的分类效果最为理想 8 众所周知 中文不同于英文 中文的文本是以句子为单位 而不是以词为单位 因此 要想把文本表示成一个特征向量 我们首先要做的工作是将文本进行分词处理 但是 一篇 文章在进行分词处理后 特征集中的特征向量个数依旧非常之多 在分类处理上就会比较困 难 因此我们还应该对他们进行降维处理 我们将贡献度小于一定额度的特征向量提取出来 得到精简的特征集 这样就可以提高程序的运行效率 综上所述 我们可以将中文信息分类过滤技术分为以下几个步骤 首先对文本进行分词 处理 将文本划分为词 其次对其进行去噪 去除一些无意义的词以及标点符号等等 然后 提取有效的特征向量组成特征集 最后运用分类算法对文本进行分类 2 1 中文分词技术2 1 中文分词技术 要想对一条信息进行分类 当然我们要先知道这条信息讲的是什么 也就是它的内容 而最能直接反映出文本内容的就是文本中的词 因此我们选择词来作为文本分类的特征向量 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 13 故我们需要将文本进行分词来获取文本中的词 以此作为分类的特征向量 9 中文的分词作为中文信息分类的第一步 其作用可见一斑 因此如何在一句没有分隔符 的话当中将每个最小的词语分离开来就成为了首要问题 人类在阅读一句话时 往往一眼就可以看出这句话是什么意思 其实这也是一个分词的 过程 人们通常是根据这句话中的每个词的意思来确定这句话的内容 人类是通过现实生活 中积累的大量的经验来进行分词的 那么假设计算机是一个没有任何经验的人 那么他在想 要对一句话进行分词的时候 他首先想到的应该是查字典 这种方法最早是由梁元南教授提 出的 当计算机在阅读一句话的时候 先对这句话在字典中遍历 遇到字典中有的词则提取 出来 这样就可以达到分词的目的 但是这种方法不能满足中文的二义性 例如一句话 栖 霞大学城书店 的正确分词应该是 栖霞 大学城 书店 而不是 栖霞 大学 城 书店 因 此我们仍需要一种合理的算法来实现中文的分词 9 在随后 越来越多的中文算法涌现出来 其中最具代表的就是以下四种算法 10 a 基于字符串匹配 按照一定的策略在一个足够大的词典中进行匹配的算法 主要有最 大匹配和最小匹配 目前这种算法中 效率和准确率相对较好的是 n short 最短路方 法 该方法可以分为两类 单源最短路径 所有顶点对间的最短路径 单源最短路径 问题是指它的一个顶点s到其它所有顶点i的距离和 idist为最短的路径 其中vs 称为源点 sivi 且 所有点对间的最短路径则是计算全部顶点之间的最短路径 该方法易于实现 结构简单 但是不能满足多义词 歧义等等条件 b 基于理解 我们现在所使用的分析系统 都尽其所能在分词阶段就消除伴随分词所产 生的歧义性 而还有一些系统则是在分词后用特定算法来消除歧义性 在这类系统中 分词往往是很小的一部分 后续的消除歧义才是重点 这种方法的基本思想就是 在 分词的时候对文本进行句法语义的分析 利用这些信息来消除文本的歧义性 该系统 通常包括有三个部分 分词子系统 句法语义子系统 总控部分 总控部分起到了协 调作用 分词子系统可以用来获取文本的句法和语义信息 借助这些信息来对文本分 词的歧义予以判断 该过程即为文本的理解过程 在采用这种分词方法进行分词的时 候 我们需要使用大量的语言知识和信息 因为中文不同于英文 中文具有多义性 复杂性 故此方法目前还处在实验阶段 c 基于统计 基于字符串匹配的方法具有简单实用性强等特点 但是我们需要找到一个 能够满足实际使用的分词词典 但是汉语分词的发展非常快 通过一部甚至是几部词 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 14 典不可能完全把已知的和将来要使用的词都包含在内 因此 人们提出了根据字符串 在语料中出现的概率来推算出该字符串是否为一个词 这种方法的基本步骤是 首先 我们需要建立分词模型 其次根据之前的分词模型来搭建相对应的分词算法 从表面 的形式上来看 一个词就是一些非常稳定的字的集合 故在一个文本中 如果相邻的 字出现的次数很多 则他们就很可能组成词 所以从相邻出现的字与字的频率和概率 就能够很好的看出他们是否能组成一个词 由以上分析 我们可以分析文本中相邻出 现的字的组合概率 以此作为评判标准 d 基于规则和统计相结合 顾名思义 这种方法运用了统计与规则相结合来对文本进行 分词 首先使用最大匹配对文本进行分词处理 再观察文本切分的边界 发现歧义 同时运用统计和规则相互结合的方法来判断算法是否正确分词 目前的研究表明 这 种方法可以有效的避免中文中的单字交集型歧义 同时该方法还可以对人名 地名 单位名 学校名 衍生词等等语义很好的识别 这样就可以解决中文分词所带来的问 题 同时 一个优秀的字典和良好的算法 可以使得分词的速度很快 据 microsoft 中国的研究 它的正确率可以达到 97 95 2 2 文本去噪处理2 2 文本去噪处理 众所周知 我们若想很好的理解一段文本 并不需要理解所有的字和词 也就是说 我 们只需要获取待分类文本中的一部分词语就可以理解该文本的确切含义 如果我们可以去除 这些对于理解句子意义影响不大的词 那么 我们可以很大程度的减少特征向量的容量 从 而有效的减少程序的运算量 使得系统运行的更加流畅 传统的中文分词的去噪方法主要有以下方法 1 停用词 该方法主要是去除一些无实际意义但是出现频率却很高的词 当对文本进行分词并 且构成特征向量的时候将这些词予以排除 常见的停用词有 的 地 得 之 个 是 等等 2 稀有词 与停用词不同 在文本中有一些词在整个文本中出现的频率很低 这样的词通常对 分类的贡献度比较小 因此我们可以设置一个阀值 当一个词的词频低于这个阀值的时 候 就删除该词 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 15 3 单词归并 众所周知 中文中存在着大量的同义词 例如 老师 和 教师 这两个的词语其 实所表达的意思是一样的 所以为了降低特征向量的维度 我们可以将这两个词合并成 一个 从而提高了系统分类的效率 在本系统中 我们考虑到了短信中出现稀有词的概率较低同时短信字数较少 故在去噪 方面主要采用去停用词的方法 经过去噪处理而产生的特征向量具有低维度的特点 这样可 以有效的降低系统后续工作的工作量 同时提高系统的工作质量和效率 2 3 文本特征表示2 3 文本特征表示 众所周知 中文中包含有非常丰富的信息 但是计算机并不能很好的识别一整句话 因 此我们要想对中文文本进行分词 就必须首先使计算机可以读懂中文文本 因此我们设计了 一种向量空间模型 vsm 将本文划分为词 以词为单位 词就是一个特征向量的特征值 以便于计算机识别理解 2 4 特征选取2 4 特征选取 特征选择的原理是先构造一个用于评价的函数 使用该函数独立的评估特征集中的各个 特征 然后对结果排列顺序 选取最佳的特征项来充当特征子集 在整个过程中 特征选取 只是对原始的特征集做了一个降维的处理 得到了一个相对低维的集合 该过程并未改变原 特征空间的内容以及性质 特征选取的工作是简化分词难度 提高分词效率 特征选择方法有 特征频度 tf 文档频率 df 互信息 mi 信息增益 ig 期望交叉 嫡 ece 卡方统计量 chi 文本证据权 wet 几率比 or 和术语强度 ts 等 目前常用 到的有 tf 和 df 两种 11 2 4 1 特征频度特征频度 tf term frequency 特征频度顾名思义就是指特征词在训练集中出现了多少次 这是最简单的特征选择方法 我们可以很容易理解 如果该特征在训练集中出现的次数越多 则该特征对与本次文本分类 的贡献度也就随之越大 因为在原始的特征集中很多都是低频的 所以 我们可以通过设置 阀值来有效的过滤掉这些特征 这样做的好处是我们可以降低文本维度 以此来帮助我们更 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 16 好的进行分词处理 在剩下的高频特征中 按照统计分布的特点 来确定的该文本分类的准 确性 即如果当该高频率的特征是平均分布在全部文本中时 他对本次分类所产生的影响将 是很有限的 所以 本方法大部分情况是用于在文本标记中去除一些低频率的特征 以简化 分词 12 2 4 2 文档频度文档频度 df document frequency df 表示的是在训练语料里面出现此特征的文本数量 它是评价函数里面最简单的一种 df 是特征抽取 它是建立在以下假设的基础上的 低频率的词就是文档频度值比某个阈值低 的特征词 这些词含有的类别信息是非常少的甚至根本没有 把这样的特征从原来的特征空 间中去掉之后 既可以减小特征空间的维数也可以大大的增加分类的精确程度 df 可以非常 简单的应用在大规模语料的统计中 信息抽取的研究认为是 df 值比较低的词条含有更加多的 信息含量 因此不应当把他们全部删除 13 18 优点是 把低频的词语去掉了 减小了特征空 间的维数 因此当低频词是噪音的时候就能够提高分类的效果 而且它的算法比较精炼 计 算量也非常小 缺点是 低频词被当做信息量很少而去掉了 但实际中低频词有可能含有很 高的信息量 这样做会影响分类的效果 文档频度相对特征频度的算法会更加的粗糙一些 因此在实际的使用当中把这两个方法结合起来使用能够取得更好的降低维度的效果 19 20 2 5 贝叶斯算法2 5 贝叶斯算法 本小结介绍的是文本分类算法中常见的贝叶斯算法 bayes 分类算法是一个被广泛使用 的分类算法 其中最为广泛的应用就是文本分类 因此该方法被广泛的应用在了短信分类以 及邮件分类中 在对文本进行分类时 bayes 首先计算该文本属于已知的各个类别的概率 然后再根据概率的大小将该文本划分到概率最大的那个类别当中 21 在 1998 年 sahami 发表 著名的文章 abayesian approachto filtering junk e mail 这篇文章中详细的描述了采用 bayes 对垃圾邮件进行过滤可以达到很好的效果 1998年 p pantel与d lin paul设计出了基于bayes 的垃圾邮件过滤系统 该系统所采用的语料库只有169条非法邮件和466条合法邮件 该系统 通过对277条非法邮件和346个合法邮件邮件的过滤测试 最后得出的结果让人感到振奋 再 采用一个规模很小的文本集进行过滤的时候 居然过滤掉了 90 的非法邮件 同时仅仅有 1 的误判率 22 同样在 2002 年 8 月 grahams 发表了论文 a plan for spam 该论文向大家 展示了他的研究 他采用了 bayes 作为垃圾邮件过滤系统的核心算法 而在使用中也表明该 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 17 算法十分的简洁有效 它采用了 1000 封非法邮件作为研究对象 结果表明 只有 5 封非法邮 件没有被过滤 与此同时全部的合法邮件都没有被误判 这样的例子还有很多 在 2003 年 1 月 grahams 发表论文 better bayesian filtering 该论文对传统的 bayes 分类方法做了 一定的改善 经过改善的 bayes 分类系统 可以将 75 99的非法邮件正确的过滤掉 同时合 法邮件几乎完全没有被误判 传统的简单的 bayes 分类算法是以 贝叶斯假设 为基础的 即 bayes 算法假设每个特征都相互独立并且不同类别间的先验概率都是 0 5 23 尽管这些假设 在现实生活也许不是非常的正确 但是通过大量的实验数据表明 简单的 bayes 分类算法还 是能够非常好的起到分类过滤的效果 说明为了使问题的简化而做出的两个假设对于过滤系 统的整体性能影响并不是很大 24 26 bayes 分类具备一下的一些特征 27 1 bayes 分类的原理是 在分类过程中 bayes 分类器会首先分别计算该对象属于已知 的几个类的概率 然后将该对象划分到对应的概率最大的那个类当中 2 在 bayes 分类的过程中 bayes 的全部属性都将共同参与到分类中 而不是只有其中 的部分属性来完成分类 3 bayes 分类算法既可以作用于连续的对象 也同样可以作用于离散的对象 下面简单回顾一下 bayes 定理 条件概率公式 若事件a和事件b互相不独立 且已知b中的一个事件已经发生 则可以获取关于 ap 的信息 则记事件a在已知事件b发生的条件下发生的概率为 bap bp abp bap 2 1 全概率公式 假定试验e的样本空间为s s被分成 n 个互斥事件的集合 b为e的事件 n aaa 21 为s的一个划分 且 2 1 0 0 niapbp i b可以写成n个互斥的事件 记为 n bababab 2 则有条件概率的全概率公式 2211nn apabpapabpapabpbp 2 2 南京邮电大学硕士学位论文第二章 中文信息分类算法的研究改进 18 则由条件概率和全概率公式可以导出 bayes 公式 n j jj iiii i apabp apabp bp apabp bap 1 2 3 例如 假设存在一个集合 该集合由100个水样组成的 30个水样已经被检测出收到污染 定 义事件如下 表 2 1 样本事件 事件定义 c样本已被污染 c 样本未被污染 d污染被检测出 d 污染未被检测出 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论