




已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
合肥工业大学硕士学位论文基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究姓名:李书全申请学位级别:硕士专业:计算机应用技术指导教师:侯整风20080501 关 键词 : 垃圾 邮 件 过 滤 , 文本 分 类, 朴 素 贝叶斯 , 甌 : 图 朴 素贝 叶斯模 型 图 多 变量 伯 努 利 事 件模 型的 邮 件分类示 意图 图 多 项式 模 型的 邮 件分类示 意图 图 文 本 分类示 意图 “图 贝 叶斯过 滤 器结 构 示 意图 图 图 基 于 服 务 器的 双层 邮 件过 滤 系 统 逻辑 结 构 图 实 验环 境 图 学位 论 文作者签 字:节金签 字日期: 。 月 日金匿 互些 太堂 有关 保 留 、使用学 位 论 文 的 规 定, 有权索 , 可以 采 用影印、缩 印或扫描 等复制 手 段 保 存、汇 编 学 位 论 文 。 艿 难 宦 畚脑诮 饷 芎 笫视帽 臼谌 , 通 常被称 为 。 尽管 和 邮 件系 统 本 身 的各种 缺陷 , 反垃 圾 邮 件技 术 本 身 的不 足 也是垃 圾 邮 件泛 滥一直不 能得 到 有 效 控 制 的重要 原 因 。 基于 内 容的邮 件过滤技 术 是反 垃 圾 邮 件的关键 技 术 , 特别是基于 概率的贝 叶 斯 分 类算 法 因 其 简 单 、高效 而被普遍应 用于 垃 圾 邮 件过滤系 统 中 。 由于 邮 件过滤的特殊 性, 邮 件分 类算 法 的准确率尤 为 重要 , 而朴素贝 叶 斯 邮 件分 类算 法 因 其 在 独 立 性假设 等 方 面 不 足 , 会 影 响其 分 类准确率, 另外 邮 件自 身 的特点也 对 分 类器 的准确率有 影 响 , 因 此 研 究和 改进基于 贝 叶 斯 算 法 的中 文 邮 件过滤技 术 有 着重要 的现实意义 。 第 六 章 , 总结 与 展 望 。 总结 全 文 , 并 对 下一步 的工作进 行 展 望 。 : 鼍 狮 二,琊 帮 珊 鬻 学 。 哪 嘲 帑 ”渤邮 局协 议 第 三 版 ! 。 。 。 。 ! 。 一 : 。 信件 头格式定 义多 用 途网际 邮 件 扩 充协 议 : 媒体 类型邮 件 系统 状 态 码 扩 展 后 的文 本 编 码内容 包 含 在 邮 件体中 ,并 在 邮 件头中 设置 相应 的 参数 。邮 件头包 括 邮 件投 递和 解析 过程 中 所 需要用 到 的各 种 参数 ,如 收 件人、 发 件人、 邮 件主题 、 邮 件发 出 的时 间 、 邮 件所 使 用 的语 言 等。同 时 也包 括 在 邮 件投 递中 产生 的一 些 信息,如 邮 件发 送过程 中 所 经 过的邮 件服 务 器 信息。下 面是 一 封 比较完 整 的邮 件: 畁 : 簃 ; ” 簈 猵 彳 电 子 邮 件本 身 的格式 和 结 构 是 非常 简 单 的,这是 电 子 邮 件的优 点,但 也给 它 带 来 安全 隐 患 。 无 论是 邮 件头 信 息 还 是 邮 件的 内容 ,都 没 有 任何的 加 密 和 验 证 措施 ,这 就 意味 着这 些信 息 非 常 容 易被 篡改和 伪造 。 比 如在 上 例 中,只 要 通 过 对 字 段的 简单 修 改,就 可 以 把 邮 件的 发件人 改为 畉 ,而 收件人 根本无 从 得 知发件人 的真 实 身份 。回引疘 脚鼐 ,简单 电 子 邮 件传输 协 议 ,负器 上 下 载 到 用 户本 地 终端。通 常 ,一次 完 整的 邮 件发送 过 程 包 括以 下 三个 阶 段: 诜 陀 始 埃琈 要借 助 睦 床檎蚁 乱 惶鳰 服 务 器 的 地 址。 假 设 为 目 也可以 工作在 琋 刃 樯稀 赥 上 , 它使 用 端口 进 行 传 输 。 提 供 了 一种 邮 件 传 输 的机制 , 当 收件 方 和 发件 方 都 在一个网络 上 时 ,可以 把邮 件 直接传 给对 方 ; 当 双方 不在同 一个网络 上 时 , 需 要 通过 一个或几个中间服 务 器 转发。 首 先 由 发件 方 提 出申 请, 请求与接收方 建立 双向的通信信道 , 收件 方 可以 是 最终 收件 人也可以 是 中间转发的服 务 器 。 收件 方 服 务 器 确 认可以 建立 连 接后 , 双发就开始 通信。 双方 通过 一系 列 的指令 来 进 行 应答 响 应和 数据传 输 。 用户的 邮 件 甚至全 名, 使 用 命 令 可以 探 测 用户的 邮 件 地 址 是否真 实有 效 。 鞍 姹 拘 畔 缺 陷。 的 问 候 中 会显 示 使 用的成 千上 万 的 受害 者 。 等 ,这 些 数 据库 保存 了 频繁发 送 垃 圾 邮 件的主 机名 字 或 地 址,供邮 件为 了 克服 协 议 的缺陷 和 不足 ,人 们 对原有 协 议 进 行 和 补 充 的缩 写 ,正 在 逐步 成取 的依 据 。基 于内容 的过滤技 术 主要 包括: 静态 内容 过滤、 基 于规则 的过滤和 基 于统 计 的过滤。静态 内容 过滤,也 即 关 键词 过滤。除 病 毒邮 件 外 ,大 多 数垃圾邮 件 的内容 都是广告 性质 的,其 中 包含 一 些常 见的词 汇,如。免 费一 、 “赚钱 盎 等 等 。静态 内容 过滤就 是在 邮 件 的标 题和 内容 中 进 行 查 找,看 是否 包含 这些特定 的词 汇,如果包含 ,则 认 为 该 邮 件 是垃圾邮 件 。基 于关 键词 的邮 件 内容 过滤技 术 在 实 际应用 中 往往会导致 很 高的误 判 率。 常 用 的规则 生成 方 法 有: 决 策树 方 法 阻 进 入 九 十 年代,基 于统 计 的自 动 文本分类方 法 日益 受到重 视 ,它在 准 确 率和 稳 定 性方 面 具有明 显 的优势 。基 于统 计 方 法 的自 动 文本分类模型如图 所 示 ,系 统 使用 训 练 样 本进 行 特征 选择 和 分类器 训 练 。系 统 根据 选择 的特征 形 式 化 待分类的输 入 样 本,然后 输 入 到分类器 进 行 类别 判定 ,最 终 得到输 入 样 本的类别 。基 于统 计 的邮 件 分类正 是采 用 了 以 上的文本分类的思路 和 方 法 。常 用基 于统 计 的方 法 的优点就 是分类机由程 序自 动 训 练 出 来,只 要 及 时 更新样 本训 练 集 就 可 以 使分类机更 新的速度 跟 得上垃圾邮 件 出 现的速度 ,即它 的时 效性很 强。然而 该 方 法 的缺 点就 是分类机不 能共享 ,某个用 户 用 自己的邮 件 样 本集 训 练 出 来的分类机对 其他 用 户 可 能效果不 佳,因 此 该 方 法的推广性较 差 。 本 章 小 结 贝 叶斯定 理 表 示 。 然 而事 先 我 们 并 不 知道 ,必 须 从 训练数据 中 进行 估耽 类 型 数 图 朴素贝 叶斯 模 型素贝 叶斯 算法 中的 独 立 假 设 条件, 扩展 了 朴素贝 叶斯 的 结 构 。 图 ,也 就 是 我们常 说的 二 图 多 变量 伯 努 利 事 件模 型 的邮件分类 示 意图 。类 械拿扛鱿 鹨 钥 闯 墒 莔 重 伯 努 利 试验的结 果 ,在 每次 试验中 我们对于 邮件分类 这种 二 值分类 的情况 , 类 别 概率 可 以表示 成 下 式: 河 始 蛭 谋鞠 蛄 浚 琧 : 垃 圾邮件类 型 可 以通 过下式计 算 : 如 果 使 用 拉 普 拉 斯变换则 可 变换为 : 等 始 蛭谋臼 浚 鳰 蚴抢 郼中总 的训 练样本 的数 目。 图 多 项式 模 型 的 邮 件 分类示 意图估 计 时 使 用 的 是 一 个不 同 的 拉 普 拉 斯变换式 。对 于 使 用 属性的 多 项式 和使 用 布尔 属性的 多 项式 的 分类效 果 ,氖 笛 榕 表 明, 只 有当 每个类别 中的 属性值 服从泊松分布时 , 这两种分类模 式 的 效 果 才相 当 , 因 为当 变量 服从泊松分布的 时 候 文 档 的 长 度 和类别 是 相互 独 立 的 。 但 当 属性不 服从泊松分布时 , 使 用 属性的 多 项式 要比使用 布尔 属性的 多 变量 分类效 果 好 。 如果 假 设 每个类 械拿 扛 鍪 粜苑 诱 植糶 唬 琣 , 那 我 们可以佻 以 可用 下 式表示 :这样 , 就 可以 用 下 式对 一个邮件是 否为 垃圾 邮件进 行 判 断。 桑 慌螅 校 叶 斯 分类 方 法 在 邮件过 滤 中的应 用分析相 对 于 其 他分类 过 滤 方 法 , 贝叶 斯 分类 方 法 有如 下 优 势 :邮件形式 的进 化 。 垃 圾 邮件的内 容 变 化 得 再 多 , 贝叶 斯 分类 方 法 都 可 以 在 用户 的指导下 搜集 出 最近收到的垃 圾邮件的特 征, 有效地 进 行 过 滤 。 本 章 小 结 第 四章 中文贝叶斯邮 件分 类 器的 技 术 研究基 于 贝叶斯算 法的 邮 件文本 分 类 是 反垃圾 邮 件的 关键 技 术 。本 章 探 讨 了图 文本 分 类 示 意图快 的 文本 分 类 算 法,不 仅要 考虑 过 滤效 果 ,还 要 考虑 过 滤效 率: 图 贝 叶斯过 滤 器 结构出 不 同 垃圾 邮 件集 中的 特征 关键 词的 出 现频 率 , 并计算 关键 词在 不 同 垃圾 邮 件集 件转 送 到 用 户 的 不同邮件夹 中 。 邮件预处 理本 文 使用 的 正则 表 达 式 进行 编 码识 别 和 解码。 ; ; ; ” ; ”。但 是该 标 识。 图 。 篶 猅 簍 痯 ; : ; 褪 峭 臣 菩 妥 执 评 恚 琒 的 目的 就 是 通 过 相应 篺 , 文 本分类中 的 特征 选择和 特征 抽 取 常 用 的 特征 选取 方 法有啪何 牡 灯 德,、 信 息 增 益、 开 方 拟 合 检 验示文 本,一 篇文 本可以 表 示为一 个 维向量 ,海 ,其 中 , 同 类别中 的 分布规律 和 区 分度,这 也 会影 响 分类准 确 率 。 椭 校 孟蛄靠 占 淠 ,“菜 场 买 菜 龇共 顺 蝗 龃 视 锍 鱿 值 母 怕 识 加 。 但 在 日 常 的 语 言 表表 的长 度;。; 痆 : 。 瑃 :, , , 綪 :宰 綪 :枣 木 一 将所计算的 件 的概 率。我 们假设邮 件 校 鼍渥幼 槌 桑 硎 疚 狿 蚟 飣 , 其中第 , 句 曲有 肌 句 子 相 互独 立, 而 同一 句 中的词 与 词 之 间 紧密 相 关。 为 了 使后 面 公 式 中的概 念明确 , 这 里 把式 中的 男 闯蓀 。 根 据 统 计学 中条 件 灰 籌 哗 币 一 , 的晟 大 似然估 一 的估 算, 常 用 的方 法 有 , 线 性平滑 修 正 、 绝 对值 弧籐并 且 , 直 鹞 T谘盗芳 谐鱿 , 蔚淖只虼 实淖苁 。 将式 ,则 最终 的 垃 圾邮件 概率计 算 公 式 为 图 邮 件大 小统 计分 布 示 意图本 文以 年锪 霞魑 Q芯 慷 韵 螅始 薪 万 封 邮 件按照在 奶 卣 餮窈 吞崛 校疚氖 褂昧 薎 来选 取对 分 类 效 果最 大 的 有 效 特 征 。 一 个 特 征 的 信 息增 益值 ,代表 此 特 征 对分 类 所起 的 平 均作 用 的 大 小。 一 个 特 征 的 信 息增 益值 越 大 ,说明 此 特 征 在 该语 料集 中对 分 类 的 作 用 就越 大 。 一 个 特 征 的 信 息增 益值 越 小,说明 此 特 征 在 该语 料 集中对 分 类 的 作 用 就越 小。 图 基 于长度 的 双分 类器结构 实验 与 分 析设 测 试 集 合 中共有 封 邮 件 ,为 方便叙 述 ,先 定 义 几个 变 量 ,其 中,表 评价 体 系变 量 表 仿后 面 丁 ,即对 所 有邮 件 的判 对 率。 前 丫 霾 咚 鹗 氲狡兰 厶逑抵 校 扑 慵尤 痶 和 加 权 。在这 个 语 料 集 中 收 集 的 合法 邮件为 封,垃 圾 邮邮件 封。为了 避免 测 试 样本的 随 机性和偶 然 性,本文 采用 邮件分类 测 试 中 常用 的 通 过 实 验 对比 透慕 腘 算 法 的 加 权准 确率曲 线 图 。 提高,为了 验 证 甮 执仕 惴 校 齨 醋 值 淖 楹 铣 对分类 器 性能 的影响 ,实 验 中 还 对不 同 的 辛 瞬 馐 浴 匚 ,测 试结果见 表 。 本章 小 结 现有 架 构现有 邮 件过 滤 系 统 根 据 其部 署 位 置 的不 同 , 通 常分 为 两 大 类 : 基 于服务 器端的邮 件过 滤 系 统 和 基 于客 户 端 的邮 件过 滤 系 统 。 从 反 垃 圾 邮 件的技术 应用 上 看 在服务 器端 通 常部 署 基 于规 则 的过 滤 技术 , 在客 户 端 部 署 基 于统 计 的过 滤 技术 。相 对 于邮 件用 户 来 说, 邮 件服务 器不 可 控 制 , 因而 基 于服务 器端 的规 则 过 滤一般 不 能 有 效 地反 映用 户 的个 性化 分 类 需 求。 基 于客 户 端 始 突 过 滤 系统 虽 然 都 集 成 了一定的邮 件过 滤 功能 , 但 由 于需 要 了解 一定的专 业 术 语和 知 识 ,操 作相 对 复 杂 , 所以 很 多用 户 没 有 做 任何配 置 , 即 使是采 用 了能 反 映个 性需 求的统 计 型过 滤 技术 , 也由 于缺乏 及 时 的训练 和 更 新使系 统 不 能 适应垃 圾 邮 件发展 的新动态 。后 才 能 进 行阅读, 一方面需 要 特定的软件支 持, 另一方面也浪 费了用 户 的时 间 和本 系 统 先 进 行基 于规 则 的过 滤 , 根 据 垃 圾 邮 件的共性将 邮 件划 分 为 正 常邮 件和 合法邮 件两 大 类 。 考 虑到 用 户 的喜 好 和 差 异, 合法邮 件夹内 可 能 会包 含 用 户 自己不 喜 欢 的邮 件信 息 , 而 垃 圾 邮 件夹内 又可 能 包 括 用 户 自 己需 要 的邮 件。 对 于这种 需 求, 借助 每 个 用 户 为 自 己单 独 训练 的统 计 型过 滤 词典, 分 别 对 正 常邮 件夹和垃 圾 邮 件夹进 行二 次过 滤 。 为 此本 文 假 设 新增 两 个 邮 件夹, 分 别 命 名为 构 如 图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 焦山楂抗炎化妆品研究-洞察及研究
- 动态RMQ算法优化设计-洞察及研究
- 水分动态平衡调控策略-洞察及研究
- 供应链协同中的合作伙伴关系管理-洞察及研究
- 单点故障影响评估-洞察及研究
- 强直肘关节生物制剂研发策略-洞察及研究
- 个性化刀剪设计方法-洞察及研究
- 智能冶炼系统实时监测与诊断-洞察及研究
- 基于行为分析的网络攻击检测-第1篇-洞察及研究
- 基于深度学习的虹膜识别技术-洞察及研究
- 2025-2030年中国墙瓷砖数据监测研究报告
- 《实验设计与数据分析》课件
- 大学安全纪律教育主题班会
- 钢筋混凝土管道施工方案
- 小学数学新教材中“图形与几何”领域的内容结构分析
- 二八时间管理法则
- 光传输习题库(附答案)
- 【MOOC】医学心理学-北京大学 中国大学慕课MOOC答案
- 【小学课件】《音乐家聂耳》课件
- 大型活动火灾应急预案
- 金属热处理工(高级工)职业技能认定考试题库(含答案)
评论
0/150
提交评论