




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
作者姓名 一蔓挫 指 导教 师姓名 、 职 务 一一蹩来耀 敦 援一一 文 本是 互联 网上 的 主要 信 息 载 体 , 文 本自 动分 类技术 能 够有效 地 将 文 本信 息 申 请 学 位 论 文 与 资 料 若有 不 实之 处 ,本 人承 担 一 切相 关 责 任 。本 人签 名:本 学 位 论文 属 于保密在一 年 解 密后 适 用本 授 权书 。本 人签名: 蔓: 塑 璺 第 一章绪 论第 一章绪 论 近年 来, 文本自 动 分 类技术在 信 息技术备方 面 的 应 用 越 来越 广泛。 在 智能 缓存 技术, 数字 图书 馆技术, 搜 索引 擎 技术, 互 联网信 息监 控包 括 “垃 圾”邮件的过 滤 等领 域 里 面 , 文本自 动 分 类技术都扮演 着非常重要 的 角色, 有效 地提高 了信息服务 的 质 量 。 研 究 利用 计 算 机 进 行 文本分 类已 经成为 一个 有重要 价 值的 研 究 课题 , 并且 有着很广泛的 应 用 前 景 , 如 : 自 动 分 类研 究 始 于 世纪 年 代, 甈 【 在 这 一领 域 进 行 了开 创性 研自 动 分 类。 其 后 , 畇 阠 我 国开 展 自 动 分 类研 究 起 步 较晚。 年 , 侯 汉清 教 授对计 算 机 在 文献分 类工 作 中 的 应 用 作 了探讨, 并介 绍 了国外 在 计 算 机 管 理分 类表 、 计 算 机 分 类检索、计 算 机 自 动 分 类、 计 算 机 编制分 类表 等方 面 的 概 况 。 此 后 , 我 国陆续 研 制出一批计 算 机 辅 助 分 类系 统和 自 动 分 类系 统。 国内 外 的 研 究 基 本上是 在 英 文文本分 类研究 的 基 础 上采取 相 应 策 略 , 结合中 文文本的 特 定 知 识 , 然 后 应 用 于中 文之 上, 继 文本自 动 分 类概 述文本自 动 分 类的 方 法 分 为 两 大 类: 基 于规 则 的 分 类方 法 和 基 于统计 的 分 类方法 。 基 于规 则 的 分 类方 法 多 应 用 于某 一具 体 领 域 , 需要 该领 域 的 知 识 、 规 则 库 作为 支撑。 但 是 , 对知 识 、 规 则 的 制定 、 更 新 、 维 护 以及 自 我 学习等方 面 存 在 种 种问题 , 这 些因素使其 应 用 面 比 较窄 。 在 基 于统计 的 分 类方 法 中 , 依据某 种 统计 后得 到 的 客观 规 律 , 或 者采用 某 种 统计 学中 的 定 律 来完成分 类器 的 建立工 作 。 这 种方 法 中 的 训 练 过 程 多 为 训 练 集 上的 某 种 统计 和 计 算 过 程 , 得 到 某 些可 以代表 文本与 类别之 间 关 系 的 数据模型 。 在 分 类时 分 类器 给出的 通 常为 某 种 概 率结果。 比 如 基 于向 量 空 间 模型 的 文本分 类技术研 究 文本分 类的 性 能 评 估;特 征提取出训 练 的 目 的 是 训 练 分 类器 使其 可 用 于分 类, 首先 要 建立特 征集 , 基 本流程 为 :预处理一特 征提取 一特 征集 建立;之 后 则 是 训 练 分 类器 , 基 本流程 为 : 预处理一依据特 征集 取 得 文本的 特 征表 示 一训 练 分 类器 。 分 类则 是 分 类器 依据训 练 结果对待 分 类文本进 行 分 类并给出类别标识 的 过 程 , 基 本流程 为 : 预处理待 分 类文本一依据特 征集 取 得 文本的 特 征表 示 一分 类器 分 类一给出分 类结果。 向 量 空间 模 型分析蕴涵 的 各 个 词 项的 词 频 信息 足 以用来 对 其 进 行 正确 的 分类 。因 此 在向 量 空间 模 型中,用“词 项”作 为特 征项可以构 成 向 量 来 表 示 文 档 。 塑基于 向 量 空间 模 型的 文 本 分类 技 术 研究向 量 空间 模 型是一 种不 考虑 特 征项出 现顺序 的 词 袋 , 隆 蚬 【 】。数 用于 特 征项权重 计算 ,用它 们 来 刻画特 征项表 达 文 本 内 容属性 的 能 力。 基于 向 量 空间 模 型的 文 本 分类 技 术 研究词 会 干 扰 特 征权重 的 计算 ,比如 对 于分类 帮 助 很 小的 代词 、介 词 、连词 等高 频 词 ,它 们 在所 有 文 档 中出 现的 频 率 都 比较高 ,对 文 档 意义 的 贡 献度 却很 ,就 是文 档 集 合中出 现某 个 特 征项的 文、其 中,三的 取 值 通 过 实 验 来 确 定 。 为文 档 集 中的 总文 档 数 ,胛 为出 现特 征特 征权重 计算 难一 的 准则就 是耍最 大 限 度 的 区分不 同文 档 。 因 此 特 征项频 率 文 本 中对 分类 有 用的 单 词 只 占 一 小部 分,而 大 部 分单 词 与 我 们 要 判 别 的 类 无频 词 虽然不 属于 被 过 滤的 禁用词 ,但对 分类 贡 献也 不 大 ,应 该赋 予 较低权值 。 在向 量 空间 模 型中,文 本 向 量 通 过 彼 此 间 的 夹角 来 反映两 个 文 本 的 差 异 大 小,进 而判断 它们 是否 同类 。 而 因 为许多噪 音单 词 的 存 在,两 个 文 本 之 间 的 夹角 在很 大 程度 上是由这 些 噪 音单 词 的 词 频 差 异 而 非有 用单 词 的 词 频 差 异 决 定 。 这 些 噪 音完 全可能 淹没 有 用信息 ,从 而 导致分类 精度 极低。 一 种抑制 噪 音单 词 的 方 法是特 征选 基于 向 量 空间 模 型的 文 本 分类 技 术 研究另一 方 面,对 于 相近 主题的 分类 ,比如 常 见的 专 业 科 技 文 献分类 ,许多特 征项在相近 主题的 文 档 中都 会 出 现,按 照 惴 庑 卣 飨 畹腎 值 是相同的 ,但实 际 它们 在各 类 别 文 档 上的 分布 是有 差 异 的 ,对 于分类 的 贡 献是不 同的 。 对 于这 种情 况 ,传统 的 算 法也 不 能 很 好 地 处 理 。表 特 征项在文 档 中的 出 现频 率 类 别乜 改 进 的 权重 算 法 将 词 分布 因 素和 厮惴 悸堑囊 蛩叵 喽 哉 铡赥 甀 权重 算 法特 征项权重 计算 ,针 对 的 是类 内 因 素和 文 档 集 因 素,其 不 足 之 处 是过 于倚重 词 频 亿,钟 沪 订表 特 征项的 类 间 分布、 类间 分布特 征根据 甀 募扑 愎 ,可以得到 改 进 特 征项权重 计算 结 果如 表 结 合类 间 分布 的 特 征项权重 文 本分 类的 一个主 要 的 问题 是 高 维的 向量 空 间。 通 常 , 文 档包 含 的 词 汇 量 是相 当 大 的 , 一份 普通 的 文 档在 经过文 本表 示 后, 如果 以 词 为特 征, 它 的 向量 空 间维数 将 达 到几 千 , 甚 至几 万 。 大 多 数 学 习 算法都无 法处 理 如此 大 的 维数 。 因此 ,为了 兼顾 运算时 间和分 类精 度 两 个方 面 , 一在 许多 文 本分 类系统的 实 现 中都引 入 了特 征选取 方 法 乱 , 以 此 达 到压 缩 向量 空 间维数 的 目 的 。 本章 对 常 用的 特 征选取 算法进 行 了 研 究 比 较 , 考 察了 先前 的 实 验结 果 , 最后分 析 了 互信 息 算法进 行特 征选取 精 度不 高 的 可能 原因, 提出 了 改 进 的 互信 息 算法。 特 征选取 算法文 档中的 所有词 汇 对 分 类的 贡 献 是 不 同 的 , 一个文 档中对 分 类有用 的 单 词 只占一小部 分 , 而 大 部 分 单 词 与 要 判 别 的 类别 无 关 。 因此 首先要 对 文 档进 行 预 处 理 ,去 除 在 文 章 中起 结 构作用 的 虚词 也就 是 禁 用 词 , 进 行 词 根还 原, 形成 一个特 征集。此 时 构成 文 档的 特 征集仍 旧 很 大 , 如何从 原始 文 档特 征集合中选择 最能 表 示 文 档主 题 内 容 的 特 征子集, 是 文 本特 征选取 算法的 研究 目 标。特 征选取 方 法普遍 通 过对 特 征项所包 含 的 熵 值 进 行 估 算, 得 出 能 够 反 映 特 征项信 息 含 量 的 数 值 , 或 者 是 特 征项区 分 文 档的 能 力 值 。 通常 高 频 特 征项在 多 个类别 中出 现 , 并 且 分 布 较 为均 匀, 因此 区 分 度 较 小; 而 低 频 特 征项由于 对 文 档向量的 贡 献 较 小, 因此 重要 性 也较 低 。 去 除 区 分 度 较 小的 嗓 音特 征项可 以 减 少 无 用 特征对 分 类结 果 的 干 扰从 而 提 高 分 类正 确率 : 去 除 重要 性 较 低 的 低 频 特 征项可 以 使得 特 征集得 到压 缩 从 而 提高 分 类效 率 。 因此 需 要 建 立 合适 的 特 征评估 函数 , 对 特征项进 行 选择 。 嗟奶 跫 怕 剩琺 为类别 数 。 与 的 含 义 与 信 息 增 益相 同 。 如果 词 和类别 强 相 关 , 也就 屠 啾 餭 相 互之 间独立 , 那么 为零。像 高 。 特 征选取 算法比 较是 齡 【 虳 【 】的 工作。 前者 针对 平面 文 本分 类问题 , 分 析和比 较 了 , , 和 估 计等 址 椒 岷 螸 蚄 分 类器 , 得 出 和 估 计方 法效 果 相 对 较 好的 结 论。 而 后者 针对 等级 文 本分 类问题 , 分 析 和 基 于 互信 息 的 特 征选取 算法 是 经典的 特 征选取 方 法之 一, 常 用 来度 量 基 于 上 述 原因, 本文 提 出 了 一种 改 进 的 互信 息 特 征选取 算法。 传统的 互信 息算法没有考 虑 特 征存 在 负值 时 互信 息 量 对 分 类的 影 响 , 因此 削 弱 了 这些 特 征在 分 , 表 改 进 后的 特 征项互信 息 值使有用 的 高 频 特 征有机 会保留 下来, 更符合了 实 际的 需 求。 常用 分类 算 法分析中正例的 向 量 赋 予正权 值, 反 例的 向 量 赋 予负 权 值, 相 加 平 均以 计算 每 一 类 别 的中心。 对于 属 于 测试集的 文 本, 计 算 它 到每 一 个 类 别 中心的 相 似 度, 将 此 文 本归类 于 与其相 似 度最大 的类 别 。 由 其计 算 过程 可见, 如果 对那 些 类 间距 离 比较 大 而计 算 简 单、迅 速 , 所 以 这 种方 法经 常被 用 于 对分类 时间 要 求较 高 的 应 用 之 中, 并 基于 向 量 空 间 模型 的 文 本分类 技 术研 究 锄 , 驴 赤 初朴素贝叶斯 分类 器 是一 类 特 殊 的贝叶斯 分类 器 一 般 取 。 基于 向 量 空 间 模型 的 文 本分类 技 术研 究支持 向 量 机 词墙 诮 峁 狗缦 兆钚 縰 设 给 定 的训 练 集为 渲 校 皇 堑 趇 个 训 练 样 本的特 征向 量 , 类 层次 结 构对应 的 分类 予问题 。 每 一 个 子 任务 显 然 比 原 来的 任务 更加 简 单, 因 为在 树结 构中每 个 结 点的 分类 器 只 需要 在 少部 分类 中区分, 而 且 由 于 这 部 分类 的 共性 较 多, 这 样 各 类 模型 中所 包 含的 特 征项也比 较 少。 算 法 模 块 ,重 新 编 译 来 进 行 实 验。 基 于 向量 空 间 模 型的 文 本 分类技 术研究概 率 越小 ;正 确文 本 数 目 的 百分比 ,查 全 率 越高 表明 分类器 在该 类上 可 能 漏 掉的 分类越少:查 蟀嘞咖 喾 瓣 豢 标准综 合 了 准确率 和 查 全 率 ,将两 者赋 予 同 样 的 重 要 性 来 考 虑 ,即; 三 芝这 三 个标准都 只 用 于 分类器 在单 个类别 上 分类准确度 的 评 价。宏 观 平 均 值 一 第 五章 实 验与结 果 分析微 观 平 均 值 猘琈 ,简称 微 平 均 ,也 用 于 评 价分在训 练 模 型时,针 对 训 练 集再 进 行 词频 统计,构 造 出训 练 集的 词频 统计矩 阵 。分类算 法 根 据训 练 集的 词频 统计矩 阵 进 行 计算 ,按前面 所介 绍的 过 程构 造 出分类算 法 对 应 的 分类器 模 型。分类器 模 型建立后进 行 测 试 ,不同 的 分类算 法 建立不同的 模 型,对 一 篇测 试 文 档,按分类器 模 型计算 其 权 值 和模 型需 要 的 数 值 ,然 后评价测 试 文 档应 属 的 类别 。其 实 测 试 文 档的 类别 是已 知的 ,但 算 法 并 不知道测 试 文档的 类别 ,而赋予 测 试 文 档一 个判断后 的 类别 。用 类别 判断正 确的 文 档数 目 除 以整个测 试 文 档数 就得到分类器 的 分类精 度 ,评 价标准采用 的 是微 平 均 。 鞑 第 五章 实 验与结 果 分析表不同 权 重 算 法 的 分类精 度 比 较 , 基 于 向量 空 间 模 型的 文 本 分类技 术研究式 第 五章 实 验与结 果 分析一 影 籒鞡 赗 的 层次
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生育服务保障承诺书(5篇)
- 公交司机考试题库及答案
- 软件开发测试及维护合同书
- 滑县特岗地理考试真题及答案
- 枣庄物理中考试题及答案
- 汽车美容及维修服务合同书
- 合肥七中考试题型及答案
- 光电器件技术考试题库及答案
- 软件测试笔试题及答案解析大全
- 入伍政治考核笔试题及答案
- 小学道德与法治学科教师专业素质考试试题及答案
- GB∕T 23322-2018 纺织品 表面活性剂的测定 烷基酚和烷基酚聚氧乙烯醚
- 全国质量奖现场汇报材料(生产过程及结果)课件
- 政策评价-卫生政策分析课件
- 高中物理实验—测定物体的速度及加速度(含逐差法)
- 饮食习惯与健康
- 华为人力资源管理纲要2.0
- 第二章 园艺设施的类型、结构、性能及应用
- 银行卡收单外包服务协议范本
- 流动资金缺口测算表.xls
- 中国空白地图大全(可直接打印)(共49页)
评论
0/150
提交评论