文本挖掘.doc_第1页
文本挖掘.doc_第2页
文本挖掘.doc_第3页
文本挖掘.doc_第4页
文本挖掘.doc_第5页
免费预览已结束,剩余6页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

它在商业智能 信息检索 生物信息处理等方面都有广泛的应用 例如 客户关系管理 自动邮件回复 垃圾邮件过滤 自动简历评审 搜索引擎等等 文本挖掘可以通过下图有个大致理解 它由三部分组成 底层是文本挖掘的基础领域 包 括机器学习 数理统计 自然语言处理 在此基础上是文本挖掘的基本技术 有五大类 包括 文本信息抽取 文本分类 文本聚类 文本数据压缩 文本数据处理 在基本技术之上是两个 主要应用领域 包括信息访问和知识发现 信息访问包括信息检索 信息浏览 信息过滤 信 息报告 知识发现包括数据分析 数据预测 文本挖掘过程 文本挖掘过程 Text Mining 一 文本挖掘概念 在现实世界中 可获取的大部信息是以文本形式存储在文本数据库中的 由来自各种数据源 的大量文档组成 如新闻文档 研究论文 书籍 数字图书馆 电子邮件和 Web 页面 由于 电子形式的文本信息飞速增涨 文本挖掘已经成为信息领域的研究热点 文本数据库中存储的数据可能是高度非结构化的 如 WWW 上的网页 也可能是半结构化的 如 e mail 消息和一些 XML 网页 而其它的则可能是良结构化的 良结构化文本数据的典型代 表是图书馆数据库中的文档 这些文档可能包含结构字段 如标题 作者 出版日期 长度 分类等等 也可能包含大量非结构化文本成分 如摘要和内容 通常 具有较好结构的文本数 据库可以使用关系数据库系统实现 而对非结构化的文本成分需要采用特殊的处理方法对其进 行转化 文本挖掘 Text Mining 是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过 程 其中被普遍认可的文本挖掘定义如下 文本挖掘是指从大量文本数据中抽取事先未知的 可理解的 最终可用的知识的过程 同时 运用这些知识更好地组织信息以便将来参考 文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识 但是文本挖掘也是一项 非常困难的工作 因为它必须处理那些本来就模糊而且非结构化的文本数据 所以它是一个多学 科混杂的领域 涵盖了信息技术 文本分析 模式识别 统计学 数据可视化 数据库技术 机 器学习以及数据挖掘等技术 文本挖掘是从数据挖掘发展而来 因此其定义与我们熟知的数据 挖掘定义相类似 但与传统的数据挖掘相比 文本挖掘有其独特之处 主要表现在 文档本身是 半结构化或非结构化的 无确定形式并且缺乏机器可理解的语义 而数据挖掘的对象以数据库中 的结构化数据为主 并利用关系表等存储结构来发现知识 因此 有些数据挖掘技术并不适用 于文本挖掘 即使可用 也需要建立在对文本集预处理的基础之上 文本挖掘是应用驱动的 它在商业智能 信息检索 生物信息处理等方面都有广泛的应用 例如 客户关系管理 自动邮件回复 垃圾邮件过滤 自动简历评审 搜索引擎等等 二 文本挖掘过程 有些人把文本挖掘视为另一常用术语文本知识发现 KDD 的同义词 而另一些人只是把文 本挖掘视为文本知识发现过程的一个基本步骤 文本知识发现主要由以下步骤组成 1 文本预处理 选取任务相关的文本并将其转化成文本挖掘工具可以处理的中间形式 2 文本挖掘 在完成文本预处理后 可以利用机器学习 数据挖掘以及模式识别等方法提取面 向特定应用目标的知识或模式 3 模式评估与表示为最后一个环节 是利用已经定义好的评估指标对获取的知识或模式进行评 价 如果评价结果符合要求 就存储该模式以备用户使用 否则返回到前面的某个环节重新调整 和改进 然后再进行新一轮的发现 如果把文本挖掘视为一个独立的过程 则上面三个步骤可以细化为下图表示 三 文本挖掘关键技术及文本分类 文本转换为向量形式并经特征选择以后 便可以进行挖掘分析了 常用的文本挖掘分析技术 有 文本结构分析 文本摘要 文本分类 文本聚类 文本关联分析 分布分析和趋势预测等 文本分类是其中一种很关键的挖掘任务也是在文本信息处理领域用得最多的一种技术 下面做 个简要介绍 文本分类系统的任务是 在给定的分类体系下 根据文本的内容自动地确定文本关联的类别 从数学角度来看 文本分类是一个映射的过程 它将未标明类别的文本映射到已有的类别中 该映射可以是一一映射 也可以是一对多的映射 因为通常一篇文本可以同多个类别相关联 用数学公式表示如下 f A B A 为待分类文本集 B 为分类体系中的类别集合 文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息 总结出分类的规律性 而建立的判别公式和判别规则 然后在遇到新文本时 根据总结出的判别规则 确定文本相关 的类别 一般来讲 文本分类需要四个步骤 1 获取训练文本集 训练文本集由一组经过预处理的文本特征向量组成 每个训练文本 或称训 练样本 有一个类别标号 2 选择分类方法并训练分类模型 文本分类方法有统计方法 机器学习方 法 神经网络方法等 等 在对待分类样本进行分类前 要根据所选择的分类方法 利用训练集进行训练并得出分类 模型 3 用训练好的分类模型对其它待分类文本进行分类 4 根据分类结果评估分类模型 下图是一个完整的文本分类过程 四 文本挖掘应用 主要的应用方向和系统有 1 基于内容的搜索引擎 代表性的系统有北京大学天网 计算所的 天罗 百度 慧聪等公 司的搜索引擎 2 信息自动分类 自动摘要 信息过滤等文本级应用 如上海交通大学纳讯公司的自动摘要 复旦大学的文本分类 计算所基于聚类粒度原理 VSM 的智多星中文文本分类器 3 信息自动抽取 即将 Internet 上大量的非结构化的信息 抽取出格式化的数据 以备进一 步的搜索应用 目前是研究热点 至今还没有实用的系统 4 自动问答 机器翻译等需要更多自然语言处理和理解的应用 面对今天浩如烟海的文本信息 如何帮助人们有效地收集和选择所感兴趣的信息 如何帮助用户在日益增多的信息中自动发现 新的概念 并自动分析它们之间的关系 使之能够真正做到信息处理的自动化 这已经成为信息技术领域的热点问题 有数据表明 一个组织 80 的信息是以文本的形式存放的 包括 WEB 页面 技术文档 电子邮件等 由于整个文本集合 不能被方便地阅读和分析 而且由于文本经常改变 要跟上变化的节奏 就要不停地回顾文本的内容 处理数量巨大的文本变 得越来越来困难 人们迫切需要能够从大量文本集合中快速 有效地发现资源和知识的工具 在这样的需求驱动下 文本挖掘 的概念产生了 文本挖掘技术的发展文本挖掘技术的发展 数据挖掘技术本身就是当前数据技术发展的新领域 文本挖掘则发展历史更短 传统的信息检索技术对于海量数据的处理 并不尽如人意 文本挖掘便日益重要起来 可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的 随着网络时代的到来 用户可获得的信息包含了从技术资料 商业信息到新闻报道 娱乐资讯等多种类别和形式的文档 构成了一个异常庞大的具有异构性 开放性特点的分布式数据库 而这个数据库中存放的是非结构化的文本数据 结合人工智 能研究领域中的自然语言理解和计算机语言学 从数据挖掘中派生了两类新兴的数据挖掘研究领域 网络挖掘和文本挖掘 网络挖掘侧重于分析和挖掘网页相关的数据 包括文本 链接结构和访问统计 最终形成用户网络导航 一个网页中包 含了多种不同的数据类型 因此网络挖掘就包含了文本挖掘 数据库中数据挖掘 图像挖掘等 文本挖掘作为一个新的数据挖掘领域 其目的在于把文本信息转化为人可利用的知识 文本挖掘预处理文本挖掘预处理 文本挖掘是从数据挖掘发展而来 但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘 还 需要做很多准备工作 文本挖掘的准备工作由文本收集 文本分析和特征修剪三个步骤组成 见图 1 文本收集 需要挖掘的文本数据可能具有不同的类型 且分散在很多地方 需要寻找和检索那些所有被认为可能与当前工作相关的文 本 一般地 系统用户都可以定义文本集 但是仍需要一个用来过滤相关文本的系统 文本分析 与数据库中的结构化数据相比 文本具有有限的结构 或者根本就没有结构 此外文档的内容是人类所使用的自然语言 计算机很难处理其语义 文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上 需要对文本进行分析 抽取 代表其特征的元数据 这些特征可以用结构化的形式保存 作为文档的中间表示形式 其目的在于从文本中扫描并抽取所需要 的事实 特征修剪 特征修剪包括横向选择和纵向投影两种方式 横向选择是指剔除噪声文档以改进挖掘精度 或者在文档数量过多时仅选取 一部分样本以提高挖掘效率 纵向投影是指按照挖掘目标选取有用的特征 通过特征修剪 就可以得到代表文档集合的有效的 精简的特征子集 在此基础上可以开展各种文档挖掘工作 文本挖掘的关键技术文本挖掘的关键技术 经特征修剪之后 可以开展数据文本挖掘工作 文本挖掘工作流程见图 2 所示 从目前文本挖掘技术的研究和应用状况来 看 从语义的角度来实现文本挖掘的还很少 目前研究和应用最多的几种文本挖掘技术有 文档聚类 文档分类和摘要抽取 文档聚类 首先 文档聚类可以发现与某文档相似的一批文档 帮助知识工作者发现相关知识 其次 文档聚类可以将一个文档聚类 成若干个类 提供一种组织文档集合的方法 再次 文档聚类还可以生成分类器以对文档进行分类 文本挖掘中的聚类可用于 提供大规模文档集内容的总括 识别隐藏的文档间的相似度 减轻浏览相关 相似信息的过程 聚类方法通常有 层次聚类法 平面划分法 简单贝叶斯聚类法 K 最近邻参照聚类法 分级聚类法 基于概念的文本聚 类等 文档分类 分类和聚类的区别在于 分类是基于已有的分类体系表的 而聚类则没有分类表 只是基于文档之间的相似度 由于分类体系表一般比较准确 科学地反映了某一个领域的划分情况 所以在信息系统中使用分类的方法 能够让用户手 工遍历一个等级分类体系来找到自己需要的信息 达到发现知识的目的 这对于用户刚开始接触一个领域想了解其中的情况 或者用户不能够准确地表达自己的信息需求时特别有用 传统搜索引擎中目录式搜索引擎属于分类的范畴 但是许多目录式搜 索引擎都采用人工分类的方法 不仅工作量巨大 而且准确度不高 大大限制了起作用的发挥 另外 用户在检索时往往能得到成千上万篇文档 这让他们在决定哪些是与自己需求相关时会遇到麻烦 如果系统能够将 检索结果分门别类地呈现给用户 则显然会减少用户分析检索结果的工作量 这是自动分类的另一个重要应用 文档自动分类一般采用统计方法或机器学习来实现 常用的方法有 简单贝叶斯分类法 矩阵变换法 K 最近邻参照分类 算法以及支持向量机分类方法等 自动文摘 互联网上的文本信息 机构内部的文档及数据库的内容都在成指数级的速度增长 用户在检索信息的时候 可以得到成千 上万篇的返回结果 其中许多是与其信息需求无关或关系不大的 如果要剔除这些文档 则必须阅读完全文 这要求用户付出 很多劳动 而且效果不好 自动文摘能够生成简短的关于文档内容的指示性信息 将文档的主要内容呈现给用户 以决定是否要阅读文档的原文 这 样能够节省大量的浏览时间 简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简 单连贯的短文 自动文摘具有以下特点 1 自动文摘应能将原文的主题思想或中心内容自动提取出来 2 文摘应具有概况性 客观 性 可理解性和可读性 3 可适用于任意领域 按照生成文摘的句子来源 自动文摘方法可以分成两类 一类是完全使用原文中的句子来生成文摘 另一类是可以自动生 成句子来表达文档的内容 后者的功能更强大 但在实现的时候 自动生成句子是一个比较复杂的问题 经常出现产生的新句 子不能被理解的情况 因此目前大多用的是抽取生成法 文本挖掘应用前景文本挖掘应用前景 利用文本挖掘技术处理大量的文本数据 无疑将给企业带来巨大的商业价值 因此 目前对于文本挖掘的需求非常强烈 文本挖掘技术应用前景广阔 4 文本挖掘技术应用实例研究 4 1 Thomson 科技信息集团 是目前全球科技创新 知识产权发展以及医药研发等领域最领先的信息服务解决方 案供应商之一 致力于为全球的科研人员 图书馆 信息分析专家以及各行各业从事研究与 发展的专业人士提供整合的科技信息解决方案 协助他们更准确地 更迅速地制订决策 加速 科学发现与应用开发的进程 在其重组 兼并和收购其他公司的过程中 该组织经常要面对一 个艰难的任务 索引大量的文字资料用来统一处理来自不同背景的数据 由于需要处理的数 据过多 使得花费成本昂贵 过程复杂 因此 汤姆森科技信息集团决定安装以 TEMIS software Luxid 为基础的自动求解程序 该软件在 2006 年第一次应用时 便处理了生物资料库的几百 万文件 包括注解一系列从地理位置 化学物质到各种生物名称的实体种类 这种模块化的 处理链使用了 Skill CartridgeTM 机制 使人们可以随意组合这些资源 便于独立操作 大大提高 了工作效率 4 2 Springer Science 出版公司 在施普林格科学出版公司的语意链接项目中 TEMIS 科技被用来把网络报章内容转换 为高密度的科技互联知识网络 在那些科技出版物的读者看来 如果科技术语能够直接链接 到更详细的信息则会对工作很有帮助 而要想达到这一要求 整个链接程序必须是完全自动化 的 这种程序通过增加超链接丰富了出版物的内容 同时对读者而言 在阅读特定内容的时候 通过语意链接还可以阅读其他与所读内容密切

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论