文本挖掘核心技术及其应用_第1页
文本挖掘核心技术及其应用_第2页
文本挖掘核心技术及其应用_第3页
文本挖掘核心技术及其应用_第4页
文本挖掘核心技术及其应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文本挖掘核心技术及其应用 2目录文本挖掘步骤文本挖掘功能文本挖掘应用3文本挖掘步骤文本挖掘的一般处理过程特征的建立特征集的缩减学习与知识模式的提取知识模式模式质量的评价文档集4文本源原始数据预处理过滤虚词合并词根分词特征表示计算权值合并特征过滤特征特征提取权值调整特征约减文本挖掘文本分类文本聚类关联分析模式提取分类模式聚类模式关联规则结果展示展示界面文本挖掘步骤5文本挖掘主要功能及应用 文本挖掘应用实现功能自动分词文档归类自动分类自动聚类信息抽取文本相似性检索自动摘要舆情监控垃圾邮件过滤企业竞争情报系统电子商务客户自动问答6目录文本挖掘步骤文本挖掘功能文本挖掘应用7自动分词8自动分类莫言对话杨

2、振宁:来生学物理,当下梦飞天时政社会军事评论文化国际历史9自动聚类自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。文本1文本2文本3文本4文本5类别1:关键词: 比赛、赛季、联赛、球队、比分、太阳、NBA、球员队员、领先类别2:关键词:旅游、黄金、游客、记者、旅行社、中国、国家、假日、北京、线路类别3:关键词:公司、企业、招聘、面试、求职、专业、职业、学生、大学、人才10信息抽取信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据,填入一个数据库中以供用户查询使用。会议时间会议时间1998年3月9日会议地点会议地

3、点北京会议召集者会议召集者/主持人主持人个人姓名/团体名称Name蒋正华机构、职位Org/Post主席,农工民主党中央会议名称会议名称/标标题题中国农工民主党第十二届中央常务委员会第一次会议11信息抽取12文本相似性检索文本相似性检索式对一篇文档到索引库中查找与其内容重复率高的文档和相似的文档。目前应用最广的是论文查重。13自动摘要对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为关键句,进而形成摘要。14目录文本挖掘步骤文本挖掘功能文本挖掘应用15应用文档自动归类文本源原始数据预处理过滤虚词合并词根分词特征表示计算权值合并特征过滤特征特征提取权值调整特征约减文本挖掘文

4、本分类模式提取分类模式结果展示展示界面16应用文档自动归类17应用垃圾邮件过滤l商家利用电子邮件传播大量广告l垃圾邮件持续攀升l逐一查看邮件浪费时间面临的问题l对垃圾邮件进行过滤l对邮件进行归类l邮件自动回复关键需求18应用网络舆情监控l互联网的普及,网络舆论热点层出不穷;l民意表达向网络倾斜;l网络舆论一旦被错误控制和引导,影响社会稳定;面临的挑战l舆情信息的采集与提取l话题发现与追踪l网络舆情倾向性分析关键需求20论坛论坛新闻新闻引擎引擎垂直垂直页面页面采集和提取采集和提取博客博客应用网络舆情监控难点热点分析21应用网络舆情监控所采集的网络范围内重复程度最高的话题22应用网络舆情监控网络舆

5、情摘要 提取出几条最重要的新闻,自动生成摘要,生成简报。23倾向性分析自动聚合网络新闻并自动进行褒贬倾向性的分析。 对文章的观点进行倾向性分析和统计,识别正负面信息。应用网络舆情监控24通过对网络信息中的犯罪信息量的分析计算来反映网民的安全感,并进行分级;通过对政府工作相关语料的褒贬分析计算来描述公众对政府工作的满意程度,并进行分级。网络舆情监控应用25应用企业竞争情报系统l企业情报采集效率低和实时性差l信息孤岛,缺少跨部门情报资源共享l情报内容存在重复性,资源没有得到有效整合面临的问题l自动化收集商业信息l对情报内容进行统一管理l根据情报内容,确定潜在威胁,及时预警,并制定相应策略关键需求2

6、6应用企业竞争情报系统伊利作为中国乳业巨头之一,面临多方竞争,必须密切关注对手动态,其最大的竞争对手是蒙牛,因此,蒙牛公司的动态对伊利公司有很大的影响。采集2010年6月至11月蒙牛官网的信息,对其进行分析。6月词频量7月词频量8月词频量9月词频量10月词频量11月词频量合作869107104君乐宝00000140激增词频警报递增词频警报6月词频量7月词频量8月词频量9月词频量10月词频量11月词频量奶源971722295827发现共线词关系:君乐宝低温;华北;蒙牛奶源,奶源君乐宝警情:蒙牛整合君乐宝,实现战略合作警情分析: 整合事件极大程度转变蒙牛低温市场地位,并提升蒙牛竞争力,对伊利构成极

7、大威胁; 提升蒙牛在华北地位,威胁伊利华北市场战略地位; 极大提升蒙牛奶源优势,对伊利在奶源的竞争造成威胁。应用企业竞争情报系统28电子商务网站应用l数据激增,且有大量的非结构化数据l如何从大量数据中发现有价值的客户l挖掘其内在规律面临的问题l分析商品之间的内在关联l发现有价值客户l对用户行为进行预测关键需求电子商务网站应用网站产品评论挖掘:IT168网站是中国指导IT产品采购的知名媒体品牌,是国内最大、最权威的导购咨询网站之一。从IT168网站下载三种产品的评论,分别是:诺基亚5320XM的206篇评论、诺基亚5800XM的205篇评论和富士S5205EXR的72篇评论。如,以下是诺基亚5320XM的一篇评论:步骤:文本源原始数据预处理词性标注去除停用词分词特征识别特征标注特征词提取语义极性分析句子极性分析极性词识别和强度确定分类和结果评价结果评价分类程度副词和极性词分:褒、中、贬强度:良好、优秀如功能、价格、屏幕等30电子商务网站应用挖掘结果及分析:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论