文本数据处理424数据可视化课件浙教版高中信息技术必修1_第1页
文本数据处理424数据可视化课件浙教版高中信息技术必修1_第2页
文本数据处理424数据可视化课件浙教版高中信息技术必修1_第3页
文本数据处理424数据可视化课件浙教版高中信息技术必修1_第4页
文本数据处理424数据可视化课件浙教版高中信息技术必修1_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章

数据处理与应用4.2

大数据处理4.2.3文本数据处理4.2.4数据可视化学习目标了解文本处理应用领域及一般处理过程。了解中文分词常用算法及特征提取方式。能使用常见分词系统(如:jieba分词)进行文本数据处理。了解数据可视化的作用。了解数据可视化相关工具及原理。知识点一:文本数据处理新课讲授文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。1.文本数据处理的一般过程(1)中文分词(是中文文本信息处理的基础)①基于词典的分词方法(字符匹配)②基于统计的分词方法③基于规则的分词方法①基于词典的分词方法

也称作基于字符匹配的分词方法,即在分析句子时与词典中的词语进行对比,词典中出现的就划分为词。常见分词系统有jieba分词。importjieba#引入jieba分词模块text="文本数据处理的过程"#定义文本seg_list1=jieba.cut(text,cut_all=True)#全模式分词print("全模式分词:"+"/".join(seg_list1))

#文本/本数/数据/数据处理/处理/的/过程seg_list2=jieba.cut(text)#默认是精确模式分词print("默认模式分词:"+"/".join(seg_list2))#文本/数据处理/的/过程join():用于把序列中的所有元素放入一个字符串,元素是通过指定的分隔符进行分隔的。cut_all=True全模式分词:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。cut_all=False精确模式分词:试图将句子最精确地切开,适合文本分析。②基于统计的分词方法

依据上下文中相邻字出现的频率统计,同时出现的次数越高就越可能组成一个词。一般是将其与基于词典的分词方法结合使用。③基于规则的分词方法

通过让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。这种分词方法目前还处于试验阶段。(2)特征提取特征项:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。特征词:相比较而言,词的切分难度小且更能表达文本的含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。通常可直接用分词算法和词频统计得出的结果作为特征词,但对于稍大一些的文本,提取出的特征词数量将非常大,其计算处理过程的效率非常低,计算结果的准确性也很难令人满意。因此,必须找出最具代表性、最有效的文本特征,通常的办法是通过特征提取来减少特征词的数量,提高文本处理的速度和效率。特征提取的方式:根据专家的知识挑选有价值的特征;用数学建模的方法构造评估函数自动选取特征(目前大多基于概率统计设计)。2.文本数据分析与应用在取得特征词后,需要根据项目的需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。(1)标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式,广泛应用于报纸、杂志等传统媒体和互联网。(2)文本情感分析

通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。根据分析的粒度不同,分为词语级、语句级、整篇文章级三类。主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。(2)文本情感分析

通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。知识点二:数据可视化将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。1、可视化的作用(1)快捷观察与追踪数据利用可视化技术,可以将处于不断变化中的数据生成实时变化的可视化图表,帮助人们快捷地发现各种数据的动态变化过程。如百度地图提供的实时路况服务,中国天气网提供的各地天气实况。(2)实时分析数据利用可视化技术,可以实时将数据转换为图像呈现给用户,帮助用户分析数据的内涵和特征。如利用百度指数分析全国某段时间搜索关键词“数据可视化”的情况,通过交互,用户可以选择从趋势研究、需求图谱、舆情洞察、人群画像等多个角度进行分析。(3)增强数据的解释力与吸引力利用数据图表,直观、动态地呈现新闻、研究报告等内容,可以帮助人们在短时间内了解内容、理解数据背后的含义,同时增强数据的吸引力,提高人们的阅读兴趣。2、可视化的基本方法分类数据间关系的描述可视化方法案例(1)有关时间趋势的可视化时间序列数据变化的过程和趋势折线图、柱形图等。天气、人口迁移、经济发展(2)有关比例的可视化各部分的大小及其占总体比例的情况饼图、环形图(面包圈图)等。衣服面料成分、投票结果(3)有关关系的可视化变量之间的关联性和分布关系(根据某一已知指标预测另一指标)散点图(2-3)、气泡图(3-4)等。身高与体重、用户满意度与收货天数、(4)有关差异的可视化多种变量的对象与同类之间的差异和联系(异常值)雷达图等。同学间期中各科成绩(5)有关空间关系的可视化分析和展示与地理数据相关的数据地图等。腾讯地图打车3.可视化的工具(1)主要用于数据可视化的工具有:大数据魔镜、Gephi、Tableanu(主要用于实时可视化分析)等。(2)使用Python、R等计算机语言编写程序实现数据的可视化。(3)可视化工具库,如基于JavaScript的D3.js、Highcharts、GooleCharts等,基于Python的matplotlib等。4.可视化的典型案例1.文本数据处理的主要步骤包括:①数据分析②特征提取③分词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论