(中职)Python编程基础与应用电子课件文本处理库的应用_第1页
(中职)Python编程基础与应用电子课件文本处理库的应用_第2页
(中职)Python编程基础与应用电子课件文本处理库的应用_第3页
(中职)Python编程基础与应用电子课件文本处理库的应用_第4页
(中职)Python编程基础与应用电子课件文本处理库的应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、正版课件 内容可修改(中职)Python编程基础与应用电子课件文本处理库的应用文本处理库的应用主讲:Python编程基础与应用配套课件+contents目录jieba的安装和简介wordcloud的安装和简介案例:可视化中文词云项目列表的定义和索引访问01jieba的简介“结巴”中文分词支持繁体分词,支持自定义词典,还支持四种分词模式:1)精确模式,试图将句子最精确地切开,适合文本分析。2)全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。3)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。4)paddle模式,利用Paddle

2、Paddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。jieba的安装它的安装方法很简单,可以直接使用PIP进行安装:jieba库的常用函数范例11-1 jieba库的三种分词模式应用jieba库的三种分词模式,对字符串“jieba是优秀的中文分词第三方库”进行分词。范例11-1 jieba库的三种分词模式它的结果 如下wordcloud的安装和简介02wordcloud的安装和简介wordcloud库把词云当作一个WordCloud对象。wordcloud.WordCloud()代表一个文本对应的词云,可以根据文本中词语出现的频率等参数绘制词云,绘制词云的形状、尺寸和颜色都可

3、以设定。它的安装方法很简单,可以直接使用PIP进行安装wordcloud的常用方法在生成词云时,它默认会以空格或者标点为分隔符对目标文本进行分词处理,但是对于中文的文本,分词处理需要我们提前处理好。一般的做法是先将中文文本进行分词,然后以空格或者标点拼接,再调用wordcloud库函数。范例11-2 wordcloud库生成词云应用wordcloud库对以下字符串“Python JAVA C# C+ ASP.NET Python and WordCloud Python”生成一个词云,并保存为图片。范例11-2 wordcloud库生成词云它生成了一张图片pywordcloud.png,效果如

4、图。从图中看到“Python”文字比较大,这是因为它的词频是字符串中最高的。生成指定形状的词云wordcloud也可以生成任何形状的词云,为了获取形状,需要提供一张相应形状的图像。图像最好以PNG格式的图片,其它无关的轮廓或者内容提前使用图像处理软件清除好。对于图片的读取可以使用imageio库。imageio是一个Python库,它提供了一个简单的接口来读取和写入大量的图像数据,包括动画图像、体积数据和科学格式。生成指定形状的词云wordcloud也可以生成任何形状的词云,为了获取形状,需要提供一张相应形状的图像。图像最好以PNG格式的图片,其它无关的轮廓或者内容提前使用图像处理软件清除好。

5、对于图片的读取可以使用imageio库。imageio是一个Python库,它提供了一个简单的接口来读取和写入大量的图像数据,包括动画图像、体积数据和科学格式。wordcloud的常用参数wordcloud处理中文时,还可以指定用到的中文字体。中文字体文件需要与代码存放在同一个目录下。如果不放在同一个目录下,中文字体文件即要提供完整路径。范例11-3wordcloud库生成一个心形词云应用wordcloud库对素材中的“phthon.txt”文件中的文本生成一个词云,并保存为图片。这个文本也更换为其它的长文本。原始参照图形如图所示。范例11-3wordcloud库生成一个心形词云它的代码如下范

6、例11-3wordcloud库生成一个心形词云它生成了一张图片pywcloud.png,效果如图9-5。它的宽是600,高是500,使用了图片love.png的词云形状,背景颜色为白色white。单词“Python”的词频最大,其次是“Tutorial”,从词云中可以很直观地看到那些是高频单词。案例:可视化中文词云项目03案例描述扶贫是保障贫困户的合法权益,取消贫困负担。2020年11月23日,中国832个国家级贫困县全部脱贫摘帽。我国脱贫攻坚取得的成就,见证了“中国力量”。消除绝对贫困是一项对中华民族、对人类都具有重大意义的伟业!小刘在一间大数据技术应用与开发公司工作,是一名Python程序

7、员。他的项目经理要求小刘对一篇关于中国的精准扶贫的文章进行中文分词,并对高频出现的一些词语自动生成一个词云图片。这个词云图将会应用于一个大数据可视化大屏展示系统中。案例分析本项目可以用Python语言jieba结巴分词库对文章进行中文分词,统计出高频的词语,然后结合wordcloud词云库,自动化地生成词云。它的主要实施步骤为:1)使用IO函数,对文本文件的读取。2)应用jieba进行中文分词。3)词频统计。4)对词频进行排序。5)对高频词进行输出显示,并对分词使用空格拼接成字符串。6)读取图片,以生成词云的形状。7)设置wordcloud的参数,自动生成词云图片并保存。安装imread 需要注意的是本案例要提前安装imread ,如下:pip install imread如果直接安装不成功,可以从网站/gohlke/pythonlibs/下载whl文件进行安装。代码代码代码调试结果在代码编辑区按“Shift+F10”或者右键直接选择“运行”,即可调试,效果图如下所示,这是一个点赞的大拇指效果图。从效果图中可以看到词频最高的词语的字体最大。试一试1)请你找一些其它中文文章生成词云,看一下它的效果是如何的。比如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论