《数据分析》课件-任务7.2 文本预处理_第1页
《数据分析》课件-任务7.2 文本预处理_第2页
《数据分析》课件-任务7.2 文本预处理_第3页
《数据分析》课件-任务7.2 文本预处理_第4页
《数据分析》课件-任务7.2 文本预处理_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

任务7.2文本预处理Python数据分析学习目标及重难点学习目标:学习文本预处理流程掌握分词、词性标注、词形归一化、删除停用词方法素养目标:掌握分词、词性标注、词形归一化、删除停用词方法学习重点:掌握分词、词性标注、词形归一化、删除停用词方法目录学习内容1.文本预处理流程2.分词、词性标注、词形归一化、删除停用词01文本预处理流程1.常见的文本数据分析工具文本预处理一般包括分词、词形归一化、删除停用词,具体流程如下所示02分词、词性标注、词形归一化与删除停用词2.分词指将由连续字符组成的语句,按照一定的规则划分成一个个独立词语英文按空格,中文复杂中文的结构特点,可以把分词算法分为以下三类:

基于规则分词基于统计分词基于理解分词2.分词英文分词,可调用word_tokenize()函数基于空格或标点进行划分,并返回单词列表

sentence='Ilikebule.'#将句子切分为单词words=nltk.word_tokenize(sentence)['I','like','bule','.']2.分词对中文句子分词,可通过jieba.cut()

函数进行划分,该函数有如下三个参数:需要分词的字符串。cut_all,控制是否采用全模式。HMM,控制是否使用HMM模型2.词性标注词性是对词语分类的方式之一

中文词汇名词、动词、形容词、数词、量词、代词、介词、副词、连词、感叹词、助词和拟声词名词、形容词、动词、代词、数词、副词、介词、连词、冠词和感叹词英文词汇2.词性标注为分词结果中的每个词标注一个正确的词性Iloveitcast人称代词动词名词2.词性标注NLTK库中使用不同的约定来标记单词,下面是通用的词性标注集2.词性标注单词标注词性,需要先下载averaged_perceptron_tagger模块,然后调用pos_tag()函数进行标注words=nltk.word_tokenize('Iloveblue')nltk.pos_tag(words)[('I','PRP'),('love','VBP'),('blue','JJ')]2.词形归一化在英文中,一个单词常常是另一个单词的变种。词根look一般进行时looking一般过去时looked信息检索和文本挖掘时,需要对一个词的不同形态进行规范化,提高文本处理效率。2.词形归一化词干提取是指删除不影响词性的词缀,得到单词词干的过程。词形还原能够捕捉基于词根的规范单词形式。2.词形归一化基于波特词干算法来提取词干的,集中在PorterStemmer类中。fromnltk.stem.porterimportPorterStemmerporter_stem=PorterStemmer()porter_stem.stem('watched')兰卡斯特词干提取器,算法都集中在LancasterStemmer类中。'watch'fromnltk.stem.lancasterimportLancasterStemmerlancaster_stem=LancasterStemmer()lancaster_stem.stem('jumped')'jump'2.词形归一化NLTK库中提供了一个强大的还原模块,它使用WordNetLemmatizer类来获得根词,使用前确保已经下载wordnet语料库。词形还原是去除词缀以获得单词的基本形式。这个基本形式称为根词,而不是词干。根词始终存在于词典中,词干不一定是标准的单词,它可能不存在于词典中。2.删除停用词停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些没有具体意义的字或词比如:英文单词“I”、“the”或中文中的“啊”等。2.删除停用词如果直接用包含大量停用词的文本作为分析对象,则可能会导致分析结果存在较大偏差,通常在处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论