版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务7.1文本数据分析工具Python数据分析学习目标及重难点学习目标:了解常见的文本数据分析工具NLTK的下载安装素养目标:文本数据分析工具的安装部署学习重点:文本数据分析工具的安装部署目录学习内容1.了解常见的文本数据分析工具2.NLTK的安装部署01常见的文本数据分析工具1.常见的文本数据分析工具自然语言处理(NLP)研究计算机和人之间如何进行有效通信,文本类型的数据在NLP领域占比很大。自然语言种类繁多,自身具有半结构的特点,所以针对不同类型需分别处理。常用的有处理英文的NLTK库。1.关于NLTKNLTK为超过50个语料库和词汇资源提供易于使用的接口,以及一套用于分类、标记化、词干化、解析和语义推理的文本处理库。下表是NLTK常用模块02NLTK安装部署2.安装NLTK在终端使用pip命令直接安装
Anaconda默认已经安装NLTK(没有语料库)>>>pip
install
-U
nltk2.安装NLTK语料库NLTK库中附带了许多语料库、玩具语法、训练模型等,完整的信息发布在
上。安装单独的数据包或下载全部的数据包,需要在JupyterNotebook(或者管理员账户)中执行以下操作nltk.download()#打开NLTK下载器2.安装NLTK语料库在打开的NLTK下载器窗口选择全部下载还是部分下载,全部下载需更换下载路径下载完毕后验证语料库是否下载成功fromnltk.corpusimportbrownbrown.words()2.安装可以使用如下pip命令直接安装安装完成后出现如下信息,且JupyterNotebook中通过importjieba引用没有提示错误信息,证明安装成功pipinstalljieba任务7.2文本预处理Python数据分析学习目标及重难点学习目标:学习文本预处理流程掌握分词、词性标注、词形归一化、删除停用词方法素养目标:掌握分词、词性标注、词形归一化、删除停用词方法学习重点:掌握分词、词性标注、词形归一化、删除停用词方法目录学习内容1.文本预处理流程2.分词、词性标注、词形归一化、删除停用词01文本预处理流程1.常见的文本数据分析工具文本预处理一般包括分词、词形归一化、删除停用词,具体流程如下所示02分词、词性标注、词形归一化与删除停用词2.分词指将由连续字符组成的语句,按照一定的规则划分成一个个独立词语英文按空格,中文复杂中文的结构特点,可以把分词算法分为以下三类:
基于规则分词基于统计分词基于理解分词2.分词英文分词,可调用word_tokenize()函数基于空格或标点进行划分,并返回单词列表
sentence='Ilikebule.'#将句子切分为单词words=nltk.word_tokenize(sentence)['I','like','bule','.']2.分词对中文句子分词,可通过jieba.cut()
函数进行划分,该函数有如下三个参数:需要分词的字符串。cut_all,控制是否采用全模式。HMM,控制是否使用HMM模型2.词性标注词性是对词语分类的方式之一
中文词汇名词、动词、形容词、数词、量词、代词、介词、副词、连词、感叹词、助词和拟声词名词、形容词、动词、代词、数词、副词、介词、连词、冠词和感叹词英文词汇2.词性标注为分词结果中的每个词标注一个正确的词性Iloveitcast人称代词动词名词2.词性标注NLTK库中使用不同的约定来标记单词,下面是通用的词性标注集2.词性标注单词标注词性,需要先下载averaged_perceptron_tagger模块,然后调用pos_tag()函数进行标注words=nltk.word_tokenize('Iloveblue')nltk.pos_tag(words)[('I','PRP'),('love','VBP'),('blue','JJ')]2.词形归一化在英文中,一个单词常常是另一个单词的变种。词根look一般进行时looking一般过去时looked信息检索和文本挖掘时,需要对一个词的不同形态进行规范化,提高文本处理效率。2.词形归一化词干提取是指删除不影响词性的词缀,得到单词词干的过程。词形还原能够捕捉基于词根的规范单词形式。2.词形归一化基于波特词干算法来提取词干的,集中在PorterStemmer类中。fromnltk.stem.porterimportPorterStemmerporter_stem=PorterStemmer()porter_stem.stem('watched')兰卡斯特词干提取器,算法都集中在LancasterStemmer类中。'watch'fromnltk.stem.lancasterimportLancasterStemmerlancaster_stem=LancasterStemmer()lancaster_stem.stem('jumped')'jump'2.词形归一化NLTK库中提供了一个强大的还原模块,它使用WordNetLemmatizer类来获得根词,使用前确保已经下载wordnet语料库。词形还原是去除词缀以获得单词的基本形式。这个基本形式称为根词,而不是词干。根词始终存在于词典中,词干不一定是标准的单词,它可能不存在于词典中。2.删除停用词停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些没有具体意义的字或词比如:英文单词“I”、“the”或中文中的“啊”等。2.删除停用词如果直接用包含大量停用词的文本作为分析对象,则可能会导致分析结果存在较大偏差,通常在处理过程中会将它们从文本中删除。fromnltk.corpusimportstopwordsstop_words=stopwords.words('english')任务7.3文本情感分析Python数据分析学习目标及重难点学习目标:基于情感词典进行情感分析基于机器学习进行情感分析素养目标:培养严谨、认真、踏实、勤奋的学习态度学习重点:基于机器学习进行情感分析目录学习内容1.基于情感词典情感分析2.基于机器学习进行文本情感分析01基于情感词典进行情感分析1.情感分析文本情感分析,又称为倾向性分析和意见挖掘,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。Ilikethismovieverymuch.正向情感分析还可以细分为情感极性(倾向)分析、情感程度分析及主客观分析等。1.基于情感词典情感分析情感词典通过制定一系列的情感词典和规则,对文本进行段落拆解、句法分析,计算情感值,最后通过情感值来作为文本的情感倾向依据。对文本进行分词操作,从中找出情感词、否定词以及程度副词。判断每个情感词之前是否有否定词及程度副词,将它之前的否定词和程度副词划分为一组。将所有组的得分加起来,得分大于0的归于正向,小于0的归于负向1.基于情感词典情感分析“这款蓝牙耳机的款式比较好看,操作也比较简单,不过音质真的太烂了,耳塞也不好用。”积极情感词+1消极情感词-1修饰词:太*4修饰词比较*2否定词:不*-102基于机器学习情感分析2.基于机器学习情感分析朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯的思想基础是:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2.基于机器学习情感分析nltk.classify模块中的NaiveBayesClassifier类实现了朴素贝叶斯分类算法,该类中有一个类方法train(),主要用于根据训练集来训练模型。labeled_featuresets--表示分类的特征集列表。train(cls,labeled_featuresets,estimator=ELEProbDist)任务7.4文本相似度Python数据分析学习目标及重难点学习目标:了解文本相似度衡量方法掌握文本映射向量,结合余弦相似度的衡量方法素养目标:培养严谨、认真、踏实、勤奋的学习态度学习重点:文本映射向量,结合余弦相似度的衡量方法目录学习内容1.文本相似度衡量方法2.文本映射向量,结合余弦相似度的衡量方法01文本相似度衡量方法1.文本相似度衡量方法在诸如信息检索、数据挖掘、机器翻译、文档复制检测等领域中,如何度量句子或短语之间的相似度显得尤为重要。1.文本相似度衡量方法文本相似度的衡量计算主要包括如下三种方法:关键字匹配基于关键字匹配的传统方法,比如N-gram相似度。映射向量将文本映射到向量空间,再利用余弦相似度等方法进行计算。深度学习比如卷积神经网络的ConvNet、用户点击数据的深度学习语义匹配模型DSSM等。02文本映射向量,结合余弦相似度2.文本映射向量,结合余弦相似度随着深度学习的发展,文本相似度的方法已经逐渐不再是基于关键词匹配的传统方法,而是转向了深度学习,目前结合向量的深度学习使用较多。2.文本映射向量,结合余弦相似度文本映射到向量,再利用余弦相似度计算的一般实现步骤如下:第1步第2步从每篇文章中各取出若干个关键词,再把这些关键词合并成一个集合,然后计算每篇文章中各个词对于这个集合中的关键词的词频。第3步第4步通过特征提取的模型或手动实现,找出这两篇文章的关键词。生成两篇文章中各自的词频向量。计算两个向量的余弦相似度,值越大则表示越相似。任务7.5文本分类Python数据分析学习目标及重难点学习目标:掌握文本分类的应用及实现步骤素养目标:培养严谨、认真、踏实、勤奋的学习态度学习重点:掌握文本分类的应用及实现步骤目录学习内容1.文本分类的应用及实现步骤01文本分类的应用及实现步骤1.文本分类文本分类是指按照一定的分类体系或标准,用电脑对文本集进行自动分类标记,主要的目的是将文本或文档自动地归类为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粤教版必修4第二单元《〈红楼梦〉的情节波澜》(节选)阅读练习2
- 五一活动策划方案范本(3篇)
- 公安辅警职业能力测试题库
- 2026年锂电材料春季淡季不淡:3月排产环比增长11% ~22%解读
- 2026年合成生物技术全国重点实验室开放课题申报
- 2026年大模型备案材料算法安全评估报告编写
- 2026年3月广东广州市白云区太和镇人民政府补录政府雇员1人备考题库及参考答案详解(突破训练)
- 2026湖北恩施州来凤县绿水镇中心幼儿园带班教师1名备考题库附答案详解(研优卷)
- 2026浙江温州桐君堂药材有限公司招聘营业员1人备考题库附答案详解(完整版)
- 2026浙江宁波报业传媒集团有限公司招聘编辑1人备考题库带答案详解(黄金题型)
- 国开2026年春季《形势与政策》专题测验1-5答案
- 2026离婚协议书标准范文
- 2026四川宜宾发展产城投资有限公司及子公司第一批员工招聘35人考试参考试题及答案解析
- 2026年邮政从业职业技能鉴定考试题库(附答案)
- 2026年临汾职业技术学院单招职业技能考试题库带答案详解(精练)
- 2026年及未来5年市场数据中国公募基金行业市场全景评估及投资策略咨询报告
- 2025-2026学年春季第二学期学校教导处工作计划及安排表
- 北京市丰台区2026届(年)高三年级(上)学期期末考试政治试题卷+答案
- 放射性肠炎诊疗指南(2025年版)
- 2025云南事业单位考试d类真题及答案
- 医疗设备报废环保合规处置指南
评论
0/150
提交评论