版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
去掉停用词主讲人:刘学重庆市九龙坡职业教育中心问题描述现有某电视剧弹幕信息,请去掉弹幕信息里面的停用词,然后以列表的形式输出弹幕中词频最高的10个词。contentslikeCounttv_name0二刷的朋友有吗20111我希望一切能重来312这段眼神变化的太妙了913良心啊,一小时18414基本都好201............59995这个叶爸有点东西2271259996眼镜掉在案发现场了901259997俺的眼睛掉在厂里了101259998他不戴假发你更不习惯171259999那是什么药呀3312输出结果词语词频孩子2030爬山1913严良1511真的1407一个1305妈妈939演技902一起865普普846感觉782问题分析问题描述问题解答怎样将句子切割成为词语?
怎样把弹幕信息表和停用词表联合起来?怎样统计词频?cut()merge()value_counts()操作提示利用jieba库中的cut()函数对弹幕信息进行分词后转换为数据框,将之与停用词数据框进行合并,筛选出不在停用词表中的词语,统计这些词出现的词频,这样得到了题目要求的结果。程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码pandas提供了大量能使我们快速便捷地处理数据的函数和方法。程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码jieba是python的一个中文分词库,具有高性能、高准确率、可扩展等特点程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码contentslikeCounttv_name0二刷的朋友有吗20111我希望一切能重来312这段眼神变化的太妙了913良心啊,一小时18414基本都好201............59995这个叶爸有点东西2271259996眼镜掉在案发现场了901259997俺的眼睛掉在厂里了101259998他不戴假发你更不习惯171259999那是什么药呀3312data=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码切割后的列表为:['$','0','1','2','3','4','5','6','7','8','9......'非独','靠','顺','顺着','首先','!',',',':',';','?']程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码
stopword0$10213243.....741!742,743:744;745?生成的停用词表stop_word=pd.DataFrame(stop_word,columns=["stopword"])程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码word0二刷1的2朋友3有4吗......339467那339468是339469什么339470药339471呀word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])程序代码word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])contentslikeCounttv_name0二刷的朋友有吗20111我希望一切能重来312这段眼神变化的太妙了913良心啊,一小时18414基本都好201............59995这个叶爸有点东西2271259996眼镜掉在案发现场了901259997俺的眼睛掉在厂里了101259998他不戴假发你更不习惯171259999那是什么药呀3312“二刷的朋友有吗我希望一切能重来这段眼神变化的太妙了良心啊,一小时……好了警官你是下一个好一个不戴眼镜的斯文败类儿子你啥时候学习啊居然还不说实话?我不戴假发更厉害演完这部电影,伊能静开始怕了你看我还有机会吗这个叶爸有点东西眼镜掉在案发现场了俺的眼睛掉在厂里了他不戴假发你更不习惯那是什么药呀”程序代码word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])“二刷的朋友有吗我希望一切能重来这段眼神变化的太妙了良心啊,一小时……好了警官你是下一个好一个不戴眼镜的斯文败类儿子你啥时候学习啊居然还不说实话?我不戴假发更厉害演完这部电影,伊能静开始怕了你看我还有机会吗这个叶爸有点东西眼镜掉在案发现场了俺的眼睛掉在厂里了他不戴假发你更不习惯那是什么药呀”[‘二刷’,‘的’,‘朋友’,‘有’,‘吗’,‘我’,‘希望’,……‘他’,’不戴’,‘假发’,你,‘更不’,‘习惯’,‘那是’,‘什么’,‘药’,‘呀’]程序代码word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])[‘二刷’,‘的’,‘朋友’,‘有’,‘吗’,‘我’,‘希望’,……‘他’,’不戴’,‘假发’,你,‘更不’,‘习惯’,‘那是’,‘什么’,‘药’,‘呀’]word0二刷1的2朋友3有4吗......339467那339468是339469什么339470药339471呀程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")wordstopword0二刷NaN1的的2朋友NaN3有有4吗吗.........339467那那339468是是339469什么什么339470药NaN339471呀呀程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]word=word.value_counts()print(word.head(10))程序代码wordstopword0二刷NaN2朋友NaN6希望NaN9重来NaN10这段NaN.........339451案发现场NaN339455眼睛NaN339458厂里NaN339462戴假发NaN339466习惯NaNword=word.query("stopword.isnull()andword.str.len()>1",engine='python')["word"]程序代码importpandasaspdimportjiebadata=pd.read_csv(r"D:\pydata\项目四\某电视剧弹幕信息.csv")stop_word=open(r"D:\pydata\项目四\停用词.txt","r",encoding='utf-8')stop_word=stop_word.read().split()stop_word=pd.DataFrame(stop_word,columns=["stopword"])word=pd.DataFrame(jieba.cut("".join(data.iloc[:,1].astype(str))),columns=["word"])word=pd.merge(word,stop_word,left_on=["word"],right_on=["stopword"],how="left")word=word.query("stopword.isnull()andword.str.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 产科分娩室工作制度
- 乡镇环卫工工作制度
- 传染病治疗工作制度
- 下料队安全工作制度
- 脐部护理的护理模型
- 办公室工作制度规定
- 加油站培训工作制度
- 医保科工作制度范本
- 医院保洁员工作制度
- 医院大小班工作制度
- (正式版)DB37∕T 4863-2025 《数字经济发展评价指标体系》
- QES管理体系审核检查表完整范例
- JGJT341-2014 泡沫混凝土应用技术规程
- 薄膜材料与技术(全套课件)上
- EPC总承包项目采购方案
- 51单片机读写SD卡程序实例完整版
- 人教新课标曹禺和语文教师谈《雷雨》
- 情绪压力管理与阳光心态
- SB/T 10782-2012钟表销售服务规范
- GB/T 17466.24-2017家用和类似用途固定式电气装置的电器附件安装盒和外壳第24部分:住宅保护装置和其他电源功耗电器的外壳的特殊要求
- 安全风险辨识记录
评论
0/150
提交评论