基于主题的情感分析_第1页
基于主题的情感分析_第2页
基于主题的情感分析_第3页
基于主题的情感分析_第4页
基于主题的情感分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TAIYUANUNIVERSITYOFTECHNOLOGY实验报告课程名称:数据挖掘课设实验名称:基于主题的文本情感分析实验地点:行远楼专业班级:软件1533学号:2015005677学生姓名:咼聪江指导教师:王莉2017年1月1日课题代码:importpandasaspdimportjiebafromsklearn.feature_extraction.textimportCountVectorizerfromsklearn.feature_extraction.textimportTfidfTransformerfromjiebaimportanalyseimportjieba.possegaspsegfromsklearnimportfeature_extractiondf=pd.read_csv('/home/jiangshen/Downloads/''数据挖掘_大数据/数据挖掘程序题/基于主题的文本情感分析/train.csv') 整理情感语料zongGeShu=len(df.values)qingGanCi_Train={}foriinrange(0,zongGeShu):valueMin001=str(df.values[i][4])keyMin001=str(df.values[i][3])preValue=valueMinOO1.split( sep=';')preKey=keyMinOO1.split(sep=';')delpreKey[-1]delpreValue[-1]forkinrange(0,len(preKey)):dictionary=dict(zip(preKey,preValue))qingGanCi_Train=dict(qingGanCi_Train,**dictionary)#print(dictionary)print(qingGanCi_Train)df=pd.read_csv('/home/jiangshen/Downloads/''数据挖掘_大数据/数据挖掘程序题/基于主题的文本情感分析/train.csv')zongGeShu=len(df.values)#print(list(df.values[1][4]))defquchuqingganci(str1):stopWord=';'yuQieCi=list(str1)xiangYao=[]forjinrange(0,len(yuQieCi)):ifyuQieCi[j]匸stopWord:xiangYao.append(yuQieCi[j])returnxiangYaodefquChuShuXing(str2):#stopWord=';'yuQie=list(st⑵print(quchuqingganci(df.values[1][3]))foriinrange(0,len(df.values)):print(ganqingci)print(df.values)defciXingPanDuan(word):good=listbad=listifword in good:return1ifword in bad:return-1else:return0 用TF-idf提取关键词wordsList=df.values[9998][1]vectorizer=CountVectorizer()transformer=TfidfTransformer()tfidf=transformer.fit_transform(vectorizer.fit_transform(wordsList))#word=vectorizer.get_feature_names()#weight=tfidf.toarray()#print(word)#yuanzhuti=df.values[1][2]#data='我爱你于是标有了光,水果,西瓜,哈哈,我爱水果,和橘都属于芸香科柑橘属的宽皮柑橘类,果实外皮肥厚,内藏瓤瓣#,由汁泡和种子构成。李时珍在《本草纲目•果部》中记载:“橘实小,其瓣味微醋(即酸),其皮薄而红,味辛而苦;柑大于橘,其瓣味酢'\',其皮稍厚而黄,叶辛而甘。”一般说来,柑的果形正圆,黄赤色,皮紧纹细不易剥,多汁甘香;橘的果形扁圆,'\'红或黄色,皮薄而光滑易剥,味微甘酸。柑和橘虽有区别,但在日常语言中常混用,如广柑也说广橘,蜜橘也说蜜柑'\'。橘子中的维生素A还能够增强人体在黑暗环境中的视力和治疗夜盲症。橘子不宜食用过量,吃太多会患有胡萝卜素'\'血症,皮肤呈深黄色,如同黄疸一般。若因吃太多橘子造成手掌变黄,只要停吃一段时间,就能让肤色渐渐恢复正常'\'。明代张岱季叔张烨芳对橘子情有独钟,据载其“性好啖橘,橘熟,堆砌床案间,无非橘者,自刊不给,' 关键词提取 <><><><>——keyWordsList=[]dataList=df.values[6][1]keyWord2=analyse.textrank(dataList, topK=10,allowPOS=('n','v'),withFlag=True,withWeight=True)foriinrange(0,zongGeShu):eachKeyWord=[]dataList=df.values[i][1]keyWord2=analyse.textrank(dataList, topK=5,allowPOS=('n','v'),withFlag=False,withWeight=True)midList=list(keyWord2)forjinrange(0,len(midList)):ifmidList[j][1]<1andmidList[j][1]>0.6:eachKeyWord.append(midList[j][0])keyWordsList.append(eachKeyWord)foriinrange(0,zongGeShu):iflen(keyWordsList[i])== 0:keyWordsList[i]=['']print('各个行的关键词: 》')print(keyWordsList)

情感词提取和分析allGanQingCi=[]allGanqingShuXing=[]foriinrange(0,zongGeShu):dataList=df.values[i][1]eachldWord=[]eachIdganqingci=[]ciDeShuXing=[]eachIdWord=jieba」cut(dataList)forjinrange(0,len(eachIdWord)):if(eachIdWord[j]inqingGanCi_Train.keys())and(eachIdWord[j]notineachIdganqingci):eachIdganqingci.append(eachldWord[j])ciDeShuXing.append(qingGanCi_Train[eachIdWord[j]])allGanQingCi.append(eachldganqingci)allGanqingShuXing.append(ciDeShuXing)print('各个行的感情词>')print(allGanQingCi)print(allGanQingCi)>')print(allGanqingShuXing)#测试生成结果 》okNum=0foriinrange(0,zongGeShu):keyWordstr=:'.join(keyWordsList[i])print(keyWordstr)ifkeyWordstr==df.values[i][2]:okNum+=1roat=float(okNum/10000)print('总的正确率是:',roat)#每一行的主题词:zhuTiend=[]forjinrange(0,zongGeShu):eachZhuTiend=[]eachZhuTi=str(df.values[j][2]).split(sep=';')iflen(eachZhuTi)==0:zhuTiend.append([])else:foriinrange(0,len(eachZhuTi)):if(eachZhuTi[i]!='NULL'):eachZhuTiend.append(eachZhuTi[i])print(zhuTiend)okNum=0foriinrange(0,zongGeShu):ifzhuTiend[i]==keyWordsList[i]:okNum+=1roat=float(okNum/10000)print('总的正确率是:',roat)# >>>将生成的数据生成CSV文件#keyWordList=[]#listLen=len(dataList)#foriinrange(0,listLen):#keyWord=analyse.extract_tags(dataList)#stop_key=pd.read_csv('/home/jiangshen/'#'PycharmProjects/DMshiyan/qingganfenxi/基于主题的文本情感分析/tingyongci')#print(stop_key)#print(keyWord[0],keyWord[1])#print(dataList)#print(yuanzhuti)#print((keyWord))#print(keyWord2)#print(keyWord2[2][1])#print(df.values[0])print(df.values[0][4])print(df.values[9999][4][2])课题截图:yihao.「不好用(:'4;■慢■:■rr1差‘:f「一段歐:©「不行了寸0」严重Buildingprefixdietfromithedefaultdictionary…Loadingmotklf「o皿cache/tnp/jieba^cache;Loadingnodelcost0.897seconds.+Prefixdiethasbeenbuiltsuccesfully.TOC\o"1-5"\h\zJ各个仟的关镯词: 1[inL[,rL['小毛病s‘才用s‘手机\ [Mjf【

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论