数据挖掘课程实验最终报告_第1页
数据挖掘课程实验最终报告_第2页
数据挖掘课程实验最终报告_第3页
数据挖掘课程实验最终报告_第4页
数据挖掘课程实验最终报告_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘课程实验最终报告王丹 杨亮朱鹏飞文本分类和主题提取实验内容简介:文本分为10 个类别, 每个类别有200 篇文章,每篇文章大概3000 字,属于长文本分类,对于每个类别,提取其中的主题内容。一、预处理阶段首先需要对文本进行预处理,1) 去掉不相关的header, footer 以及其他注释信息2)去除文本分行标志的 “rn,合并为一个段落3)将处理好的文件放到新的目录下,目录结构和之前的结构相同。二分词对上一步进行预处理的文本进行分词,分词后放到新的目录下,目录结构仍然保持和之前的目录结构一致。三对预处理的文本进行打包本次步骤主要是实现一个训练用语料数据结构,为做计算tf-idf 向量

2、空间模型做准备1 首先定义训练集的数据结构定义训练集对象:data_set使用 python 的 bunch 类提供一种key,value 的对象形式Target_name:所有分类集名称列表Label: 每个语篇定义分类标签列表Filenames:分词后语篇路径Contents:分词后语篇内容2 从分词语料库中将所需信息读入训练集的数据结构中3 将训练集持久化为一个数据对象文件4 读出数据对象文件,验证持久化的正确性。四对打包后的数据计算tf-idf 权重,并持久化词包文件1 导入训练集2 从文件导入停用词表,并转换为list3 创建词袋数据结构,并配置停用词表4 统计每个词语的tf-idf

3、 权值。使用 Tdidfvectorizer 计算 tf-idf 权值。五对测试集进行分类1 确定测试语料:对测试语料进行预处理2 对测试语料进行分词3 导入测试语料:随机选取测试语料类别并记录4 导入训练词袋模型含vocabulary5 计算测试语料的tf-idf 权值,让两个tfidfvectorizer 共享一个vocabulary6 应用分类算法7 预测和输出分类结果8 计算分类精度KNN 算法分类KNN 算法原理:通过训练好模型,当有新的文章来时,统计它周围k 个类别的文章的类型,距离采用的是计算tf-idf 矩阵间的距离,由于每篇文章是平等的,由于每类文章的数量基本是一致的,所以不

4、存在有权重大小问题。中三总料件改处理J典功,Buildng pre-Fix dietFrom 七h色 default dictionary .Loading model From e ache c : usar-spH/angdanappdaralocal t emp jieba .cacheLoading model cost 0.300 seconds.Pre-Fix diet Kas beenbuilt succes-Ful Ly 中文活料分同成功完成(95工 42713)(5S 427Z3)锄试语料文件名7412.txt买际奖别:education 葩测类刷:education测试治料

5、文件名7426.七父七实际类别:educa-tion y - 于典恻类别:education洲试洽料文件名744.xt实际类另U :educat ion 西河类别:education例试谙料文件名745-4 . txt实际类别:eduea-tion 予向批|患别:education洌试洁格文件名7468 TtX次际第另U : education 予网泗1落殖:educarion洌试语料文件名7482.txt实际那另J : education 予用炳奘是1: education初试语料文件定7496.txt实际非另U : education 予真海1类界1 : education洌试语料文件/7

6、51.txt女R示英另!” education v * - 予页筏 1荧;界J : education测状漕料文件自7524.txt实际灯对:education - 芋更则尖别:computer测试法科文号上7538 *txt实的、表另J ; education 陵喇类别: eduction刑试清科文件也7S52.txt实际类别; education v - - 芋其恻央别; ed uca t ion测试华科文件生7566 *tx-t实际类别: education 工虹轴J类别: education测试活料文件有7580 .七?ct实际希利: education ( - -雨恻武利: educ

7、a-t ion测试治科京件事759-4 .txt客际炎.别; education 两测黄刷: educaion沙HR-精平F:工1牛事760S .txt实际爽别: education 于口涮告一刷: ed u g a ion冽祓语科文件名7622-txt实际.正另J : education 掰测类划:education测试漕州文眸冉7636.txt实.、邦jJ : education w - 于奥斗则尖制J : education则或*科文件名765G.txt实p;美另J : education (- 芋更刷生城J : education测试卷科文件也7664 4七乂七实际央另 J : edu

8、cation 芋贝恻生别: en t ea i nrnen t刎试-需料文件也7S78.七乂七实际去另:J ;educat ion 4-芋员测类制;ed u c at ion测试清料文件名7692 -tx-t实际类别: education 予国刷柒副: ed u c a-t ion测试语料文件将7706 .七其七实际奏利; educaion 璃利奘利二 health测试请料京小当7 72曰.txt实际炎别;education 演涮次刷: ed u c a ion测祓诵福文何容773-4 .txt实际先别:education 掰恻次则:education测忒席*4戍J牛-占: 测录语谆斗文件名:

9、 曲|叭七百mm4君; 测试语界斗女”牛老: ;则试:用“4文1牛名: $则试旧岁文件名: 瓠!I试语料文1牛名: 测试话卡女料也: /!H武1g单斗立伸包: 则试舌*斗中4牛名; 领4的言华斗F?件名: 词”忒,/*4*4牛.名: 手则谓1吉辛斗文4牛名T 领!I试谙料文4牛在: 期!(诒H吉米斗丈件名: r则试谙寄4立4牛乜: 加试诸科曲?件*t 洌试话橱文!牛名: aIW晤*斗灾仲七: r则1式LS1料f 二甲F塾: 测词;语料文件名: 领,试七香料文3牛名; 押仃式后*4。件餐: 研试书审支付一再: 押状式温津斗京4牛钙: 4试舌米斗中4牛名; 派I试i六芈斗/邛卜林: 物!I试请牛斗

10、文件 名: 工则试诘f斗斗NH牛名: 结果计笠I吉反:a .居之a7SJ.B .七 x七 7B32.七乂七 7B4& * tx 予日6日.七X七 ?0 了3.EM 七 78SS ,七X七 794之.七xt 70上百.七/七 vae . txt 73,4.七乂七 VSSS .七X七 7 9 7 N . txt 了9三百.七*七 与臼。曰-txt 曰。.七乂七 5428,七Xt 3I3QN .七乂七 60SG.tXt ae7e + -t x .七乂/ Bomg.tx aaa2 +七*七 B26.七x七 si-ae . tzx-t S3.54 * t xx saea. tx-t B J. S2 .七

11、 *七 W2L9& i txt ssie.七x七= : 实际蜒别: : 安旧,共创: : 实际类别: : 实际蜒刷: :H府K刷: : 实际共现: J 乐酥小副: :女(5手娄后“: 宾标共现: S 实际声利: : 实际丧孰; : 实际典制: : 实际/别S :H际/: : 美特当制: *实际差别: : 桀/f生%U : : 安町兴初J : : 实际稣刷i = 实际*BU : 云麻美制; : 亚际共刷: I 沃际差制: 1 芋q际变斜U : 安际再刷: 二 次怀旌U : : 实际共制: : 实际杵别:曰Juc=小七工0 n aduu七on eclucation - due at ion edu

12、caCion 一du e 0七里qe education ad u c at ion educatin Qduuw-tQndu c fl-tz ion 白 cJu 亡 a t cjrr cid u c 国七工on sducaXxon 七!ducz is 1z ion 鼻due 日t ion 白 duu a-t Aon ducation eciucation mdue箱七支on d u c aCion Eciuf理七五QD 0d u c ei 1: xon adu c ant ion du c a%iond u c ax xon du c t ion gcJuu ijt cjn cd w c。七

13、五on -初兴寓uA西国类别 -A予而领l关川” -A而测类别 A手h恻典别 -A和1删夷剂一 -A子5K则类另可 予丽网线别 C - L ATE押!1 为用” -A中币的H支兄U 千贝翎H冷堆另U ee河*班另力 -A予西沙类另U A子口!翎响类另“ -A f由孑则独势U 予反派*类:另寸 -A予E初/类男(J -A?西则类现 -ate训*翼兄, 下卬叫英河日 A于氏#则共月,: -:*于质电调美导U ; -A蒋MW注兄U : 予丽网差别: -A干E吊咽*国| : -A予声3叫一兄U ; A予再与PM旌5U : 步8初*娈另M t -A王贡网类兄”: du匚4七zLqg c omp u-e

14、or* ecducation du 七七 zt 口 ri aducaxon n七日 r*七里gef n* educaxion acJuz ion =D uu m 1土on cJ UC 3七土 Utn 白 duu a -t d-cmuuuu uDdclcldi i ii-T_on00uu ax on 户 l - o nr3.du右事七二on 苴du亡 at iorr cd lj c: nt ion朴素贝叶斯分类:txt实际类别L txt实际类另九 txt实际类另小 tKt实际类别; txt实际类别|; txt实际类另ij, txt实际类别. txt实际类另九 txt实际类另九 txt实际类别J:

15、 txt实际类男小 txt实际典另( txt实际类另lb txt实陆类别I, txt禽B示类另人 txt实际类别: txt实际类别; txt实F示类另八 txt实际类别,educ aiiion education ente 广七ai nm2n七 education educ ation educ action educ atrion educ ation educ ation educ ation personnel education education educ ation education personnel educ aion education automobile测试语料文件名.

16、7558 涧试语料文件名:7972 测试诘料文件名:7986 测试语料文件名;800 测试谙料文竹名:8014 测试语料文吊牛名,S02S 测试语料文件名,8042 ,则试i吾料文辛信=S056 测试洁料文件名:8070 测试语料文件名:8084 测试语料文件名 8998 观I试i吾步斗文d牛名,S112 秘H式i音料文件名,8126 测试语料文作名,S140 测试语料戈?(牛名:S154 测试话科文件名:8168 测试语料文件名:S1S2 ,测试T吾杂交十名:8196 测试语料文件名,S210 结果计算精度:以759六主题提取1导入语料集2从文件导入停用词表3从文件导入数据包edu cat

17、ion 预期! education就利H类另1I: education预领(|类另h education预领!I类另九 education 预领U: education 预播!I类另L educat ion预力!|类另h educat ion 预领(j类别I: education予页刈类的I: education 预领(I类别I: education 预视I类另!I; education预冽类别, education预现|类另八 education预测类别, educat ion预制类别: education 预/!|美另八 education预领!|类别: education预、测类另!h

18、education同值则类另4统计每个类别中tf-idf排名靠前的几个词语,可以大概了解该类文本的主题。ft 10 种类另i autom。bileJ1 computer * education , * entertainment1,topic automobile汽车投标拥车证新车车子价格人数新加坡购买成价如果万元认为本地可以驾驶公司跑车下趺人们topic computer病毒手机公司微软电脑用户软件黑客中国游戏市场网络服务可以3g技术推出视窗使用系统topic education考试学生考生记者专业毕业生高考招生人才一个企业北京公司工作学校录取今年一些增加自己topic entertainment电影一个观众我们音乐演出他们导演自己专辑没有这个中国就是这部记者觉得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论