数据挖掘文本分类实验报告_第1页
数据挖掘文本分类实验报告_第2页
数据挖掘文本分类实验报告_第3页
数据挖掘文本分类实验报告_第4页
数据挖掘文本分类实验报告_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 北京邮电大学北京邮电大学 学年第学年第 1 1 学期实验报告学期实验报告 课程名称 课程名称 数据仓库与数据挖掘数据仓库与数据挖掘 实验名称 实验名称 文本的分类文本的分类 实验完成人 实验完成人 姓名 姓名 学号 学号 支持向量样本集具有一定的鲁棒性 有些成功的应用中 SVM 方法对核的选取不敏感 4 44 4 性能评估方法性能评估方法 在性能评估中 我们采用的是计算分类器对于不同分类的准确 率和召回率 4 4 14 4 1 准确率准确率 Precision Precision 准确率 指的是在所有被判断为正确的文档中 有多大比例是 确实正确的 例如 我们把文件分类这样四类 精品文档 8欢迎下载 A 系统检测到的相关的文档 B 系统检测到的不相关的文档 C 系统没有检测到的相关的文档 D 系统没有检测到的不相关的文档 那么我们的计算公式为 P AAB 准确率 4 4 24 4 2 召回率召回率 Recall Recall 召回率 指的是在所有确实正确的文档中 有多大比例被我们 判断为正确 例如 我们继续参照上述的例子 那么我们的计算公式为 AAC 召回率R 根据上述的两个公式 我们计算出每一类的准确率和召回率 进行比较 今儿对分类器的分类效果进行评估 5 5 实验过程 实验过程 5 15 1 文本分类语料库的采集文本分类语料库的采集 我们直接使用搜狗语料库的新闻预料 共有十个类别 每个类别取 精品文档 9欢迎下载 2000 篇作为训练集 另取 2000 篇作为测试集 这样我们就获得了 20000 篇的训练集和 20000 篇的测试集 5 25 2 数据预处理数据预处理 5 2 15 2 1 文本格式预处理文本格式预处理 原始的新闻按文件夹划分类别 同一个类别在同一个文件夹下 每篇新闻占一个文件 首先我们把所有文章整理到一个文件中 并 标上类型号 这样便于后期处理 5 2 25 2 2 分词和去停用词处理分词和去停用词处理 对语料库进行分词处理阶段 我们采用中科院研发的汉语分词 软件 NLPIR 我们为了对大量的文本进行分词 在 NLPIR 中又添加了一个批 处理函数 对 NLPIR 进行调用 对大量文本进行分词处理 通过更 改 NLPIR 的参数 我们获取了带有词性标注的大量分词后的文本文 件 然后我们利用模式匹配的方法把所有分名词过滤掉 然后根据 停用词表除去停用词 5 35 3 特征提取和表达特征提取和表达 5 3 15 3 1 特征词提取特征词提取 本次实验我们采用信息增益法进行特征词提取 提取特征词 精品文档 10欢迎下载 1000 个 将分词 取名词 去停用词后的每篇文章统一整理到一篇文本 中 每篇文章作为一行记录出现 这样便于采用信息增益法计算每 个单词的信息增益值 它是一个基于嫡的评价方法 涉及较多的数 学理论和复杂的嫡理论公式 定义为某特征在文档中出现前后的信 息嫡之差 根据训练数据 计算出各个单词的信息增益 删除信息 增益很小的词 其余的按照信息增益从大到小排序 信息增益评估函数被定义为 IG t P t P Ci t log P Ci t P Ci P tn P Ci tn logP Ci t P i 式中 P Ci t 表示文本中出现特征 t 时 文本属于 Ci 类的概 率 P Ci tn 表示文本中不出现单词 t 时 文本属于 Ci 类 的概率 P Ci 表示类别出现的概率 P t 表示 t 在整个文本训练集中出 现的概率 计算完每个单词的信息增益值后 采用堆排序方法选取前 5000 个单词作为特征词 即词典 5 3 25 3 2 建立文本向量建立文本向量 根据提取的特征词采用 TF IDF 法建立文本向量 TF IDF 是一种加权技术 它通过统计的方法来计算和表达某个 精品文档 11欢迎下载 关键词在文本中的重要程度 TF IDF 是由两部分组成 一部分是 TF Token Frequency 表示一个词在文档中出现的次数 即词频 另一部分是 IDF Inverse Document Frequency 表示某个词出现 在多少个文本中 或者解释为有多少个文本包含了这个词 即逆向 文档频率 通常由公式 IDFt log 1 D Dt 其中 D 表示文 档总数 Dt 表示包含关键词 t 的文档数量 根据上述原理 我们把训练集转化为 libsvm 所支持的向量格式 LIBSVM 的训练集格式如下 lable1 index1 featureValue1 index2 featureValue2 index3 featureValue3 lable2 index1 featureValue1 index2 featureValue2 index3 featureValue3 对应到文本分类上就是 类别 ID 特征序号 特征值 TFIDF 值 5 45 4 训练过程训练过程 我们利用 libsvm 提供的 grid py 工具对训练集进行参数寻优 并得 到参数 c 128 0 g 3 0517578125e 05 然后利用这组参数对训 精品文档 12欢迎下载 练集进行训练 得到模型文件 5 55 5 测试过程测试过程 我们对测试集进行同样的分词与去停用词等操作 然后根据训 练得到的模型文件 对其进行预测 然后 分析预测输出文件和初 始的测试文件 得到相关统计数据 5 65 6 实验结果和性能评估实验结果和性能评估 训练集 20000 篇 测试集 20000 篇 特征提取后字典大小 1000 词 训练时间 92 7s 测试时间 80s 平均准确率 83 具体准确率与召回率如图 5 1 所示 精品文档 13欢迎下载 军事文化教育经济女性体育汽车娱乐军事IT 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 准确率 召回率 图 5 1 预测结果准确率与召回率 预测结果混淆矩阵如图 5 2 所示 军事文化教育经济女性体育汽车娱乐军事 IT 军事 0352185000182411 文化 440192338365694518 教育 2333016253323836 经济 11160202433 女性 48564420033162818 体育 345517401970 汽车 28141571021017 娱乐 17701722927019 军事 26681915616225013 IT173870152012337120 精品文档 14欢迎下载 6 6 实验总结实验总结 通过这次实验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论