



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 1 7 卷第 3 期 甘肃 科 学 学 报 J o u r n a l o f Ga n s u S c i e n c e s Vo l 1 7 No 3 2 0 0 5 年 9 月S e p 2 0 0 5 基于文本表示的特征项权值确定方法研究 王海涌 2 郑丽英 2 刘丽艳 2 1 光电技术与智能控制教育部重点实验室 兰州交通大学 甘肃 兰州7 3 0 0 0 0 2 兰州交通大学 信息与电气工程学院 甘肃 兰州7 3 0 0 7 0 摘要 文本表示中特征项的权值确定方法决定了文本特征的提取 在很大程度上影响了文本分 类的准确率 通过系统总结常用的几种特征项权值的确定方法 并逐一比较分析和研究 提出了一种 性能较好的确定方法 据位定权函数 经实验验证据位定权函数确实能够有效地提高文本分类的 准确性 关键词 文本分类 特征项 权值确定 中图分类号 T P 3 9 1文献标识码 A文章编号 1 0 0 4 0 3 6 6 2 0 0 5 0 3 0 0 8 6 0 4 Me t h o d s o f F e a t u r e We i g h t i n g A s c e r t a i n me n t B a s e d o n T e x t C a t e g o r i z a t i o n WA N G H a i y o n g z Z H E N G L i y i n g 2 L I U L i y a n l z 1 Ke y L a b o r a t o r y o f O p t o E l e c t r o n i c T e c h n o l o g y a n d I n t e l l i g e n t C o n t r o l L a n z h o u J i a o t o n g U n i v e r s i t y L a n z h o u 7 3 0 0 0 0 C h i n a 2 S c h o o l o f I n f o r m a t i o n c2 t E l e c t r i c a l E n g i n e e r i n g L a n z h o u J i a o t o n g U n i v e r s i t y L a n z h o u 7 3 0 0 7 0 C h i n a A b s t r a c t T h e m e t h o d o f f e a t u r e w e i g h t i n g a s c e r t a i n m e n t i n t e x t c a t e g o r i z i n g d e t e r m i n e s t h e t e x t f e a t u r e p i c k u p s A n d t h e a c c u r a c y o f t e x t c a t e g o r i z i n g o f t e n d e p e n d s o n t h e m e t h o d o f a s c e r t a i n i n g w e i g h t i n g f e a t u r e i n t e x t p i c k u p s S o m e c o m m o n l y u s e d m e t h o d s a r e o u t l i n e d h e r e B y c o mp a r i n g a n a l y z i n g a n d s t u d y i n g t h e m a b e t t e r m e t h o d o f f e a t u r e w e i g h t i n g a s c e r t a i n m e n t i s p r e s e n t e d h e r e T h i s m e t h o d c a n i m p r o v e t h e a c c u r a c y o f t e x t c a t e g o r i z i n g e f f i c i e n t l y w h i c h i s p r o v e d b y e x p e r i m e n t s K e y w o r d s t e x t c a t e g o r i z a t i o n f e a t u r e w e i g h t i n g a s c e r t a i n me n t 文本分类是文本挖掘的一个重要组成部分 在 提高信息检索的速度和准确率方面显得意义重 大 1 1 7 它是有指导的机器学习 即利用预定义的文本 类别和训练文本指导新的测试文本的学习 从而确 定新文本的类别 而文本分类中的特征选择和特征 抽取是用机器学习方法进行文本分类的首要任务和 关键问题 通常文本数据具有有限的结构 甚至大部分没 有结构 而文档的内容是用自 然语言描述 计算机无 法直接理解其语义和进行相应的处理 所以需要对 文本进行特征表示和预处理 抽取代表其特征的元 收稿日期 2 0 0 4 1 2 2 9 基金项目 教育部 春辉计划 2 0 4 5 5 甘肃省科技攻关计划项目 Z G S 0 4 5 兰州交通大学 开放基金资助项目 K 0 4 0 1 0 3 数据 记录文本的特征 将这些特征用结构化的形式 保存 作为文档的中间形式 以便更好地组织文本 如文本的存储 检索 过滤 分类和摘要等 1 文本预处理 文本特征指的是关于文本的元数据 分为描述 性特征 例如文本的名称 日 期 大小 类型等 以及 语义性特征 例如文本的作者 机构 标题 内容等 通常把文本内容数据转换为便于计算机处理的结构 化数据的形式有布尔逻辑型 概率型 向量空间型 等 目 前 在信息处理领域 向量空间模型 V S M 是 3 5 2 0 0 9 光电技术与智能控制教育部重点实验室 第 1 7 卷王海涌等 基于文本表示的特征项权值确定方法研究 应用较多且效果较好的表示方法之一E 2 通常 向量 空间模型 V S M 假设文章中词条出现的顺序是无 关紧要的 它们对于文档的类别所起的作用是相互 独立的 因此可以把文档看成一组正交词条向量所 组成的向量空间 其坐标轴代表不同的特征项的存 在 这个特征词条空间的坐标轴可能是离散值或者 连续值 特征词条空间的维数取决于特征项全集的 基数 而特征项全集定义为被考察的所有样本中的 所有可能特征项的并集 3 对文本进行特征表示和预处理时 首先按照一 定的算法进行分词 我们采用的是基于词表匹配的 分词方法 4 S J 经过分词 文档变成离散的 无序的词 条集合 然后对这样的词集进行下列预处理 1 去除文本中存在的一些没有实在意义但使 用频率很高的虚词和功能词 如 的 是 了 吧 但 是 而且 这 那 等 它们常常把真正有用的词给淹 没 对于这些无用词一般利用停用词表 S t o p l i s t 消除 也可以通过词性标注的方法去除 去除对分类 贡献极小的连词和助词 2 合并文本中的同义词和近义词 处理该问 题的方法直接影响规则表示的繁简程度和约简的效 果 把同义词和近义词合并为相应的概念类 通过概 念标注 并且利用概念信息作为文本特征项比单纯 的词汇信息更能反映文本的内容 可以简化规则的 表示 TF i d 2 反比于样本文本集中出现该特征词的文本 频率D F 这样任意文件d 就可以表示为多维关键词向 量 即每个文档 d都可以映射为向量空间模型 V S M 中的一个特征向量 V d t w d t w d t w d 其中t 为特征词条项 可以是文档d中出现的单词 或短语 w d 为t 在文档d中的权值 一般定义为 t 在文档d中出现频率的T F i d 的函数 即 w d 二 TI T Fi d 2 2 特征词权重函数 目 前 常用的权值计算函数P 有以下几类 1 布尔函数若 T F i d 0 则 AF 0 若 T F i d 1 则T二1 2 平方根函数 少二 了 T F i d 3 对数 函数 少 l o g T F i d 1 4 TF I DF函数 N W L E i d l o g 5 F 2 特征项的权值确定 通过文本的预处理 文档就可以表示为一个词 集 也称为特征项集或属性集 但作为一个有效的文 本内容的特征表示词集 必须具备以下 2 个特征 完全性 特征词能够确实标识文本内容 区分性 特征词将目标文本与其他文本相区分的能力 特征 词是组成文本的基本元素 通常根据词条在文件中 是否出现 出现频率或者其他重要性度量等综合因 素 给其赋予一定的权重 可以提取一定数目的权重 较大的词条作为文本的特征表示 特征词权重综合 反映了该特征词对标识文本内容的贡献度和文本之 间的区分能力 各特征词在不同文本中的出现频率 满足一定的统计规律 因此 可根据特征词的频率特 性来分配特征词权重 2 1 特征词权重分配原则 根据特征表示词集具备的特征 给特征词分配 权重时 一般遵循以下原则 1 正 比于特征词在文本中的出现频率 其中N为所有文档的数目 D F为含有t 的文档数 目 该函数的提出是基于这样一种假设 对区别文档 有意义的词语应该是那些在文档中出现频率足够 高 但在整个文档集合的其他文档中出现频率足够 少的词语 为 使得权值处于区间 0 1 中 通常 对二 作范化处理 则 T F i d l o g 0 0 1 召 N 1 l rl d t o g s n 十 0 0 1 I V岔l一 Ur 5 T F I D F I G函数通常 区分文档的问题 可以被形式化为一个分类问题 进而可以把词语在 文档中权重计算问题转化为词语在以一个文档为一 类的文本分类中的权重计算问题 为此 引人信息论 中信息增益的方法来解决词语在各文档中分布比例 对计算权重的影响 即文档集合看作一个符合某种 概率分布的信息源 依靠训练数据集合的信息墒和 文档中词语的条件墒之间信息量的增益关系 确定 该词语在分本分类中所能提供的信息量 并把其定 义为该词语在文本分类中的权重 公式如下 甘 肃 科 学 学 报2 0 0 5 年第3 期 N L rt d l o g nL 十U U l I 行C 刀 J J 诬 梦 交 二 d Zlo g 2 票 0 0 1 I G z D i t UL 6 相对权重函数设特征词t 的平均频率 TFi d 1 n 一户 1 rl n i1 d 特征词权重计算函数应具 备以下特征 当特征词t 的频率T F i 丽相对平均频率小 时 t 的权重变化相对较小 当特征词t 的频率T F i d 相对平均频率大 时 t 的权重变化相对较小 当特征词 t 的频率T F i d 接近平均频率 时 t 的权重变化相对显著 根据以上特征定义权重计算公式为 等于b 姓名特征的权重评价函数 姓名特征无论出现 在哪一篇文章 都属于重要的信息 对文本的表示具 有很重要的作用 通常中文的姓名特征长度通常都 为3 或4 其长度对姓名的权重贡献不大 因此姓名 特征的权重公式不用考虑D F 所以 对于姓名的权 重评价函数公式只考虑T F 权重评价函数为 P 6 1 一 1 l a XTF 若为姓名特征 在文章正文1 0 0 字内 则b 1 其他情况则b 0 a仍是一个大于 且较小的数 这里取 0 5 假设每个姓名特征的位置标记b 都相 同 则 T F越大 特征词的权重将越大 a r c t a n T F i d 一 F i d 要 乙 V 一 n 7 据位定权函数使用T F I D F来计算特征 词的权重时 忽略了特征词在文本文件中所处的位 置和特征词的长度这两个重要的信息 因此 这种计 算方法计算出的权重并不能准确地反映出特征词在 文章中的重要程度 设计权重函数时 通常要考虑特 征词的位置 为此 设置特征词所处的位置标记b 和 特征词的长度 L及偏移量a 对其进行改进 给出如 下评价函数 一般特征词的权重评价函数为 T二b l 一 1 1 a XTF X r 1 一 李 I X F 1 一 一一ZJ 一一 刀尸 不 下 ZV 3 实验与结果 为了比较各种权值函数的性能 2 0 0 4 年 1 6 月份从 人民日报 上抽取部分短文共计 3 0 0 篇 其 中包括用于测试的1 0 0 篇和按照经济 体育 政治 军事 法律 农业 工业 卫生 交通 文化 1 0 类类别 体系人工标注的2 0 0 篇训练集 实验步骤是 1 给文本及其摘要分配相同序号 2 建立文本集特征词频率矩阵 3 应用 7 种权重计算方法 分别计算特征词 权重矩阵 4 选取最为常用的基于K N N的改进方法 作为分类方法 并采用如下公式 计算文本之间的相 似度 对文本进行归类 其中位置标记b 的取值做如下规定 若该词在标题 副标题中 则 6 2 若为一般特征词 在段首或段 尾 则6 1 a是一个大于 0 且较小的数 这里取 0 0 5 目的是防止当特征词的位置相同 词的频率T F 为1 时 无论 L D F为多少 特征词的权重都相同 习W D W D s i m D D i 1 一 厂 r W D i u一一忑 实验结果如表 1 所示 并根据实验结果 加以衡 量和比较其性能 计算其平均的正确率 平均精 表 I 测试文档 1 0 0 篇 正确分类的文本数 类别经济体育政治军事法律农业工业卫生交通文化 平均精度 OUd通八JJ任叮fo自卜6 冉勺跪勺内2勺J 了Rn6 h咋碑 互口叮口 4亡 月h扣b 亡J6 叮Jtl 月了月了 自2只 六己no 00月1门了Q户 叮口门了OUO口 月矛0口叮口OU 月 Rn八 gU 六子咋J叮 OU 月zt了叮 On 0口六了OUOU 了叮 800 0口0目OJO户 布尔函数 平方根函数 对数函数 TF I DF TF I D F I G 相对函数 据位函数898 8 9 8 9 度 如图1 所示 由实验结果比较分析可知 布尔函数具有权重 大小与频率无关的特性 不能体现特征词的区分性 平方根函数具有权重随频率无限单调上升的趋势 T F I D F函数将频率和文本空间作为变量 权重值 与T F i d 成正比 而与D F 成反比 在一定程度上 第 1 7 卷 王海涌等 基于文本表示的特征项权值确定方法研究 60叨 水 侧犯亥斗 布尔函数 平方根函数对数函数 函 TF I DFTF I DF G 相对权重据位定权 数类别 图1 各种权重计算方法的文本分类平均精度 平均精度 较好地体现了特征词的完全性和区分性 但在T F I D F权重计算方法中 不论特征词t 在文本d 和文 本d 中出现几次 在D F计算中 文本d 和d 文本 对 D F值的贡献都是 1 而经过范化处理的w 则考 虑了这种情况 相对比较合理 从总体效果来看尽管 改进后T F I D F I G函数在进行分类时的召回率和 正确率较T F I D F函数好 但对提高整个文本分类 的精度仍未表现出明显的效果 相对权重函数很好 地体现了特征词的完全性和区分性 据位定权函数 根据特征词在文本文件中所处的位置和特征词的长 度赋予不同的权重 通常位于标题及副标题的特征 词最能表现文本的中心思想 在文内赋予最高的权 重 位于段首及段尾的特征词表达文本中思想的能 力则次之 权重也相应减小 其他特征词的权重最 小 另外 短词具有较高的频率和更多的含义 是面
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纪昌学射教课件
- 校园流行风校园作文8篇范文
- 纪念周恩来课件
- 纪念刘和珍路课件
- 2025年软件设计师考试软件测试用例设计与执行试题
- 七年级收心考数学试卷
- 青海省小考数学试卷
- 纪委书记课件
- 去年沭阳小升初数学试卷
- 2024年天津市烟草专卖局(公司)招聘考试真题
- GB/T 8982-2009医用及航空呼吸用氧
- GB/T 40565.3-2021液压传动连接快换接头第3部分:螺纹连接通用型
- FZ/T 01137-2016纺织品荧光增白剂的测定
- 分镜头脚本设计-课件
- 2020数学花园探秘决赛三四年级A卷
- (精选word)2019《普速铁路线路修理规则》
- 《信念永恒》(朗诵稿)
- 开具生效证明申请书(申请开具生效证明用)
- 瑞吉欧活动-人群课件
- 大学生生命教育与心理危机应对
- 物流公司财务管理制度
评论
0/150
提交评论