文本特征提取技术学习教案_第1页
文本特征提取技术学习教案_第2页
文本特征提取技术学习教案_第3页
文本特征提取技术学习教案_第4页
文本特征提取技术学习教案_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1文本文本(wnbn)特征提取技术特征提取技术第一页,共57页。2022-6-21第2页/共57页第二页,共57页。2022-6-21第3页/共57页第三页,共57页。2022-6-21第4页/共57页第四页,共57页。2022-6-21特征词特征词1特征词特征词2特征词特征词3特征词特征词n文档文档1权重11权重12权重13权重1n文档文档2权重21权重22权重23权重2n文档文档3权重31权重32权重33权重3n文档文档4权重41权重42权重43权重4n文档文档m权重m1权重m2权重m3权重mn第5页/共57页第五页,共57页。2022-6-21第6页/共57页第六页,共57页。20

2、22-6-21第7页/共57页第七页,共57页。2022-6-21计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息(xnx)。n比较之下,使用词做特征成为一种更好的选择。词是中文语义的最小信息(xnx)单位,词可以更好的反映句子中的信息(xnx),但是分析难度也提升了。以中文文本为例,词与词之间没有明确的分隔标记,计算机无法自动识别词语的边界,因此正确分词是这种表示方法的关键。该方法比较常用。第8页/共57页第八页,共57页。2022-6-21第9页/共57页第九页,共57页。2022-6-21第10页/共57页第十页,共57页。2022-6-21第11页/共

3、57页第十一页,共57页。2022-6-21第12页/共57页第十二页,共57页。2022-6-21第13页/共57页第十三页,共57页。2022-6-21词语词语词频(词频(TFTF)文档频率文档频率(DF )(DF )文档逆频率文档逆频率(IDF)(IDF)权重(权重(TFTF* *IDFIDF)粒子粒子0.05509000.063和和0.359009000应用应用0.154509000.045但是如果(rgu)只关注词频 ,“应用”一词的权重更高。这时候,可以利用IDF的计算公式进行权重的处理,计算三个词的文档频率和文档逆频率,假设50篇文章中出现了“粒子”一词,450篇文章中出现了“应

4、用”一词,900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下:第14页/共57页第十四页,共57页。2022-6-21( ) ( )ddL w G w N( )dL w( )G wdN第15页/共57页第十五页,共57页。2022-6-21第16页/共57页第十六页,共57页。2022-6-21第17页/共57页第十七页,共57页。2022-6-21第18页/共57页第十八页,共57页。2022-6-21第19页/共57页第十九页,共57页。文档频率(pnl)2022-6-21第20页/共57页第二十页,共57页。2022-6-21n类效果没有变差的前提下将特征空

5、间的维数约减为原来的1/10是可能的,约减为1/100所带来的损失很小。第21页/共57页第二十一页,共57页。2022-6-2121(MiiiEntropy(C)= -p C )log p(C )12(),(),()iP CP CP CM12,iC CC第22页/共57页第二十二页,共57页。2022-6-21t(| )iP Ct21| )| )MiiiEntropy(t)= -p(C t log (C t第23页/共57页第二十三页,共57页。2022-6-21第24页/共57页第二十四页,共57页。2022-6-211111111logloglogMMmjmjmjmjjjmjmjjmmm

6、jmjmjmjMjjmjmjmmjmjmjmjPUPUPUPPIGIIIPQPQVUUUIUVUV 111()log ()()(|)log (|)()(|)log (|)MMMjmmjmjmjjmjmjmmmIGp Cp Cp Tp CTp CTp Tp CTp CT 第25页/共57页第二十五页,共57页。2022-6-21己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。第26页/共57页第二十六页,共57页。2022-6-21第27页/共57页第二十七页,共57页。2022-6-21那么(n me)偏差为:第28页/共57页第二十八页,共57页。2022-6-21

7、第29页/共57页第二十九页,共57页。2022-6-21第30页/共57页第三十页,共57页。2022-6-21第31页/共57页第三十一页,共57页。2022-6-21第32页/共57页第三十二页,共57页。2022-6-21log(|)log()mjjmjMIp TCp T(&)*loglog()* ()()*()jmmjmjjmmjmjmjmjp TCPIMIp Tp CPUPQ第33页/共57页第三十三页,共57页。2022-6-21第34页/共57页第三十四页,共57页。设A是n阶方阵,如果数 和n维非零列向量 ,使: 成立,则称数 为方阵A的一个特征值,非零列向量 称为(chn

8、wi)A的对应于特征值 的特征向量(或称为(chn wi)A的属于特征值 的特征 向量)。A第35页/共57页第三十五页,共57页。具体步骤为具体步骤为 将特征向量正交化;3.再将特征向量单位化.4.;0. 2特征向量求出由AxAIi:. 1的特征值求A;,21m阶方阵为mmA第36页/共57页第三十六页,共57页。这样共可得到(d do)m个两两正交的单位特征向量有m21AQQ1AQQTmQ,21m,215. 以 为列向量构成正交矩阵m,21第37页/共57页第三十七页,共57页。由可得TQQA其中Q的列为矩阵A的单位正交特征向量, 仍表示(biosh)对角矩阵,其中对角线上的值为A的特征值

9、,按从大到小排列。最后,QT=Q-1,因为正交矩阵的逆等于其转置。 AQQAQQT1第38页/共57页第三十八页,共57页。奇异(qy)值分解SVDAVU=S1212r12rr(vvv )=uuuAddd骣琪琪琪琪琪琪桫()第39页/共57页第三十九页,共57页。 对于 ,方程两边同乘 ,可以得到 , 由于V是标准正交基构成的矩阵(j zhn),有 , 因此可得: 1V-1TVV-=TAU V=S U,V求解? 由 ,可以得到(d do): 而 为对称非负定矩阵, 为对角矩阵,可以得到(d do) 为 的特征向量构成的矩阵 。 TU UI=TA ATS SVTA ATTTTTTA AVU U

10、VVV=SS=S SAVU= S-1AU V=S第40页/共57页第四十页,共57页。低阶近似(jn s)和F-范数2022-6-21Xnpmin( , )kn pXTXUDVTnU UITpV VI120Kddd, rk2( )1arg minrTkkkX M rkFd u vXX第41页/共57页第四十一页,共57页。2022-6-21第42页/共57页第四十二页,共57页。2022-6-21而词语又要放到文本中去理解,体现了一种“词语-文档”之间的双重概率关系。ijXx第43页/共57页第四十三页,共57页。2022-6-21第44页/共57页第四十四页,共57页。2022-6-21第4

11、5页/共57页第四十五页,共57页。2022-6-21第46页/共57页第四十六页,共57页。2022-6-2111/kKiidd12diag( ,)Kd dd1210kkddddkk第47页/共57页第四十七页,共57页。2022-6-21第48页/共57页第四十八页,共57页。2022-6-21编号编号 文本文本Doc1 我们学习了探索性数据分析课程。我们学习了探索性数据分析课程。Doc2 数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析。是指用适当的统计分析方法对收集来的大量数据进行分析。Doc3 数据分析数据分析:一般要分析的目标比较明确,分析条件也比较清楚。一般要分

12、析的目标比较明确,分析条件也比较清楚。Doc4 数据分析可帮助人们作出判断,以便采取适当行动。数据分析可帮助人们作出判断,以便采取适当行动。Doc5 数据数据挖掘一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。挖掘一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。Doc6 数据挖掘:目标不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的数据挖掘:目标不是很清晰,要依靠挖掘算法来找出隐藏在大量数据中的规则、模式、规律等。规则、模式、规律等。第49页/共57页第四十九页,共57页。2022-6-21词词 汇汇Doc1Doc2Doc3Doc4Doc5Doc6方方 法法010000分分

13、析析132100目目 标标000001判判 断断000100数数 据据021112算算 法法000011挖挖 掘掘000012隐隐 藏藏000010第50页/共57页第五十页,共57页。2022-6-21然希望在检索(jin su)“分析”时,那些关于“挖掘”的文本也都出现在检索(jin su)结果中。大家知道,LSI可以比较有效的解决同义词和多义词的问题,因为LSI是把词汇和文本通过数学方法投影到相同的潜在语义空间中,在此空间中,可以实现语义近的词汇或文本距离更相近,反之亦然。比如:同义词虽然“形态”不同,但是在此空间距离会很近。第51页/共57页第五十一页,共57页。2022-6-2101

14、.3141.0421.0081.0000.1640.053S第52页/共57页第五十二页,共57页。2022-6-212 0.0005774922 -0.01316745 0.0571240291 -0.91485437 0.0123166860 -0.04285698 1.134 0.0278763468 -0.37440250 1.042 0.6286726838 0.14069542 0.7749699200 -0.03254161A 0.04346247 -0.87783200 0.01138523 -0.20584180 0.58963109 -0.03122471 0.021209

15、55 -0.35925116 0.16137177 -0.18940777 0.53397641 0.05188852 0.33151678 0.01451047 0.47832174 0.13500175T第53页/共57页第五十三页,共57页。2022-6-21词词 汇汇Doc1Doc2Doc3Doc4Doc5Doc6方方 法法0.0120.8400.0400.344-0.0930.074分分 析析0.0030.1970.0090.081-0.0210.019目目 标标0.0010.0740.0110.0340.4830.602判判 断断0.0050.3440.0160.141-0.0350.034数数 据据0.0030.1930.0110.0800.1060.171算算 法法0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论