



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、贝叶斯分类器、朴素贝叶斯分类器原理目标:计算P(Cj|t).注:t是一个多维的文本向量分析:由于数据t是一个新的数据,P(g|t)无法在训练数据集中统计出来.因此需要转换.根据概率论中的贝叶斯定理将P(Cj|t)的计算转换为:其中,P(Cj)表示类Cj在整个数据空间中的出现概率,可以在训练集中统计出来(即用Cj在训练数据集中出现的频率F(Cj)来作为概率P(Cj)。但P(t|Cj)和P(t)仍然不能统计出来。首先,对于P(t|Cj),它表示在类Cj中出现数据t的概率。根据“属性独立性假设”:即对于属于类 g 的所有数据,它们个各属性出现某个值的概率是相互独立的。如,判断一个干部是否是“好干部”
2、(分类)时,其属性“生活作风=好”的概率(P(生活作风=好|好干部)与“工作态度=好”的概率(P(工作态度=好I好干部)是独立的,没有潜在的相互关联。换句t目兑,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关.我们知道这并不能反映真实的情况,因而说是一种“假设”。使用该假设来分类的方法称为“朴素贝叶斯分类”.根据上述假设,类Cj中出现数据t的概率等于其中出现t中各属性值的概率的乘积。即:P(t|Cj)P(tk|Cj)(2)k其中,tk是数据t的第k个属性值。其次对于公式(1)中的P,即数据t在整个数据空间中出现的概率,等于它在各分类P(A|B)P(B|A)P(A)P(B)P(Cj|t)
3、P(t|Cj)P(Cj)Pt)P(t)P(t|Cj)(3)其中,各P(t|Cj)的计算就采用公式(2)。这样,将(2)代入(1),并综合公式(3)后,我们得到P(t|Cj)P(tk|Cj)k公式(4)就是我们最终用于判断数据t分类的方法。其依赖的条件是:从训练数据中统计出P(tk|CjDP(Cj)。当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果.改进的P(t|Cj)的计算方法:摒弃t(ti,t2,t3,)中分量相互独立的假设,ULUL明山余门似帘口正乂M M设下何来&Z Z式可知/2,,认JE)=E(A%蓝=P(B)一P(小出
4、)P(&L44)P(月Ma?4z.XM-XM-A产J J12月金,4八441r441r3*八一X XP(tl,t2,t3,|Cj)=P(ti|Cj)文P(t2|ti,Cj)*P(t3|ti,t2Cj)注意:P(t3Iti,t2,Cj)P(t1,t2,t3,Cj)中出现概率的总和,即:P(Cj|t)P6Cj)P(Cj)苴中.P(t|Cj)”(4)P(t1,t2)P(t1,t2,t3|Cj)*P(Cj)P(t1,t2|Cj)*P(Cj)P(t1,t2,t3|Cj)P(t1,t2|Cj)此结果的含义是在某类Cj中在t1、t2后t1、t2、t3 出现的概率主要思想:在大规模的语料(或整个门户网
5、站的分类结果中)上寻找支持度和置信度均大于其各自的阈值的频繁项集(关键词组),从而进一步去确定这些频繁项集(关键词组)的概率,对于小于阈值的项集中的关键字认为则认为是相互独立的。注:分析的结果中的每个频繁项集中的关键词不宜太多(这个可以通过阈值来限制);分析的结果在一定时间内是比较稳定的而且是收敛的;分析结果可以形成多个“相关性词袋”。相关性词袋比近义词词袋更接近人的思维也更接近客观实际同时不依赖于人的主观思维和大量的标注劳动,如:姚明,篮球不同属于一个近义词词袋,但很有可能在同一个相关性词袋.克服了人标注的不完备性。二、文本分类的具体方法文本分类中,数据是指代表一篇文本的一个向量。向量的各维
6、代表一个关键字的权重。注意:权重可以通过TF/IDF方法来确定训练文本中,每个数据还附带一个文本的分类编码。对此我们有两个方面的工作:(1)分类器学习:即从训练数据集中统计P(tk|Cj)和P(Cj),并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象.(2)分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并输出到一个文件中.但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找P(tk|Cj)时会遇到麻烦:新数据的tk值可能在训练数据中从未出现过.这个问题的另一方面是:训练数据中各属性(分
7、别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况.这样,P(tk|CJ太多、太分散,没有统计上的意义。这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(00。1),(0.10.2),,(0。91),各段分别编号为0,1,9。一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。另一种方法同样进行分段,但分段后计算各段的平均彳1作为各段的标准值.根据具体数据相应属性的值与各分段标准值的接近程度,重新设置数据该属性
8、的值。如对第k个属性,将其值域分为(00.1),(0。10.2),,(0.9-1),假设(0.10.2)的平均值为0。15,(0。20。3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0。22更接近,应该重设为0.22。这就是我们要采用的方法。下一个问题是,以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k,将数据按k属性的值排序,然后按N/M个进行等分,计算各值域分段中的标准值.Vk其中,m表示一个分
9、段,|m|表示第k个属性值在该段内的数据的总数。每段内的数据的相应属性重设为该段的平均值。分段的工作在在训练阶段进行。必须保留分段的结果:即各属性的各分段值域的标准值在训练阶段,将所有训练数据白属性值替换为标准值后,再进行统计.而在识别阶段,将待识别数据的属性值同样替换为标准值后,再进行识别三、对象模型根据我们要进行工作,其中包含:数据(项),数据集,属性,属性值,属性标准值,分类概率,分类属性概率等名词。从实现上考虑:(1)训练中的数据分段:根据数据的k属性值,对所有数据进行排序。按数据个数均分的原则进行分段,并计算k属性在各段的标准值,该值需要保留.假设我们有数据项对象(CDataltem
10、)和数据集对象(CDataSet),显然数据集对象负责该项工作.即,CDataSet中应该包含一个方法:Segment(k,m)。其中k表示对第k个属性,m表示总共分为m个段。该方法产生的各段标准值也需要保留。由于这些标准值是针对各个属性的,因此应该定义一个属性对象来存储这些值。即需要一个CAttribute对象。此外,分段时需要的排序可以使用C+标准库中的sort模板函数来实现。(2)根据属性值域分段的标准值,更新数据项的属性值:对一个数据的第k个属性,使用其属性值在K属性对象(CAttribute的一个对象)中查找它最接近的标准值,并用以替换原值.查找标准值的方法可以分配给CAttribute对象:即需要一个Search方法,返回找到的标准彳1(如果分段多,需要使用二分法查找以提高效率。可以利用C+标准库中的相应模板函数实现)。(5)(3)分类器本身应该作为一个类,即CBayesClassfier.其中应该包含Train(dataset)和Recognize(data)两个方法。前者用以根据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度黄冈市法院系统招聘雇员制审判辅助人员职业技能测试备考练习题库及答案解析
- 2025年包装印刷用环保再生纸板行业研究报告及未来行业发展趋势预测
- 2025年宠物梳子行业研究报告及未来行业发展趋势预测
- 2025年afc机行业研究报告及未来行业发展趋势预测
- 卡尔多炉工突发故障应对考核试卷及答案
- 2025年2,6-二氟苯甲酰胺行业研究报告及未来行业发展趋势预测
- 保护昆虫宣传画课件
- 温差电器件制造工成本控制考核试卷及答案
- 2025年防腐涂层行业研究报告及未来行业发展趋势预测
- 2025年产城融合行业研究报告及未来行业发展趋势预测
- 2025年部编版新教材语文小学一年级上册教学计划(含进度表)
- T/CECS 10214-2022钢面镁质复合风管
- DL∕T 5776-2018 水平定向钻敷设电力管线技术规定
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
- 物料分类账详解
- 康复护理学-康复评定认知功能评定
- 泰来2井三级井喷事故分解析
- 船舶常用英语名称
- 超市标准商品分类表
- 《导游业务》教案资料.docx
- 河南省科技版三年级劳动与技术上册教案
评论
0/150
提交评论