




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贝叶斯分类器一、朴素贝叶斯分类器原理目标:计算。注:t是一个多维的文本向量分析:由于数据t是一个新的数据,无法在训练数据集中统计出来。因此需要转换。根据概率论中的贝叶斯定理将的计算转换为:(1)其中,表示类Cj在整个数据空间中的出现概率,可以在训练集中统计出来(即用Cj在训练数据集中出现的频率来作为概率。但和仍然不能统计出来。首先,对于,它表示在类中出现数据t的概率。根据“属性独立性假设”,即对于属于类的所有数据,它们个各属性出现某个值的概率是相互独立的。如,判断一个干部是否是“好干部”(分类)时,其属性“生活作风好”的概率(P(生活作风好|好干部))与“工作态度好”的概率(P(工作态度好|好干部))是独立的,没有潜在的相互关联。换句话说,一个好干部,其生活作风的好坏与其工作态度的好坏完全无关。我们知道这并不能反映真实的情况,因而说是一种“假设”。使用该假设来分类的方法称为“朴素贝叶斯分类”。根据上述假设,类中出现数据t的概率等于其中出现t中各属性值的概率的乘积。即:(2)其中,是数据t的第k个属性值。其次,对于公式(1)中的,即数据t在整个数据空间中出现的概率,等于它在各分类中出现概率的总和,即:(3)其中,各的计算就采用公式(2)。这样,将(2)代入(1),并综合公式(3)后,我们得到:(4)公式(4)就是我们最终用于判断数据t分类的方法。其依赖的条件是:从训练数据中统计出和。当我们用这种方法判断一个数据的分类时,用公式(4)计算它属于各分类的概率,再取其中概率最大的作为分类的结果。改进的P(t | Cj )的计算方法:摒弃t(t1, t2 , t3,)中分量相互独立的假设,P(t1, t2 , t3,| Cj) = P(t1 | Cj) * P(t2 | t1, Cj) * P(t3| t1, t2 ,Cj)注意:P(t3| t1, t2 ,Cj)=此结果的含义是在某类Cj 中 在t1 、t2后t1 、t2、t3出现的概率主要思想:在大规模的语料(或整个门户网站的分类结果中)上寻找支持度和置信度均大于其各自的阈值的频繁项集(关键词组),从而进一步去确定这些频繁项集(关键词组)的概率,对于小于阈值的项集中的关键字认为则认为是相互独立的。注:分析的结果中的每个频繁项集中的关键词不宜太多(这个可以通过阈值来限制);分析的结果在一定时间内是比较稳定的而且是收敛的;分析结果可以形成多个“相关性词袋”。相关性词袋比近义词词袋更接近人的思维也更接近客观实际同时不依赖于人的主观思维和大量的标注劳动,如:姚明,篮球 不同属于一个近义词词袋,但很有可能在同一个相关性词袋。克服了人标注的不完备性。二、文本分类的具体方法文本分类中,数据是指代表一篇文本的一个向量。向量的各维代表一个关键字的权重。注意:权重可以通过TF/IDF方法来确定训练文本中,每个数据还附带一个文本的分类编码。对此我们有两个方面的工作:(1) 分类器学习:即从训练数据集中统计和,并保存起来。(保存到一个数据文件中,可以再次加载)。在分类器的程序中,需要有表达和保存这些概率数据的变量或对象。(2) 分类识别:从一个测试文档中读取其中的测试数据项,识别他们的分类,并输出到一个文件中。但文本分类有一个特殊情况:各属性的值不是标准值,不像“性别”这样的属性。因此在查找时会遇到麻烦:新数据的值可能在训练数据中从未出现过。这个问题的另一方面是:训练数据中各属性(分别对应一个关键词)的值太分散,几乎不可能出现某个关键词在多篇文章中的权重相同的情况。这样,太多、太分散,没有统计上的意义。这一问题的处理方法是:将各关键词的权重分段:即将权重的值域分成几个段,每段取其中数值的平均值作为其标准值。第一种方法是,直接对所有训练数据的属性值进行分段,如对第k个属性,将其值域分为(00.1), (0.10.2), , (0.91),各段分别编号为0,1,9。一个数据的该属性值为0.19,则重设该属性值为它所处的分段编号,即1。另一种方法同样进行分段,但分段后计算各段的平均值作为各段的标准值。根据具体数据相应属性的值与各分段标准值的接近程度,重新设置数据该属性的值。如对第k个属性,将其值域分为(00.1), (0.10.2), , (0.91),假设(0.10.2)的平均值为0.15,(0.20.3)的平均值为0.22,而一个数据的该属性值为0.19,则该数据的该属性值与0.22更接近,应该重设为0.22。这就是我们要采用的方法。下一个问题是,以什么作为分段标准?如果按平分值域的方法,则可能数据在值域各段中的分别非常不均匀,会造成在数据稀少的值域中失去统计意义。因此一个方法是,按照分布数据均匀为标准进行分段划分。假设有N个数据,将属性值域分为M段。对属性k,将数据按k属性的值排序,然后按N/M个进行等分,计算各值域分段中的标准值。(5)其中,m表示一个分段,表示第k个属性值在该段内的数据的总数。每段内的数据的相应属性重设为该段的平均值。分段的工作在在训练阶段进行。必须保留分段的结果:即各属性的各分段值域的标准值。在训练阶段,将所有训练数据的属性值替换为标准值后,再进行统计。而在识别阶段,将待识别数据的属性值同样替换为标准值后,再进行识别。三、对象模型根据我们要进行工作,其中包含:数据(项),数据集,属性,属性值,属性标准值,分类概率,分类属性概率等名词。从实现上考虑:(1)训练中的数据分段:根据数据的k属性值,对所有数据进行排序。按数据个数均分的原则进行分段,并计算k属性在各段的标准值,该值需要保留。假设我们有数据项对象(CDataItem)和数据集对象(CDataSet),显然数据集对象负责该项工作。即,CDataSet中应该包含一个方法:Segment(k, m)。其中k表示对第k个属性,m表示总共分为m个段。该方法产生的各段标准值也需要保留。由于这些标准值是针对各个属性的,因此应该定义一个属性对象来存储这些值。即需要一个CAttribute对象。此外,分段时需要的排序可以使用C+标准库中的sort模板函数来实现。(2)根据属性值域分段的标准值,更新数据项的属性值:对一个数据的第k个属性,使用其属性值在K属性对象(CAttribute的一个对象)中查找它最接近的标准值,并用以替换原值。查找标准值的方法可以分配给CAttribute对象:即需要一个Search方法,返回找到的标准值(如果分段多,需要使用二分法查找以提高效率。可以利用C+标准库中的相应模板函数实现)。(3)分类器本身应该作为一个类,即CBayesClassifier。其中应该包含Train(dataset)和Recognize(data)两个方法。前者用以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农村住宅购买合同
- 2025农业科技租赁合同范本
- 2025年乡镇药房考试题及答案
- 物体压强题目及答案高中
- 2025餐厅转让合同样本
- 营销渠道专业知识培训课件
- 营销案例知识培训
- 2025年甾体药物项目建议书
- 物料仓库培训试题及答案
- 2024人教版七年级生物上册期末复习知识点提纲(填空版+答案版)
- 银行独立授信审批官工作手册模板
- Unit 8 Let's Communicate!Section A(1a-1d)同步练习(含答案)2025-2026学年人教版(2024)八年级英语上册
- DB65∕T 4791-2024 水工隧洞敞开式TBM施工技术规范
- 工行金库资产管理办法
- 小岗位大作用班会课件
- GB/T 22080-2025网络安全技术信息安全管理体系要求
- 认证产品一致性管理办法
- 怒海彭湃完整版本
- 中国海权战略课件
- 2025年现代物流与采购管理考试试题及答案
- 顶管培训课件
评论
0/150
提交评论