




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
_ 1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分: Department分为4个部分:Senior 共计52 Sales 共计110Junior 共计113 Systems 共计 31 Marketing 共计14Secretary 共计10Age分为6个部分: Salary分为6各部分:2125 共计20 26K30K 共计462630 共计49 31K35K 共计40 3135 共计79 36K40K 共计4 3640 共计10 41K45K 共计4 4145 共计3 46K50K 共计63 4650 共计4 66K70K 共计8 InfoD=-52165log252165-113165log2113165=0.889位Infodepartmet=-110165*-30110log230110-80110log280110+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610=0.8504位Gaindepartment=InfoD-Infodepartment=0.0386位Infoage=-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204=0.4998位Gainage=InfoD-Infoage=0.3892位Infosalary=-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208=0.3812位Gainsalary=InfoD-Infosalary=0.5078位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.50K3marketingsenior36.4046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K 66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26.30”和“46.50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=2630|status=senior)=1/52=0.0192P(age=2630|status=junior)=49/113=0.4336P(salary=46K50K|status=senior)=40/52=0.7692P(salary=46K50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K50K|status= junior)=0.0180P(X|status=senior)* P(status=senior)= 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior2. 运用决策树或者贝叶斯算法,对鸢尾花数据集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版选修5 化学:1.2 有机化合物的结构特点 教学设计
- 新疆考公2025真题
- 2025医疗机构药品供应系统升级改造项目合同
- 第二单元《鉴赏“虚”“实”艺术传承革命精神》大单元教学设计-2024-2025学年统编版高中语文选择性必修中册
- 3.3 水资源(第2课时) 说课稿2023-2024学年人教版地理八年级上册
- 4.1化学式(第3课时化学式的相关计算)说课稿-2024-2025学年九年级化学科粤版(2024)上册
- 5. 波的干涉、衍射说课稿-2025-2026学年高中物理教科版选修3-4-教科版2004
- 第6节 程序的循环结构说课稿-2025-2026学年初中信息技术粤教版2013第二册-粤教版2013
- 2025深圳市标准购房合同样本
- 第5课 神奇的变化-制作形状补间动画教学设计-2025-2026学年小学信息技术(信息科技)第三册下粤教A版
- 某市化学品物流仓储交易中心项目可行性研究报告
- 电厂运输煤炭合同模板
- 城镇供水排水行业职业技能竞赛化学检验员(排水化验员)赛项理论考试题库(含答案)
- 2024年工业和信息化局安全生产培训工作方案策划方案
- 江苏省镇江市外国语学校2024-2025学年七年级上学期第一次月考数学试题(原卷版)
- 护理疑难病例讨论课件模板
- 同步课件4:改革开放和社会主义现代化建设的巨大成就
- DL-T-1878-2018燃煤电厂储煤场盘点导则
- 【顺丰控股财务报表探析探究14000字(论文)】
- 【农村电商发展探究文献综述与理论基础4500字】
- 地震逃生知识培训
评论
0/150
提交评论