全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分: Department分为4个部分:Senior 共计52 Sales 共计110Junior 共计113 Systems 共计 31 Marketing 共计14Secretary 共计10Age分为6个部分: Salary分为6各部分:2125 共计20 26K30K 共计462630 共计49 31K35K 共计40 3135 共计79 36K40K 共计4 3640 共计10 41K45K 共计4 4145 共计3 46K50K 共计63 4650 共计4 66K70K 共计8 InfoD=-52165log-log=0.889位Infodepartmet=-*-30110log-80110log+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610=0.8504位Gaindepartment=InfoD-Infodepartment=0.0386位Infoage=-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204=0.4998位Gainage=InfoD-Infoage=0.3892位Infosalary=-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208=0.3812位Gainsalary=InfoD-Infosalary=0.5078位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.50K3marketingsenior36.4046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K 66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26.30”和“46.50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=2630|status=senior)=1/52=0.0192P(age=2630|status=junior)=49/113=0.4336P(salary=46K50K|status=senior)=40/52=0.7692P(salary=46K50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K50K|status= junior)=0.0180P(X|status=senior)* P(status=senior)= 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为sta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单片机原理及应用(第二版) 课件 第6章 高性能微处理器
- 2024年职业资格-高级美发师模拟考试题库
- 三年级上册美术教学设计-第21课 闹花灯 ▏人美版
- 三年级上语文教案综合练习1-沪教版
- 2022年度辽宁省安全员之C证(专职安全员)真题练习试卷B卷附答案
- 2022年度辽宁省安全员之C1证(机械安全员)通关提分题库及完整答案
- 电商SaaS的天花板在哪里
- 【可行性报告】2023年装修机械项目可行性研究分析报告
- 2024年呼吸系统用药行业商业计划书
- 2024年铁路运输项目创业投资方案
- 短视频拍摄制作服务合同范本版
- 2024年链工宝全国安全生产月网络知识答题试题库500题(含答案)
- 媒介道德与法规(山东联盟)智慧树知到期末考试答案章节答案2024年临沂大学
- 小学美术教学研究课题结题报告
- 2024年成都市中考道德与法治试卷真题
- 浙江省杭州市拱2024年七年级下学期数学期末试题附答案
- 二十四山阳宅硝砂峰详解表
- 二年级下册科学复习教案
- 国际商务礼仪一些要点总结
- 2022年管道支架计算表
- 教师去留意向表
评论
0/150
提交评论