免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
软件工程 朱元锐 204240005数据挖掘的第二次作业1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior31.3531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分: Department分为4个部分:Senior 共计52 Sales 共计110Junior 共计113 Systems 共计 31 Marketing 共计14Secretary 共计10Age分为6个部分: Salary分为6各部分:2125 共计20 26K30K 共计462630 共计49 31K35K 共计40 3135 共计79 36K40K 共计4 3640 共计10 41K45K 共计4 4145 共计3 46K50K 共计63 4650 共计4 66K70K 共计8 InfoD=-52165log252165-113165log2113165=0.889位Infodepartmet=-110165*-30110log230110-80110log280110+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610=0.8504位Gaindepartment=InfoD-Infodepartment=0.0386位Infoage=-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204=0.4998位Gainage=InfoD-Infoage=0.3892位Infosalary=-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208=0.3812位Gainsalary=InfoD-Infosalary=0.5078位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.50K3marketingsenior36.4046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:Salary26K:30K 66K:70K31K:35KJunior36K:40KSenior46K:50K41K:45KJuniorJuniorSeniorAge21:2536:4031:3526:30JuniorSeniorSeniorJunior3)给定一个数据元组,它在属性department,age和salary上的值分别为“systems”,“26.30”和“46.50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=2630|status=senior)=1/52=0.0192P(age=2630|status=junior)=49/113=0.4336P(salary=46K50K|status=senior)=40/52=0.7692P(salary=46K50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=2630|status=senior)* P(salary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|status=junior)*P(age=2630|status=junior)* P(salary=46K50K|status= junior)=0.0180P(X|status=senior)* P(status=senior)= 7.2496e-004P(X|status=junior)* P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 29176-2026消防应急救援通则
- AI在考古学中的应用:技术赋能与人文传承
- AI在艺术设计中的应用
- 2026年银行业金融机构环境信息披露指南
- 2026年家庭医生签约服务示范点创建经验
- 2026年叉车起升货物中途滑落事故原因与防范
- 2026年既有建筑绿色改造技术应用
- 2026年与退休返聘人员签单返聘协议书
- 2026 山东五年级上册语文名句默写集训 (含答案 + 易错字)
- 2025湖南省中考生物真题(原卷版)
- 2026年高考地理考前20天冲刺讲义(三)(原卷版)
- 2026年湖南省医师人文医学定期考核题库(附答案)
- (2025年)高级会计师考试真题及答案
- 湖南省湘潭市名校2026届中考数学全真模拟试卷含解析
- 驾驶员安全行车常识考试题及答案
- 2026宁夏国运煤业有限公司社会招聘9人笔试参考题库及答案解析
- 南京南京大学出版社公开招聘4人笔试历年参考题库附带答案详解
- 冲压设备保养培训课件
- 2025年铁路职业道德素养考试题库
- 渣土车运输安全培训课件
- 2025年成果转化专员岗位招聘面试参考题库及参考答案
评论
0/150
提交评论