版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘的第二次作业1下表由雇员数据库的训练数据组成,数据己泛化。例如,年龄“3135表示31到35的Z间。对于给定的行,count表示department,status,age和salary在该行上具有给定值的元组数。status是类标号属性。departmentstatusagesalarycountsalessenior31.3546K.50K30salesjunior26.3026K.30K40salesjunior313531K.35K40systemsjunior21.2546K.50K20systemssenior31.3566K.70K5systemsjunior26.3046
2、K.50K3systemssenior41.4566K.70K3marketingsenior36.4046K.50K10marketingjunior31.3541K.45K4secretarysenior46.5036K.40K4secretaryjunior26.3026K.30K61)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status分为2个部分:Department分为4个部分:Senior共计52Sales共计110Junior共计113Systems共计31Marketing共计14Secretary共计10Age分为6个部分:Salary分为
3、6各部分:21.25共计2026K.30K共计4626.30共计4931K.35K共计403135共计7936K.40K共计43640共计1041K.45K共计441.45共计346K.50K共计6346.50共计466K70K共计8Info(D)=-磊log2善-詈Sg2罟二0.889位Info(departme沁占)+忌V-厭o幻初-存。灯韵=0.8504位GainAdepartment)=Info(D)InfoAdepartment)=00386位、20/0,020,20.49/0,049.49.79=-辰(-亦10g2石-亦10g2韵+石水(-码10g2石-石10g2码)+f35,35
4、34.3410/10,100t03(3.30.0I7910827579108279丿卞“5I10WR21010IOg2loj165K3心也3323)岛*(扌log2扌一扌og2#)=04998位Gain(age)=Info(D)Info(age)=0.3892位InfWsakny)一_h;1_:EJ(4.40.063/30.3033.33,8(8-80.0(-ilog2-log2-)+*(-log2-log2-)+(-log2-log2-)=0.3812位GainAsalary)=InfoAD)InfoAsalary)=05078位由以上的计算知按信息增益从人到小对屈性排列依次为:salary
5、、age.department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31.3546K.50K30systemsjunior21.2546K.50K20systemsjunior26.3046K.50K3marketingsenior364046K.50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为departmento2)构造给定数据的决策树.由上一小问的计算所构造的决策树如卜:36K:40K41K:45K46K:50K263036:4026K30K
6、66K:70K31K35K21:253)给定一个数据兀组.它在属性department,age和salary上的值分别为systems.26.30和46.50K。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department二systems|status=junior)=23/113=0.2035P(age=26.3O|status=senior)=l/52=0.0192P(
7、age=26.3O|status=junior)=49/113=0.4336P(salary=46K.50K|status=senior)=40/52=0.7692P(salary=46K.50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=26.30|status=senior)fPfsalary=46K50K|status=senior)=0.0023P(X|status=junior)=P(department=systems|sta
8、tus=junior)*P(age=26.30|status=junior)*P(salarY=46K.50K|status=junior)=0.0180P(X|status=senior)*P(status=senior)=7.2496e-004P(X|status=junior)*P(status=junior)=0.0123因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior2.运用决策树或者贝叶斯算法,对莺尾花数据集进行分类,显示分类结果.(可以采用Weka工具或者其他方法)在weka匕运用决策树算法对哺尾花数据集进行分类,分类结果如卜图所示1.51pelalwi
9、dthIris-virginica(3.Iris-versicolor(3.0/1.0)i在weka匕运用贝叶斯算法对閒尾花数据进行分类.结果的具体情况如卜NaiveBoyeatierClaasSuznnary二二二CorrectlyClassifiedInstancesIncorrectlyClassifiedInstancesKappastatisricMeanabsoluteerrorROOTmeansquarederrorRelativeabsoluteerrorRoorrelativesquarederrorTotalNumberofInstances14496-640.94-0.03420.1557.6997%32.87941150二匸工Cbu匸。Trl刃金匸ozATxAlA-vArAilcolor(O33(0.33)TxAls-vlr-glnlca72.03433uaauv.0.109-6O.19L
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林省吉林市蛟河市2025-2026学年七年级上学期1月期末考试生物试卷(含答案)
- 2025-2026学年山西省晋中市太谷区七年级(上)期末数学试卷(含答案)
- 虚拟化技术应用全面指南
- 化工企业技术管理
- 12月债券市场展望:降准降息预期不高债券仍处弱势
- 飞机铆接技术授课
- 国新资本有限公司相关岗位招聘16人备考考试试题及答案解析
- 2026年上半年黑龙江省商务厅事业单位公开招聘工作人员50人参考考试题库及答案解析
- 飞机油箱安全课件
- 2026重庆汇人数智科技有限公司招聘1人参考考试题库及答案解析
- 2025年主管护师考试真题及答案
- 2025年威海银行校招笔试面试及答案
- DB51T 3342-2025炉灶用合成液体燃料经营管理规范
- 2026年浙江康复医疗中心公开招聘25人笔试参考题库及答案解析
- 2025税务副科级选拔笔试题及答案
- 山东省淄博市张店区2024-2025学年七年级上学期1月期末考试英语试题
- 甲醛生产培训课件
- 档案保护修复员工作总结报告
- 2025年及未来5年市场数据中国覆膜机市场调查研究及行业投资潜力预测报告
- 麻醉科术后疼痛管理流程
- 营销管理(第16版)核心框架
评论
0/150
提交评论