论文资料:1对于软木塞数据集上的前两类,利用特征A RT和PRT描述.doc_第1页
论文资料:1对于软木塞数据集上的前两类,利用特征A RT和PRT描述.doc_第2页
论文资料:1对于软木塞数据集上的前两类,利用特征A RT和PRT描述.doc_第3页
论文资料:1对于软木塞数据集上的前两类,利用特征A RT和PRT描述.doc_第4页
论文资料:1对于软木塞数据集上的前两类,利用特征A RT和PRT描述.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1对于软木塞数据集上的前两类,利用特征A RT和PRT描述: a)首先单独使用特征ART,基于欧氏距离尺度和马氏距离尺度分别设计分类器,然后同时使用特征ART和PRT重新设计前面两个分类器。 b)用总体协方差矩阵作为两类的真实协方差矩阵,计算贝叶斯错误率。 c)是否基于马氏距离尺度的分类器更加逼近最优的贝叶斯分类器。 d)利用PR Size计算训练集上的分类错误率,以及它与贝叶斯错误率的平均偏差,同时给出错误率估计水平为95%的置信区间。2对护软木塞数据集上的前两类,利用特征ART和PRT计算出基于欧氏距离尺度的线性判别,利用的公式是4-3c。3对于3类软木塞数据集,重复前面的练习,利用的特征是N, PRM和ARTG。计算出总体协方差矩阵,同时看看它的值发生微小变化时对于分类器性能的影响情况。4对于CTG数据集,将它们分成3类N(正常)、S(可疑)、P(病态): a)基于马氏跟离尺度时,哪一个特征在这个问题上具有最大的可分性。b)利用样本划分法设计分类器,并通过计算测试集上的错误率估计它的性能。5对于岩石数据集以及其中的两个类别:花岗岩和石灰石,大理石,重复前面的练习。6对于软木塞数据集,沿着前面4.1.4节中给出的Fisher方向上的二维数据,给出它的线性判别。指出利用线性判别可以得到同样的结果。7对于水果图像数据集,为了得到感兴趣的颜色和图形进行图像处理(利用普通的图像处理工具,例如Micrografx Picture Pubiisher就可以实现这个目的)。设计一个贝叶斯分类器对3类水果分类,给出过程和结果。8对于医生来说,非常希望找到一种规则,在胸部组织数据集上利用同样的诊断和测量方法可以将癌症从所有其他的情况中区分开来。 a)利用胸部组织数据集,仅仅利用一个特征区分出癌症和其他所有的症状(放松分布是正态型以及相同的协方差矩阵的要求)。从各类训练集大小估计出各类的先验概率,利用前向与后向搜索法。 b)分别计算训练集和测试集上该分类器的错误率估计,并给出水平为95%的置信区间。 c)利用PR Size程序,计算出上面的错误率相对于真实贝叶斯估计错误率的偏差。此时假定满足正态分布以及相同协方差矩阵的要求。 d)假定遗漏一个癌症病例的损失是将一个非癌症病例判别为癌症的损失的3倍。如何修改决策规则使得它能反应这种损失的比例情况?新的规则得到的分类器性能如何?9对于Norm2c2d数据集,研究一下利用总体协方差矩阵对于训练集上错误率估计的影响。为了达到这个目的,进行如下的计算:a)改变一个协方差矩阵的非对角线元素的值,幅度不要过大(例如10%)。b)利用各自的协方差矩阵得到一个二次型的分类器,计算训练集上的错误率。c)利用总体协方差矩阵设计一个线性分类器,计算训练集上的错误率。d)比较b)和c)中得到的结果。10对于练习题4.8中的癌症分类器,确定一个拒绝阈值,使得:a)没有癌症病例会遗漏;b)只有5%的癌症病例结果是误判的。同时确定这些情况下的决策规则。11对于练习题4.4,仅仅考虑N和P两类时重复分类过程。然后确定什么样的拒绝阈值最好地匹配了S(可疑)类。12利用Parzen. xls文件重复图4-28所示的实验,要求在其他形式的分布下进行正态分布和对数分布。13对于软木塞数据集上的前两类,利用特征N和PRTl0应用Parzen窗函数方法利用神经网络方法进行样本的识别。同时利用权重值得到概率密度估计(限制训练集上每个类的样本数为10,使用Microsoft Excel软件)。14对于胸部组织数据集,利用k-NN方法设计分类器将癌症从其他情况中区分开来。分别用样本划分法和剪辑法(使用KNN程序)。比较得到的结果。15.巧将岩石数据集分成两大类:花岗岩,闪长岩,片岩和石灰石,大理石,角砾岩,利用k-NN方法设计分类器: a)选择所使用的近邻数,k。 b)对于前面得到的k,运用k-NN法得到的分类器和贝叶斯分类器相比,期望的渐进偏差为多大?c)分别利用样本划分法和剪辑法(应用KNN程序)进行分类,比较得到的结果。16解释为什么所有的ROC曲线都是起始于点(0,0)而终止于点(1,1),通过分析这些点对应的意义来说明。17对于胸部组织数据集,利用RDC曲线方法分别确定各个特征对于区分癌症和其他任何情况的能力。利用ROC曲线下包围的面积比较这些结果。18对于图4-34所示的婴儿心率的FHR Apgar(阿普枷新生儿评分)数据集,利用所有的特征重复进行 ROC曲线方法的实验。19在信号噪声(Signal Noise)数据集中,将信号脉冲的幅度提高20% ,考虑如下的脉冲检测规则: 在时刻n处,如果S(n)比2t=1(s(n-i) + s(n+i)要大就说我们检测到一个脉冲。对于变量给出ROC曲线,并确定出对于脉冲和噪声判别的最佳值。和4.3.3节中给出的幅度阈值的方法相比,这种方法的效果如何?20对于软木塞数据集的开始两类,利用分枝定界法进行特征选择。21对练习题4和5分别应用直接顺序搜索法和功态顺序搜索法进行特征选择。22对于软木塞数据集中的3类,利用动态选择得到的特征,分别应用重复利用法和留一法给出错误率的估计值,并讨论这此结果的可靠性。23对于练习题1 l中设计的分类器,利用标准公式计算出估计错误率的水平为95%的置信区间。应用样本划分法对分类器进行错误率估汁,划分数为10,同样的给出水平为95%的置信区间。24利用熵作为不纯度的衡量标准,计算出图4-41和图4-45中决策树的不纯度的下降情况。25对于胸部组织数据集上得到的图4-41的决策树,计算出car相对于mas,gla,Fad的分类矩阵。观察它对于先验概率的依赖程度。计算出图4-41中的线性判别式。26利用CART方法,对于3类(N, S, P)的CTG数据集,利用几个初始化的包括4个变量指数ASTV, ALTV, MSTV, MLTV的特征集合,给出决策树并进行判别。对于这几个不同的初始特征集合,比较搜索的时间和分类的性能。27写出贝叶斯信念网络的组成。28说明贝叶斯网络在数据挖掘中的应用。29为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。30比较判定树、贝叶斯、神经网络和遗传算法的分类特性。31简述基本遗传算法的构成要素。32描述运用基本遗传算法进行问题求解的过程。33简述模拟退火算法的构成要素。34说明采用遗传算法进行优化问题求解的特点。35 已知样本值和,用单解释变量的线性回归确定输出公式,并预测输入为5时的输出。36 计算相关系数r: (a)X值:1,2,3,4,5,6,7,8,9,10 Y值:5,7,8,9,10,12,13,15,18,20(b)X值:1,2,3,4,5,6,7,8,9,10 Y值:10,18,15,13,12,10,9,8,7,5(c)X值:3,5,2,1,10 Y值:10,5,8,7,237 根据下图所示的决策树,对下列学生进行分类:、和。38 定义1:给定一个由元组(条目、记录)组成的数据库D=t1,t2,.,tn和一个类别集合C=C1,C2,Cn,分类问题是指定义一个映射f:DC,其中每个元组ti被分配到一个类中。一个类Cj精确地包含了被映射到其中的元组,即Cj=ti|f(ti)=Cj,1in,且tiD。定义2:给定一个由元组组成的数据库D=t1,t2,.,tn和一个类别集合C=C1,C2,Cn,其中每个元组ti=为数值型向量,每个类别Cj=为数值型向量。分类问题是指将每个元组ti分配到类Cj中,使得sim(ti,Cj)sim(ti,Cl)ClC,其中ClCj。给出定义1与定义2中的分类问题定义的不同之处。39 利用表1中的数据,假设输出2为已知正确的分类结果,而输出1为实际分类结果,针对每一类的分类结果画出一条OC曲线,三类共需要画出三条曲线。表1 用于身高分类的数据姓名 性别 身高/m 输出1 输出2 Kristina 女 1.6 矮 中 Jim 男 2 高 中 Maggie 女 1.9 中 高 Martha 女 1.88 中 高 Stephanie 女 1.7 矮 中 Bob 男 1.85 中 中 Kathy 女 1.6 矮 中 Dave 男 1.7 矮 中 Worth 男 2.2 高 高 Steven 男 2.1 高 高 Debbie 女 1.8 中 中 Todd 男 1.95 中 中 Kim 女 1.9 中 高 Amy 女 1.8 中 中 Wynette 女 1.75 中 中40 利用表1中的数据,假设输出2为已知正确的分类结果,而输出1为实际分类结果,构造混淆矩阵。41 利用表1中的训练数据和输出1这一列的分类结果,应用最小二乘法来确定如何区分“中”和“高”两个类别。可以运用分割技术或者预测技术。42 利用表1中的训练数据和输出2这一列的分类结果,应用最小二乘法来确定如何区分“中”和“高”两个类别。根据身高数据和性别数据,利用分割技术进行分类。43 利用预测技术重做上题。44 利用身高数据,并假设输出2为正确结果,利用KNN对进行分类,其中K=5。45 解释P(ti|Cj)和P(Cj | ti)之间的差别。47 利用表1中的身高例子和该表中输出2的训练分类结果,使用ID3算法产生一棵决策树。48 利用增益比率代替增益,重做上题。49 对于11和12的结果,构造混淆矩阵。50 利用表1中的身高例子和该表中输出2的训练分类结果,使用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论