数据分析与数据挖掘部分习题答案_第1页
数据分析与数据挖掘部分习题答案_第2页
数据分析与数据挖掘部分习题答案_第3页
数据分析与数据挖掘部分习题答案_第4页
数据分析与数据挖掘部分习题答案_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章数据分析与数据挖掘基础1.举例说明数据分析和数据挖掘的重要性。①大多数超市都有用户购买记录,也有会员卡,忠实记录了消费者的购买行为,深入分析这些数据能够挖掘用户的行为特点,提高超市的收入。②在电子商务领域,除了商务自身数据,商品的评论、人们的购物习惯、市场政策、人们的生活数据等都影响着电子商务的发展。如何能够进行有效分析是电子商务运营的一项重要工作。③在企业客户关系管理中,强调对客户分级管理,有针对性地运用打折、奖励、优惠服务等营销手段,那么根据企业中的一些客户信息,如何对客户进行分级就是客户关系管理中的一项重要任务。④在专车、出租车运营公司中,利用大量用户出行数据,通过针对不同季节、不同节假日、每天的不同时段进行车辆部署优化,提高专业的服务水平和运营收益。⑤银行信贷机构,通过企业或者个人的基础信息、财务信息等多个因素,可以自动地为客户的信用进行评级打分,分析出优质客户、普通客户或可能坏账的客户。2.思考你是否遇到过数据分析对你造成误导的情况。你关心个人数据隐私吗?是,例如,3.简述数据分析和數据挖掘的主要工作过程。①明确数据分析与数据挖掘的目的;②进行数据收集和整理;③数据分析与数据挖掘;④数据分析结果展示;⑤形成数据分析报告。针对第二种方式,整个处理过程通常包括六个步骤:①明确数据分析与数据挖掘的目的;②进行数据收集和整理;③数据分析与数据挖掘;④运用数据分析和数据挖掘的结果,可能根据应用情况反馈重新调整模型,直到达到满意结果;⑤数据分析和应用情况结果展示;⑥形成数据分析与应用报告。4.数据收集的常用原则包括哪些?为什么有这些原则要求?(1)可靠性原则。是指无论是直接数据来源还是间接数据来源,都应该保证数据满足可靠性要求、由真实环境或对象产生。(2)时效性原则。是指所获取的数据要满足数据分析的时效性要求。通常,近期数据的描述能力要好于过于陈旧的数据。因此,数据收集时既要分析即将获取的数据本身的时效性,也要分析数据收集时间的时效性,以保证所获取数据的综合时效价值。(3)完整性原则。是指收集的每个数据样本在内容上都是完整无缺的,或者满足数据分析的完整性要求。(4)准确性原则。是指所收集的数据样本与具体应用目标和工作需求的关联程度的高低。关联程度越高,准确性越高,越能作为总体的一个样本。(5)代表性原则。获取的数据样本应该具有代表性,能够反映数据分析所要研究问题的全貌。对于数据量小、数据容易获取的情况,收集所有数据进行数据分析是可行的,并能获取准确的分析数据;但对于数据量较大,很难获取全部数据的情况,或者数据量过大只能抽样(抽取其中部分数据)进行分析时,要求所获取的样本数据具有代表性。(6)预测性原则。数据分析和数据挖掘的研究一般不只是为了根据存在的数据去分析已有的情况,往往还要根据现有的分析结果去预测未来的情况,因此数据收集既要着眼于现实的需求,又要具有一定的超前性,使其能够用于预测应用。5.请举例说明数据的四种类型:标称属性、二元属性、序数属性和数值属性。标称属性:职业类型(教师、学生、医生等)、所属地区、头发颜色、身份证号码二元属性:是否是大学生可用1和0描述,也可用“是”和“否”描述;性别可用“男”和“女”来描述,也可用1和0等其他二值方式描述序数属性:职称分为教授、副教授、讲师、助教,各个类别存在顺序关系;研究生、大学生、高中生、初中生、小学生、无学习经历也存在顺序关系数值属性:常说2050年比2010年多40年,但不会说2050年是2010年的1.02倍。当用摄氏度描述温度时,在1标准大气压下,纯净的冰水混合物的温度为0℃,而沸腾的水温度为100℃。虽然在数值上100℃水温是50℃水温的2倍,但在含义上一般只使用其长度标定,而不考虑倍数关系6.试比较离散属性和连续属性。离散属性的各个值不连续,例如,职业、职称、颜色、地区等都属于离散属性;分类属性都是离散属性,如数值中的整数类型属性就是离散属性。连续属性一般都使用实数来表示,实数可能在整个实数空间或某段实数空间取值,如距离、温度等都属于连续属性。一般来说,实数类型通常都是连续属性,但若只利用实数中的某些离散点,则仍然属于离散属性。例如,满意度按照{0.2-非常不满意,0.4-不满意,0.6-一般,0.8-满意,1.0-非常满意}来度量,此时只是使用实数中的若干离散点,因此该属性仍然为离散属性。7.数据的中心趋势常用度量指标有哪些?常用指标包括均值、中位数、众数、中列数和四分位中点。8.数据的高散程度常用度量指标有哪些?常用的离散程度度量指标包括方差、标准差、离差、平均绝对离差、极差、四分位极差。9.数据描述中的五数概括包括哪五个指标?思考从五数概括中能分析出哪些信息。五数概括(Five-numbersummary)由最小值(Min)、四分位数的第一分位点Qi、中位数(Median)(也是四分位数第二分位点Q₂)、四分位数第三分位点Q₃和最大值(Max)组成。①描述了中心趋势。中位数衡量了中心趋势,还可以计算中位数(Min+Max)/2,计算四分位中心IQM=(Q₁+C₃)/2用作中心趋势的度量指标。②描述了离散程度。极差(全距)可由Max-Min计算得到,四分位极差IQR=C₃-Q。③描述了基本形态。虽然五数概括没有提供均值,但可以计算四分位中心IQM=(Q₁+Q₃)/2,然后通过中位数和IQM之间的关系估计数据的偏斜情况。例如,前面已计算出A组数据的IQM=6.5,Median=6,可见峰值位置在四分位中心的左侧,估计右侧有一个长尾,因此可以估计A组数据为右偏。B组数据的IQM=28.75,Median=31.5,可见峰值位置在四分位中心的右侧,估计左侧有一个长尾,因此可以估计A组数据为左偏。关于峰度情况也可以适当估计,根据极差(Max-Min)和四分位极差(Q₃-Q)的比例关系来估计,但该峰度情况的估计只供参考,这是因为数据中的极小值和极大值有时受噪声干扰较大。④判别是否存在离群点。五数概括可以计算[Q-1.5IQR,C₃+1.5IQR]的两个区间端点,计算最小值和最大值是否处在区间之内,来判别是否存在离群点。10.对一组数据{2,9,1,0,3,5,8,7,5,1,8,1},手工计算均值、中位数、众数、最小值、最大值、第一四分位数、第三四分位数、四分位极差,并绘制盒图。均值:4.167、中位数:4、众数:1、最小值:0、最大值:911.思考计算截尾平均数的作用是什么。如何计算5%截尾平均数?用途:一般用于比赛评分。常用于跳水比赛计分:去除最高分和最低分后计算平均分(跳水比赛中平均分需乘以难度系数)。12.请说明峰度系数近似0、大于0和小于0的含义,偏度系数近似0、大于0和小于0的含义。当峰度系数大于0时,数据分布为(尖峰)分布,这个值与0相比,如果为0,说明其峰度与正态分布相同,峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。13.思考直方图、分位数图和Q-Q图常用于哪些分析的直观展示。直方图:它可以用来展示分组数据的分布特征。它用矩形的面积来表示频数分布,在矩形的高度表示每一组的频数或频率,宽度则表示各组的组距。分位数图(quantile-quantileplot)或q-q图对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另—个分布是否有漂移。14.简述利用加一划分法计算四分位点的计算过程。(1)加一划分法:基于n+1确定四分位数的位置,即Q1的位置=(n+1)×1/4=(n+1)×25%Q₂的位置=(n+1)×2/4=(n+1)×50%Q₃的位置=(n+1)×3/4=(n+1)×75%。15.四分位极差(内距)如何计算?四分位极差能克服边缘数据不稳定问题,可较好衡量数据的离散程度。简述如何利用四分位极差计算离群点数据。极差(全距)可由Max-Min计算得到,四分位极差IQR=C₃-Q。例如,计算不低于第一四分位点减去1.5倍四分位极差的最小值a,不高于第三四分位点加上1.5倍四分位极差的最大值b,将[a,b]区间作为跨度数据。说明:在有离群点的情况下,虽然离群点数据会使得概率之和不为1,但由于离群点数据非常少,所以这种近似操作仍被视作最佳选择。16.直方图的一般作用是什么?直方图中的分组数会影响图形的形状,请查阅资料说明--般如何选择分组数。1、检验数据分布的类型,分析数据是否服从正态分布,判断数据有无异常。2、与产品规格界限做比较,可直观地判断分布中心是否偏离规格中心,以确定是否需要调整并求出其调整量。3、还可判断数据分布的散差(分布范围)是否满足规格范围的要求,以确定是否采取缩小散差的技术性措施。17.有人说直方图与盒图的作用有一定的相关性。请从生活中或互联网上收集至少30个数据,利用软件绘制直方图与盒图,并简要分析二者在展示分布上的异同。区别:条形图主要用来展示分类数据,其高度表示各类别频数的多少,其宽度是固定的;直方图则主要是用于展示数值型分组数据,是用面积表示频数分布,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度和宽度均有意义。且由于分组数据具有连续性,直方图的各矩形通常是连续排列的,而条形图则是分开排列的。联系:二者都用来展示数据的分布情况;在平面直角坐标系中,二者的横轴都表示分组,纵轴都可表示频数或频率大小。18.统计学中属性的类型常划分为定性属性、定量属性。分析第5题中四种属性类型如何归到这两种类型中。标称属性、不考虑大小的整数编号、不考虑大小的若干离散实数取值等都可作为无量度属性,如头发颜色、性别、人员编号等。有量度属性可以是连续属性,也可以是离散属性,它是指属性各取值之间存在大小关系或者先后序关系。有大小关系的实数属性、有大小关系的整数、序数属性都是有量度属性。19.借助编程或软件计算第10题,并统计频数,绘制频数条形图。略。20.借助编程或软件,绘制一组数据的盒图、直方图、分位数图、频数条形图。略。第2章数据抽样与推断检验设总体的一个样本值为{0,1,1,2},请写出经验分布函数F4(x)。计算第1章中B组数据{15,20,22,26,28,31,32,32,33,35,38,39}的95%置信度下均值的置信区间和方差的置信区间。5.16±0.02请对表2.4的示例进行x²检验。二三四五六日11112327显著性水平α自由度6分析二分序列000011111000111000中的0的个数m、1的个数n、0游程数R、1游程数R和游程总数,并计算在固定m和n的序列中,该序列的出现概率。略。利用统计软件计算000111111111110000在显著性水平0.05下是否具有随机性。略。利用软件(如Excel、Python、orsci)生成一组正态分布数据,并绘制概率图。首先,您需要安装NumPy和Matplotlib这两个Python库。您可以使用以下命令来安装它们:pipinstallnumpymatplotlib然后,您可以使用以下代码生成正态分布数据并绘制概率图:```pythonimportnumpyasnpimportmatplotlib.pyplotasplt#生成正态分布数据mean=0#均值std=1#标准差size=1000#数据个数data=np.random.normal(mean,std,size)#绘制概率图plt.hist(data,bins=30,density=True,alpha=0.7,color='skyblue')#绘制正态分布曲线x=np.linspace(min(data),max(data),100)y=1/(std*np.sqrt(2*np.pi))*np.exp(-(x-mean)**2/(2*std**2))plt.plot(x,y,color='orange')#显示图像plt.xlabel('Value')plt.ylabel('Probability')plt.title('NormalDistribution')plt.show()运行此代码,您将生成一组正态分布数据,并显示概率图。注意,mean变量表示正态分布的均值,std表示标准差,size表示生成的数据个数。您可以根据需要进行调整。请举一个二项分布检验的例子,并收集数据,利用软件(如Python、orsci或SPSS等)进行二项分布检验,说明二项分布检验的过程。【案例】从某批产品中随机抽取23个样品进行检测并得到检测结果数据。用1表示合格品,用0表示不合格品。根据抽样结果验证该批产品的合格品率是否低于0.9。操作步骤:①【分析】---->【非参数检验】---->【旧对话框】---->【二项】②选定待检测的变量到【检验变量列表(T)】框中,在【检验比例(E)】框中输入二项分布的检验概率值p,在【定义二分法】框中指定如何分类。如果检验变量为二值变量,则选【从数据中获取(G)】选项,且数据编辑器窗口中的第一条数据所在的组为第一组,也即“成功”组,本例“合格”为“成功”组

③分析结果:

结论:根据分析结果表可知:备择假设是“合格品率小于0.9”,则可推知,原假设H0是:“合格品率不低于0.9”。23个样品中合格品为19个,不合格品为4个,合格品样本的实际比例为0.8。检验合格品率是否显著低于0.9。如果显著性水平为α为0.05,由于概率值0.193大于显著性水平α,因此不应拒绝原假设,即:该批产品的合格品率不低于0.9。

请利用软件生成一组正态分布数据(至少50个),然后利用K-S检验判断其是否符合正态分布,手工修改其中若干数据,再次检验。请分析离群点对K-S检验带来的影响。将12个[0,1]区间的均匀分布随机数相加,获得一个模拟正态随机数,共生成100个这样模拟正态随机数,然后进行K-S检验。首先,您需要安装SciPy库。可以使用以下命令来安装它:```pythonpipinstallscipy```然后,您可以使用下面的示例代码来生成一组正态分布数据,并进行K-S检验:```pythonimportnumpyasnpfromscipy.statsimportkstest#生成正态分布数据mean=0#均值std=1#标准差size=100#数据个数data=np.random.normal(mean,std,size)#进行K-S检验ks_statistic,p_value=kstest(data,'norm')#打印结果print("K-S统计量:",ks_statistic)print("P值:",p_value)```运行此代码,您将生成一组正态分布数据,并使用K-S检验来评估这些数据是否符合正态分布。通过K-S统计量和P值,您可以得出关于数据分布的一些结论。如果P值小于显著性水平(例如0.05),则可以拒绝原假设,即数据不服从正态分布。请注意,上述代码仅提供了一个基本示例,如果您想进行更深入的分析,可能需要考虑更多因素(如样本量、显著性水平等)。另外,在实际应用中,可能需要结合其他统计方法和可视化工具来对数据进行更全面的分析。思考假设检验在数据分析中的重要作用。假设检验是抽样推断中的一项重要内容。它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。用样本指标估计总体指标,其结论有的完全可靠,有的只有不同程度的可靠性,需要进一步加以检验和证实。通过检验,对样本指标与假设的总体指标之间是否存在差别作出判断,是否接受原假设。这里必须明确,进行检验的目的不是怀疑样本指标本身是否计算正确,而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上,假设检验又称为显著性检验。简述什么是第一类错误的错误率,什么是第二类错误的错误率。为什么扩大样本量一般会同时降低这两类错误的错误率?第一类错误:弃真错误,原假设成立却被拒绝;第二类错误:择假错误,原假设错误却被接受。在样本容量一定的条件下,若要减少犯第一类错误(弃真错误)的概率,必然会增加犯第二类错误(取伪错误)的概率;要同时减少犯两类错误的概率是不可能的。只有增大样本容量,才是使两类风险同时减少的唯一途径。由于在概率性问题中小概率事件也可能真实发生,所以用小概率判别属于统计性判别,可能会出现错误。第一类错误是Ho本来正确,但是却因概率性误判而拒绝Ho,称为“弃真”错误。第二类错误是Ho本来错误,但是却因概率性误判而接受Ho,称为“取伪”错误。“弃真”错误的错误率为α。考虑Ho可能很重要,尽量不拒绝,所以设置合适的α较为重要,α越小,第一类错误的错误率就越小,但此时很可能引起第二类错误的错误率增大。增大样本容量可同时减小第一类和第二类错误的错误率。参考第2.5.1节知识,简要说明假设检验的一般性工作过程。假设检验的基本步骤:①构建原假设和备选假设;②选择合适的检验统计量;③设置临界值和拒绝域;④设置显著性水平进行检验。现有许多程序或软件提供假设检验功能,如SPSS、Python、C++、R,有人认为只要掌握了检验的功能、检验的前提条件,会看检验结果的P-Value值就够用了。你是否认同该观点?不认同。简要说明卡方检验、二项检验、超几何分布检验、游程检验、K-S检验的作用和工作原理。如果检验结果P-Value值为0.03,用上述检验方法分别如何解释。x²检验(Pearson'schi-squaredtest,卡方检验)属于单样本非参数检验。总体的卡方检验主要用于离散属性数据的拟合优度检验,即根据样本数据的实际频数来推断总体分布与期望分布(或某一特定理论分布)是否有显著性差异。x²检验的原假设Ho:样本的总体分布和期望分布(或某一特定理论分布)之间没有显著性差异。固定参数的超几何分布检验(Parameterfixedhyper-geometricdistributiontest)是在超几何参数已知(超几何分布已知)的情况下,针对频数统计量进行的检验。它是超几何分布检验(Hyper-geometricdistributiontest)中的一种,属于参数检验。由于超幾何分布参数较多,有些应用中(参见第3章)通常是已知超几何分布X~H(n,N,M),并且已知n、N、M,这是已经完全确定了统计量对应的超几何分布。按照2.1.4节中的超几何分布知识,对于给定的检验统计量H,可以使用两种检验策略:精确检验和大样本下的近似检验。单样本的随机性检验(Randomnesstest)又称游程检验(Runtest)或连贯检验,是对某个变量判别是否存在随机性。两分总体是指总体中的对象只有两种类别,可用1和0做标记。例如,性别按男和女,发生情况分是和否。如果从两分总体中进行抽样,会获得一个1和0组成的序列,如10101101110,该序列有时也称二元序列。游程检验就是用来辅助判别这样的序列是否具有随机性的。K-S检验(Kolmogorov-Smimov检验),以两位苏联学家AndreyKolmogorov(安德烈·柯尔莫可洛夫)和NikolaiSmirmov(尼古拉·斯米洛夫)的名字命名,是一维连续属性概率分布相等性的非参数检验,属于一种拟合度检验,可用于比较样本与参考概率分布(单样本K-S检验)或比较两个样本(两独立样本K-S检验将在第3章阐述)。例如,单样本K-S检验用于检验样本是否符合正态分布、均匀分布、泊松分布、指数分布等。第3章可视化图与分组检验1.两个班级的“数据分析”课程的考试成绩样本为(97,86,82,78,76,85,78,59,88)、(93,75,88,76,59,68,77,86,71),请进行方差齐性检验。要检验两个样本的方差齐性,可以使用方差齐性检验方法,例如Levene's检验或Bartlett's检验。以下是使用Levene's检验的步骤:1.建立假设:-零假设(H0):两个样本的方差相等(方差齐性)-备择假设(H1):两个样本的方差不相等(方差不齐性)2.计算Levene's统计量:-将两个样本的数据合并成一个数据集,并标记两个样本的来源-计算每个样本的平均值-对每个样本,计算每个观测值与其所在样本平均值的绝对差值-对每个样本,计算观测值的绝对差值的平均值-计算所有样本的观测值绝对差值平均值的平均值3.计算p值:-Levene's统计量遵循自由度为样本数量减1的F分布-根据计算得到的Levene's统计量和自由度,计算p值4.做出决策:-如果p值小于显著性水平(通常为0.05),则拒绝零假设,认为两个样本的方差不齐性-如果p值大于等于显著性水平,则不拒绝零假设,认为两个样本的方差齐性根据提供的数据,可以按照上述步骤进行计算,并得出结论。请注意,以下是使用Python编程语言进行计算的示例代码:```pythonimportscipy.statsasstats#两个班级的考试成绩样本class1_scores=[97,86,82,78,76,85,78,59,88]class2_scores=[93,75,88,76,59,68,77,86,71]#使用Levene's检验计算方差齐性statistic,p_value=stats.levene(class1_scores,class2_scores)#打印检验结果print("Levene'steststatistic:",statistic)print("p-value:",p_value)```运行以上代码,将得到Levene's统计量和p值。如果p值小于显著性水平(例如0.05),则可以得出结论,两个班级的数据分析课程的考试成绩样本的方差不齐性。反之,如果p值大于等于显著性水平,可以得出结论,两个样本的方差具有齐性。2.假设表3.1中的8周岁儿童的身高数据来自同一个城市,分组号为0代表女孩身高,分组号为1代表男孩身高,现在知道该城市所在省份的8周岁儿童的平均身高为130cm,请进行单样本t检验和Wilcoxon符号秩单样本检验。要进行单样本t检验和Wilcoxon符号秩单样本检验,可以按照以下步骤进行:1.建立假设:-单样本t检验:-零假设(H0):样本的平均身高等于130cm-备择假设(H1):样本的平均身高不等于130cm-Wilcoxon符号秩单样本检验:-零假设(H0):样本的中位数身高等于130cm-备择假设(H1):样本的中位数身高不等于130cm2.计算统计量:-单样本t检验:计算样本的t值(t-statistic),用于衡量样本平均值与设定值(130cm)之间的差异。-Wilcoxon符号秩单样本检验:将每个观察值与设定值(130cm)进行比较,并计算符号秩和(sumofranks)。3.计算p值:-单样本t检验:t值遵循自由度为样本大小减1的t分布,根据计算得到的t值和自由度,计算p值。-Wilcoxon符号秩单样本检验:符号秩和遵循特定的分布,可以使用统计软件或查找相关表格来计算p值。4.做出决策:-根据单样本t检验的p值,如果p值小于显著性水平(通常为0.05),则拒绝零假设,认为样本的平均身高与130cm不相等。-根据Wilcoxon符号秩单样本检验的p值,如果p值小于显著性水平(通常为0.05),则拒绝零假设,认为样本的中位数身高与130cm不相等。请注意,以下是使用Python编程语言进行计算的示例代码:```pythonimportscipy.statsasstats#表示8周岁儿童身高的分组数据heights=[130,134,126,131,135,129,132,128,133,130]#单样本t检验t_statistic,p_value_t=stats.ttest_1samp(heights,130)#Wilcoxon符号秩单样本检验w_statistic,p_value_w=stats.wilcoxon(heights-130)#打印检验结果print("单样本t检验结果:")print("t-statistic:",t_statistic)print("p-value:",p_value_t)print("Wilcoxon符号秩单样本检验结果:")print("符号秩和:",w_statistic)print("p-value:",p_value_w)```运行以上代码,将得到单样本t检验和Wilcoxon符号秩单样本检验的t值(t-statistic)或符号秩和(sumofranks),以及对应的p值。根据p值判断是否拒绝零假设,从而得出结论,样本的平均身高或中位数身高是否与130cm不相等。3.为研究关闭一些街道对汽车通行后的污染程度是否有所减少,连续两天,每天上午8:00到下午22:00,每60分钟測量一次污染率。第一天,这些道路开放,对应样本x;第二天,这些道路关闭,对应样本y。假设其他要素(如气候条件)总体相近,可以忽略,问在显著性水平α=0.05下,这些道路的封闭是否对空气质量提升带来显著影响。(提示:考虑使用两配对样本t检验或Wilcoxon符号秩两配对样本检验。)数据如下:x:214,159,169,202,103,119,200,109,132,142,194,104,219,119,234y:159,135,141,101,102,168,62,167,174,159,66,118,181,171,112要判断这些道路的关闭是否对空气质量提升带来显著影响,可以使用两配对样本t检验或Wilcoxon符号秩两配对样本检验。以下是使用Python进行计算的示例代码:```pythonimportscipy.statsasstats#第一天开放道路的污染率样本x=[214,159,169,202,103,119,200,109,132,142,194,104,219,119,234]#第二天关闭道路的污染率样本y=[159,135,141,101,102,168,62,167,174,159,66,118,181,171,112]#两配对样本t检验t_statistic,p_value_t=stats.ttest_rel(x,y)#Wilcoxon符号秩两配对样本检验w_statistic,p_value_w=stats.wilcoxon(x,y)#打印检验结果print("两配对样本t检验结果:")print("t-statistic:",t_statistic)print("p-value:",p_value_t)print("Wilcoxon符号秩两配对样本检验结果:")print("符号秩和:",w_statistic)print("p-value:",p_value_w)```运行以上代码,将得到两配对样本t检验和Wilcoxon符号秩两配对样本检验的t值(t-statistic)或符号秩和(sumofranks),以及对应的p值。根据p值判断是否拒绝零假设,如果p值小于显著性水平α(例如0.05),则可以得出结论,这些道路的关闭对空气质量提升带来显著影响。反之,如果p值大于等于显著性水平α,无法拒绝零假设,即道路的关闭对空气质量的提升没有显著影响。4.医院为分析感冒是否和季节存在关系,统计了10年内春、夏、秋、冬4季的呼吸道感染患者数,这里以秋、冬两季为例,假设数据如下(秋季样本x,冬季样本y):x:1238,1036,1175,1496,1097,1165,1243,1228,1367,1314y:1135,995,1023,1131,1125,1064,1108,1010,1002,1035問:(1)在显著性水平α=0.05下,秋、冬两季感冒是否存在显著性差异;(2)当显著性水平α=0.005时,秋、冬两季感冒是否存在显著性差异。(提示:可以考虑两独立样本的检验。)要判断秋、冬两季的感冒是否存在显著性差异,可以使用两独立样本的t检验。以下是使用Python进行计算的示例代码:```pythonimportscipy.statsasstats#秋季感冒患者数样本x=[1238,1036,1175,1496,1097,1165,1243,1228,1367,1314]#冬季感冒患者数样本y=[1135,995,1023,1131,1125,1064,1108,1010,1002,1035]#两独立样本t检验t_statistic,p_value_t=stats.ttest_ind(x,y)#打印检验结果print("两独立样本t检验结果:")print("t-statistic:",t_statistic)print("p-value:",p_value_t)```运行以上代码,将得到两独立样本t检验的t值(t-statistic)和p值。根据要求的显著性水平α,比较p值与α的大小,以判断是否存在显著性差异。-当显著性水平α=0.05时,如果p值小于0.05,则可以得出结论,秋、冬两季的感冒存在显著性差异。-当显著性水平α=0.005时,如果p值小于0.005,则可以得出结论,秋、冬两季的感冒存在显著性差异。根据计算结果得出结论,秋、冬两季的感冒是否存在显著性差异。5.为了研究广告是否对某商品起到促销作用,随机对15家销售该商品的商店进行调查,广告前样本x,广告后样本y。问在显著性水平α=0.05下,广告是否起到促销作用。数据如下:x:2,2,2,3,2,3,3,3,2,3,3,4,3,2,3y:3,3,2,4,4,5,2,1,2,4,4,4,4,1,5(提示:由于配对样本量差距并不明显,所以建议使用两样本配对的符号检验。)要判断秋、冬两季的感冒是否存在显著性差异,可以使用两独立样本的t检验。以下是使用Python进行计算的示例代码:```pythonimportscipy.statsasstats#秋季感冒患者数样本x=[1238,1036,1175,1496,1097,1165,1243,1228,1367,1314]#冬季感冒患者数样本y=[1135,995,1023,1131,1125,1064,1108,1010,1002,1035]#两独立样本t检验t_statistic,p_value_t=stats.ttest_ind(x,y)#打印检验结果print("两独立样本t检验结果:")print("t-statistic:",t_statistic)print("p-value:",p_value_t)```运行以上代码,将得到两独立样本t检验的t值(t-statistic)和p值。根据要求的显著性水平α,比较p值与α的大小,以判断是否存在显著性差异。-当显著性水平α=0.05时,如果p值小于0.05,则可以得出结论,秋、冬两季的感冒存在显著性差异。-当显著性水平α=0.005时,如果p值小于0.005,则可以得出结论,秋、冬两季的感冒存在显著性差异。根据计算结果得出结论,秋、冬两季的感冒是否存在显著性差异。6.某厂商进行原材料招标,有两家供货商可供货,抽样获得技术指标为样本x和y。数据如下:x:62,69,75,64,67,58,71,70,55,60y:68,65,65,68,64,63,75,77,58,65假设显著性水平α=0.05,请做如下分析:(1)若两家技术指标都能满足招标需求,问两家技术指标是否存在显著性差异。(提示:由于不能假设样本所在总体服从正态分布,因此使用两独立样本的非参数检验。)(2)请用Levene检验两家技术指标的方差齐性。(3)假设技术指标满足正态分布,请利用两独立样本t检验分析两家的技术指标均值、标准误差和95%置信度下的置信区间:要对两家供货商的技术指标进行分析,可以按以下步骤进行:(1)使用Mann-WhitneyU检验对两独立样本进行非参数检验,判断两家技术指标是否存在显著性差异。以下是使用Python进行计算的示例代码:```pythonimportscipy.statsasstats#样本x的技术指标x=[62,69,75,64,67,58,71,70,55,60]#样本y的技术指标y=[68,65,65,68,64,63,75,77,58,65]#Mann-WhitneyU检验statistic,p_value=stats.mannwhitneyu(x,y,alternative='two-sided')#打印检验结果print("Mann-WhitneyU检验结果:")print("U-statistic:",statistic)print("p-value:",p_value)```根据p值与显著性水平α的大小,判断是否存在显著性差异。如果p值小于α,可以得出结论两家技术指标存在显著性差异;如果p值大于等于α,则无法拒绝零假设,即两家技术指标不存在显著性差异。(2)使用Levene检验检验两家技术指标的方差齐性。以下是使用Python进行计算的示例代码:```pythonstatistic,p_value=stats.levene(x,y)#打印检验结果print("Levene检验结果:")print("Statistic:",statistic)print("p-value:",p_value)```根据p值与显著性水平α的大小,判断是否存在方差齐性。如果p值小于α,可以得出结论两家技术指标的方差不齐;如果p值大于等于α,则无法拒绝零假设,即两家技术指标的方差齐。(3)假设技术指标满足正态分布,可以使用两独立样本t检验分析两家的技术指标均值、标准误差和95%置信度下的置信区间。以下是使用Python进行计算的示例代码:```pythonmean_x=np.mean(x)mean_y=np.mean(y)std_x=np.std(x)std_y=np.std(y)n_x=len(x)n_y=len(y#计算标准误差se_x=std_x/np.sqrt(n_x)se_y=std_y/np.sqrt(n_y)#计算95%置信区间confidence_interval_x=erval(0.95,n_x-1,loc=mean_x,scale=se_x)confidence_interval_y=erval(0.95,n_y-1,loc=mean_y,scale=se_y)#打印结果print("样本x均值:",mean_x)print("样本x标准误差:",se_x)print("样本x的95%置信区间:",confidence_interval_x)print("样本y均值:",mean_y)print("样本y标准误差:",se_y)print("样本y的95%置信区间:",confidence_interval_y)```以上代码将得到样本x和样本y的均值(mean_x和mean_y)、标准误差(se_x和se_y)以及95%置信度下的置信区间(confidence_interval_x和confidence_interval_y)。请注意,在计算t检验和置信区间之前,确保样本满足正态分布的假设。如果无法满足该假设,可以回到第一步使用非参数检验Mann-WhitneyU检验进行分析。7.某证券研究机构想分析A基金进入股票市场后,是否真的发挥了稳定股票市场的作用。该机构收集了8家上市公司的A基金入市前(样本x)和入市后(样本y)的股票价格。请在显著性水平α=0.05下,分析样本x和y是否有显著性差异。(提示:使用两配对样本检验。)数据如下:x:29.3,95.4,55.7,56.1,82.1,40.5,48.9,61.7y:29.9,105.1,59.9,63.1,79.1,55.7,50.4,60.3要分析样本x和样本y是否存在显著性差异,可以使用两配对样本t检验。以下是使用Python进行计算的示例代码:```pythonimportscipy.statsasstats#样本x的股票价格x=[29.3,95.4,55.7,56.1,82.1,40.5,48.9,61.7]#样本y的股票价格y=[29.9,105.1,59.9,63.1,79.1,55.7,50.4,60.3]#两配对样本t检验t_statistic,p_value_t=stats.ttest_rel(x,y)#打印检验结果print("两配对样本t检验结果:")print("t-statistic:",t_statistic)print("p-value:",p_value_t)```根据p值与显著性水平α的大小,判断是否存在显著性差异。如果p值小于α,可以得出结论样本x和样本y存在显著性差异;如果p值大于等于α,则无法拒绝零假设,即样本x和样本y不存在显著性差异。根据计算结果得出结论,样本x和样本y是否存在显著性差异。8.参照表3.23,举一个多组独立样本的中位数或分布显著性差异检验的例子,然后进行检验。(提示:本题属于独立样本检验问题,可以不假设总体服从正态分布。可采用下述方法:(1)将中位数視作中心,代表平均销量,尝试独立样本的中位数检验;(2)使用K-W检验;(3)使用两独立样本中位数检验进行两两检验等。)略。9.对表3.27进行转置,在显著性水平α=0.05下,根据4种红葡萄酒的评分来分析13位评酒师是否存在显著性差异。(提示:可以使用多配对样本非参数检验。)略。10.请使用Kendall协同系数检验完成表3.28的检验,并结合该问题和协同系数值的大小进行分析。略。11.请举出两独立样本的非参数检验的例子,收集数据并进行检验。12.请举出两配对样本的非参数检验的例子,收集数据并进行检验。数据处理SPSS操作SPSS输出结果分析20组全为正秩,培训后成绩均大于培训前,显著性为0,即两组配对样本存在显著差异(成绩显著提高)符号检验结果相同。13.请举出多独立样本的非参数检验的例子,收集数据并进行检验。数据处理SPSS操作SPSS输出结果分析p=0<0.05认为三组数据存在显著差异。中位数检验也认为三组数据存在显著差异。三种检验方式均认为三组数据的分布存在显著差异。14.请举出多配对样本的非参数检验的例子,收集数据并进行检验。数据处理数据1适用于第一种检验数据2适用于第二种检验数据3适用第三种检验SPSS操作操作1操作2操作3SPSS输出结果分析结果1可以观察四组数据的平均值。显著性小于0.05,拒绝原假设,认为四组数据存在显著性差异。结果2可以观察每个选手数据的情况W值为0.967,接近于1,说明裁判对选手打分标准的一致性很高(完全一致为1)P值为0,小于0.05,拒绝原假设,说明12个选手的得分存在显著差异。注意:W是针对的评分标准,即对于同一个选手,裁判打分的一致性;P值针对的是选手之间的得分差异。结果3对四个节目满意观众的数量分别是:8,6,7,9显著性为0.290,说明观众对四个节目的满意度不存在显著性差异。15.在3.4.5节中,使用A=a作为检验统计量,也可选择B=b作为检验统计量。由于a与b的作用相反,得到的B概率分布与表3.15的概率分布前后翻转。试进行解释。略。略。型号XYZ略。略。独立样本T检验(比较成组设计的两个样本);操作:打开分析一比较均值-独立样本t检验我们输入数据的时候,两个样本的数据是要在一列变量里的,另外还有一列=二分类变量为这列因变量做标注。 如果进行多因素方差分析一般是主效应显著后才会进一步查看事后多重比较,对于交互作用显著的模型才会更深一步研究简单效应分析。弹出各组均值的两两比较窗口。略。两者区别在于:spearman相关只能计算等级数据,但pearson相关却既可以用来算等级相关,也可以算连续数据的相关,只不过一般默认用pearson相关计算连续数据的相关。1、pearson相关通常是用来计算等距及等比数据或者说连续数据之间的相关的,这类数据的取值不限于整数,如前后两次考试成绩的相关就适合用pearson相关。2、spearman相关专门用于计算等级数据之间的关系,这类数据的特点是数据有先后等级之分但连续两个等级之间的具体分数差异却未必都是相等的,比如第一名和第二名的分数差就未必等于第二名和第三名的分数差。回答主动学习28学习4略。XY略。方差分析(AnalysisofVariance,简称ANOVA),又称"变异数分析"或"F检验",是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。折叠回归模型的协方差分析如果那些不能很好地进行试验控制的因素是可量测的,且又和试验结果之间存在直线回归关系,就可利用这种直线回归关系将各处理的观测值都矫正到初始条件相同时的结果,使得处理间的比较能在相同基础上进行,而得出正确结论。这一做法在统计上称为统计控制。这时所进行的协方差分析是将回归分析和方差分析结合起来的一种统计分析方法,这种协方差分析称为回归模型的协方差分析。折叠相关模型的协方差分析方差分析中根据均方MS与期望均方EMS间的关系,可获得不同变异来源的方差分量估计值;在协方差分析中,根据均积MP与期望均积EMP间的关系,可获得不同变异来源的协方差分量估计值。这种协方差分析称为相关模型的协方差分析。控制变量在物理学的概念是指那些除了实验因素(自变量)以外的所有影响实验结果的变量,这些变量不是本实验所要研究的变量,所以又称无关变量、无关因子、非实验因素或非实验因子。只有将自变量以外一切能引起因变量变化的变量控制好,才能弄清实验中的因果关系。控制变量衍生到生活中的作用是控制一定影响因素从而得到真实的结果。随机变量(randomvariable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。随机事件数量化的好处是可以用数学分析的方法来研究随机现象。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的实例。协变量:在实验的设计中,协变量是一个独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。协变量(covariate)在心理学、行为科学中,是指与因变量有线性相关并在探讨自变量与因变量关系时通过统计技术加以控制的变量。常用的协变量包括因变量的前测分数、人口统计学指标以及与因变量明显不同的个人特征等。方法分析模型可分为固定因素(Fixedfactor)模型和随机因素(Randomfactor)模型,固定因素模型是指数据中包括该控制因素的全部水平对应的观察值,可直接进行估计;随机因素模型是指某些控制因素的一些水平观察值收集不完全,此时将收集不完全的控制因素作为随机因素建立模型。如果各家门店所处的地理位置不同,平时销售的时候,这些门店就存在显著性差异,假设使用日常销售变量代表平时的正常销量,那么该日常销量被视作协变量,在做方差分析时,应该针对新的观察变量(销量)中去除协变量(日常销量)的影响。在协方差分析中使用回归技术分析协变量对销量的影响,去除协变量的影响后,再做方差分析,许多统计软件对协方差分析都有很好的支持,如SPSS。第5章数据的预处理与举例分析1.举例说明数据分布形态,包括集中趋势、多中心集中趋势、U形趋势、单端趋势。数据的常见分布趋势包括集中趋势、多中心集中趋势、两端趋势和单端趋势。集中趋势(Centraltendency),是指一组数据中各数据有向其中心(如平均数或中位数)靠拢的趋势,如图5.1(a)展示了具有集中趋势的正态分布。集中趋势的数据集特点是,在分布范围内处于中间范围的数据量较大,而处于两端的数据量较小,数据可以通过偏度系数和峰度系数来度量倾斜和尖锐程度。应用中,大多数属性数据具有集中趋势。有些数据可能具有多个中心,属于多中据,记录全年温度①后,统计年温度(单位:℃)均值为7.1029,标准差为15.0137,中位数为最低值为-24.65,最高温度为35.56,极差为60.21,四分位极差为27.83,直方图如图5.1(b)所示,呈现整体趋势是四个中心的集中趋势,还可大致看作两个中心的集中趋势。两端趋势(Bothendstendency)是指数据分散在某一范围的两端更多,中心较少,如图5.1(c)所示,也称U形趋势。还有单端趋势(Endtendency),是指大多数数据只处于一端,而其他范围内的数据较少。2.简述数据预处理中,数据清理、数据集成、数据变换和数据归约的主要工作内容。数据清理(Datacleaning)的主要任务是解决数据的“准确性”“完整性”和“一致性”问题,主要工作包括去除数据中的噪声、解决缺失值问题、纠正数据值冲突。数据集成(Dataintegration)的主要任务是把不同来源、格式、性质的数据在逻辑上或物理上有机地集成在一起,以便于数据统一集中处理,如图5.2(a)所示,主要包括属性类型一致、编码一致处理,冗余数据分析处理和数据存储。数据变换(Dataconversion)的主要任务是依据数据分析模型的需要,将原始数据变换为所需要的数据形式。数据变换中最常用的是数据规范化。数据归约(Datareduction)的主要任务是进行数据量上的精简,减少数据分析和数据存储的数据量,主要包括维度规约、数值规约、数据压缩和抽样归约。3.说明为什么向量、矩阵和表属于常见的数据组织方式。(1)计算效率在处理数据时,我们通常想要将它们输入到机器学习模型中,这个过程涉及大量的计算,通常需要对许多数字进行加法和乘法运算。(2)线性代数工具使用向量/矩阵表示数据的另一个优点是,我们可以利用线性代数和数学工具。一个很好的例子是在计算机视觉中,矩阵被用来描述图像转换(例如,平移、旋转、反射、仿射、投影等)。(3)更加简洁在处理复杂的数据情况时,使用向量和矩阵表示概念可以更加方便、清晰和简洁。我们可以将数据分组到指定的向量或矩阵中,而不是给每个数据点一个名称。此外,我们还可以使用向量/矩阵约定来表示对数据的操作。许多数据和模型的操作用向量/矩阵表示的原因是:用向量和矩阵表示的数据可以实现高效、更快的计算,还可以使用线性代数技术。4.在kNN分类模型中,使用表描述数据集的优点是什么?表的行和列分别代表什么?分类(Classification)是指预先存在所有可能的类别,为一个新的样本对象标记其所属的类别。样本数据常用图5.9(a)所示的形式来组织,其中包括特征数据矩阵X和分类类别向量y。5.多种编程语言支持直接定义变量、对象、向量、矩阵、表和立方体的数据结构,还可以自定义复杂的数据结构,如树、图结构。有些编程语言提供了常用数据分析函数,便于直接调用,有些语言通过软件库形式提供支持。请以科研或实际工程为背景,分析一般选择编程语言的因素有哪些。简要列举常见的数据分析和数据挖掘的编程语言和软件工具。一、基础软件:Excel、SQL二、BI软件:①传统BI软件:SAPBO、IBMCognos、OracleBIEE②敏捷BI软件:Tableau、PowerBI、FineBI三、统计分析软件:MATLAB、SPSS、Stata、SAS、EViews四、数据分析编程语言:Python、R语言五、大数据分析框架①批处理:MapReduce、Spark②流处理:SparkStreaming、Flink③交互式处理:Hive、SparkSQL6.假设平面直角坐标系内存在两个点π=[1,2]、x₂=[4,6],请在平面直角坐标系中绘制这两个点,并计算曼哈顿距离、欧氏距离、切比雪夫距离,指出这三种距离的直观含义。略。7.假设有x=[l,2]、x₂=[2,2]、x₃=[2,1]、x₄=[3,1]4个点,请在平面直角坐标系中绘制这4个点,并计算各点之间的曼哈顿距离、欧氏距离、切比雪夫距离和马氏距离。略。8.马氏距离就是规范化的主成分空间中的欧氏距离,因此考虑到受各属性方差大小的影响,有时马氏距离值可能小于或等于欧氏距离,也可能大于欧氏距离。现假设二维属性,两个属性相互独立,且都服从正态分布,请结合图5.6(b)分析,在哪种情况下,马氏距离可能小于欧氏距离;在哪种情况下,马氏距离可能大于欧氏距离;在哪种情况下,马氏距离可能等于欧氏距离。略。9.以某大学某专业的一个班级为例,设计用于对比学生是否相似的属性列表(各个学生属性)。假设属性中包括分类属性和数值属性,请构造一个计算学生相似程度的相似度计算公式,并举例说明如何利用该公式计算出学生相似度。略。10.假设你是某大型超市的业务主管,现想对超市会员进行相似度分析。请设计会员数据的属性,并利用这些属性构建相似度计算公式,来度量会员的相似度,给出计算举例。略。11.在第10题的基础上,假设你想将会员划分为“钻石会员”“白金会员”“金卡会员”“银卡会员”“普通会员”5个级别。请设计一个k近邻会员级别分类模型,说明该模型中的属性列表、属性类型、相似度计算、分类方法。略。12.简述k近邻模型中的简单投票法决策原理和加权投票法决策原理。分析在加权投票法中,如何才能更好地设置权重。1.领域专家知识:根据领域专家的经验和知识,为每个投票者分配权重。专家可以根据投票者的背景、信誉和专业知识来评估他们的意见和决策能力,并根据这些因素设定权重。2.统计分析:通过对历史数据或指标进行统计分析,推断每个投票者的权重。例如,可以使用回归分析、聚类分析或主成分分析等方法来确定投票者的重要性。3.对等权重:在某些情况下,如果投票者之间没有明显的差异或没有可靠的依据来设置权重,可以考虑给予每个投票者相等的权重。这意味着每个投票者的意见对结果的影响是相同的。4.机器学习模型:可以使用机器学习模型来推断每个投票者的权重。这可以通过构建一个训练集,并根据标签(结果)来训练模型,来预测每个投票者对结果的贡献度。在实际应用中,适用的权重设置方法可能因情况而异。较好的设置权重的方法可能是一个复杂的决策过程,需要综合考虑许多因素。根据具体问题和数据的特点,您可能需要选择合适的方法或结合多个方法来确定权重。请注意,权重的设置可能存在主观性和不确定性,因此在进行加权投票时,透明度和公正性非常重要。确保权重设置的过程是透明、可解释的,并与相关方进行充分的讨论和沟通。13.选择一种编程语言,如Python、C++、R、Matlab,计算曼哈顿距离(城市块距离)、欧氏距离、切比雪夫距离、余弦相似度、Pearson相似度。再用表5.5的数据集做练习。当使用Python计算距离和相似度时,可以借助于`scipy`库中的`distance`和`spatial`模块。下面给出了分别计算曼哈顿距离、欧氏距离、切比雪夫距离、余弦相似度和Pearson相似度的示例代码:```pythonfromscipy.spatialimportdistancefromscipy.statsimportpearsonr#两个向量x=[1,2,3,4,5]y=[6,7,8,9,10]#曼哈顿距离(城市块距离)manhattan_distance=distance.cityblock(x,y)print("曼哈顿距离:",manhattan_distance)#欧氏距离euclidean_distance=distance.euclidean(x,y)print("欧氏距离:",euclidean_distance)#切比雪夫距离chebyshev_distance=distance.chebyshev(x,y)print("切比雪夫距离:",chebyshev_distance)#余弦相似度cosine_similarity=1-distance.cosine(x,y)print("余弦相似度:",cosine_similarity)#Pearson相似度pearson_similarity,_=pearsonr(x,y)print("Pearson相似度:",pearson_similarity)`请注意,相似度度量是与距离度量有所不同的概念。在计算Pearson相似度时,我们使用的是`scipy.stats`模块中的`pearsonr`函数。14.选择一种编程语言或软件工具,如Python、C++、R、Weka,实现Iris数据集上的kNN分类,并将数据集按9:1划分为训练集和测试集,评估kNN分类模型的误差率和准确率,评价k取不同值时的性能。要在Python中实现Iris数据集上的kNN分类算法并评估模型的性能,可以使用`sklearn`库中的`KNeighborsClassifier`和`train_test_split`模块。以下是示例代码:```pythonfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.metricsimportaccuracy_score#加载Iris数据集iris=load_iris()X=iris.datay=iris.target#将数据集划分为训练集和测试集(9:1的比例)X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.1,random_state=42)#定义kNN分类器knn=KNeighborsClassifier()#训练模型knn.fit(X_train,y_train)#预测测试集y_pred=knn.predict(X_test)#计算准确率accuracy=accuracy_score(y_test,y_pred)error_rate=1-accuracyprint("准确率:",accuracy)print("误差率:",error_rate)```在评估模型的性能时,你可以尝试不同的k值,并计算相应的误差率和准确率。例如:```pythonk_values=[1,3,5,7,9]forkink_values:knn=KNeighborsClassifier(n_neighbors=k)knn.fit(X_train,y_train)y_pred=knn.predict(X_test)accuracy=accuracy_score(y_test,y_pred)error_rate=1-accuracyprint(f"k={k}:准确率={accuracy},误差率={error_rate}")```15.选择一种编程语言或Excel等软件工具,计算Iris数据集各属性的Pearson相关系数和Spearman秩相关系数,分析属性的相关程度。要计算Iris数据集中各属性的Pearson相关系数和Spearman秩相关系数,并分析属性相关程度,可以使用`scipy`库中的`pearsonr`和`spearmanr`函数。以下是示例代码:```pythonimportnumpyasnpfromscipy.statsimportpearsonr,spearmanrfromsklearn.datasetsimportload_iris#加载Iris数据集iris=load_iris()X=iris.data#计算Pearson相关系数pearson_correlations=np.corrcoef(X,rowvar=False)print("Pearson相关系数矩阵:")print(pearson_correlations)#计算Spearman秩相关系数spearman_correlations,_=spearmanr(X)print("Spearman秩相关系数矩阵:")print(spearman_correlations)```这段代码将计算出Iris数据集中各属性之间的Pearson相关系数矩阵和Spearman秩相关系数矩阵。相关系数的取值范围为-1到1,数值越接近1表示两个属性之间的相关性越强,越接近-1表示两个属性之间的相关性越弱。你可以根据输出的相关系数矩阵进行属性相关程度的分析。通常,相关系数绝对值大于等于0.7可认为是强相关,绝对值在0.3-0.7之间可认为是中等程度相关,绝对值小于0.3可认为是弱相关。16.借助编程语言对Iris数据集按列属性绘制盒图,再按照各花的类别分组,分别绘制盒图(结果可与图5.10比较),借助盒图分析各属性对分类是否有用。要借助编程语言对Iris数据集按列属性绘制盒图,并按照各花的类别分组绘制盒图,可以使用`matplotlib`库进行可视化。以下是示例代码:```pythonimportmatplotlib.pyplotaspltimportpandasaspdfromsklearn.datasetsimportload_iris#加载Iris数据集iris=load_iris()X=iris.datay=iris.target#将数据集转换为DataFramedf=pd.DataFrame(X,columns=iris.feature_names)df['target']=y#按列属性绘制盒图df.boxplot(column=iris.feature_names)plt.title("按属性绘制盒图")plt.show()#按照各花的类别分组绘制盒图df.boxplot(column=iris.feature_names,by='target')plt.title("按类别分组绘制盒图")plt.suptitle('')plt.show()```这段代码会首先根据Iris数据集创建一个DataFrame,然后使用`boxplot`函数绘制按列属性的盒图。接着使用`boxplot`函数按照各花的类别分组绘制盒图。你可以根据生成的图形对各属性在不同类别下的分布进行观察和比较。通过盒图的分析,你可以对各属性对分类是否有用有一些初步的了解。如果某个属性的盒图显示不同类别间的分布有显著差异,那么这个属性可能对分类起到了一定的区分作用。第6章回归分析1.简述线性回归分析的假设前提,并给出设置这些假设的原因。变量总体服从正态分布、个体间随机误差相互独立、因变量与自变量存在线性2.回归建模前一般绘制自变量与因变量的散点图,请解释绘制这些图形的含义。对表6.3中数据,分别绘制专卖店的面积、距地铁口距离与销售额的散点图。略。3.回归分析前有时也绘制自变量的散点图矩阵,请简述其作用。散点图(Scatterplot)主要用于展示两个变量X和Y的相关性,也常在立体空间中用散点图分析三个变量的相关性。当变量较多时,可以通过两两变量绘制散点图构成散点图矩阵(又称散布图)。散点图的绘制方法:将X和Y的配对点(X,Y)绘制在笛卡儿坐标系中。线性相关是指Y随X呈线性函数关系,是最常用的一种相关关系。图3.2(a)和图3.2(b)展示的是线性相关,图3.2(c)显示的是线性不相关。4.假设8个样例的数据集如下,其中,x1和x₂是解释变量,y是被解释变量。借助软件(如SPSS或C++配套库)进行线性回归分析。X4.74.1X9.29.6X₃X4.53.8y9.19.610.51110.8(1)请计算各变量之间的相关系数,并绘制散点图。(2)建立多元线性回归方程。(3)进行参数检验,按显著性水平0.05,判别参数的显著性。(4)如果存在不显著的解释变量,分析其原因。本题采用剔除后再建模。(5)进行回归模型检验,并根据判定系数和修正判定系数分析模型拟合精度。(6)进行残差分析,判别异常样例并进行DW检验。(7)请依据回归结果对回归系数进行解释。(8)给定新样例“x₁=3.5,x₂=8.8,x₃=4.6”,预测y值,给出置信度95%的预测区间。略。5.简要解释线性回归中R²的含义和修正R²的含义。在统计学中对变量进行线行回归分析,采用最小二乘法进行参数估计时,R平方为回归平方和与总离差平方和的比值,表示总离差平方和中可以由回归平方和解释的比例,这一比例越大越好,模型越精确,回归效果越显著。R平方介于0~1之间,越接近1,回归拟合效果越好,一般认为超过0.8的模型拟合优度比较高。6.说明标准化和非标准化回归系数有什么区别。非标准化系数与标准化系数的主要区别有:1.标准化是去除量纲的2.标准化回归系数体现了变量间的相对重要性,而且与自变量的离散程度有关,如果其波动程度较大,那么就会显得比较重要;否则,就显得不太重要。标准化回归系数正是用于检测这种重要性的。3.标准化回归系数的比较结果,只适用于某一特定环境,而不是绝对正确的,它可能因时因地而变化。因而称标准化的系数是相对的,而非标准化的系数则是绝对的。当需要比较多个自变量对因变量相对作用大小时,可采用标准化回归系数,当只是想解释自变量对因变量的作用时,可采用非标准化的回归系数。标准化的常数项是没有值的,因此,标准化的回归系数不能用于回归方程。7.对于第6.2.4节中的残差序列的随机性检验:①绘制残差顺序图,观察残差的分布;②绘制残差的Lag-1时滞图,观察是否存在自相关性;③结合DW检验,说明观察残差顺序图和Lag-1时滞图的要点。略。8.如果残差序列存在自相关性,说明什么问题?一般应如何进一步分析?因为有遗漏变量。这个变量成为了联系残差之间的重要中介,所以表现出自相关性。模型函数形式设定有误。比如说把一个非线性形式的方程用线性表示,或者说明明对数线性模型,用了线性方程直接描述。系统本身的惯性问题。由于系统惯性的原因使得相邻两期之间存在自相关。9.第7章中给出多重共线性检验,这里先分析一下,如果多个变量存在较强的多重共线性,将会对模型的解释和预测带来哪些影响?定义:回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,因变量所期望的变化量。在回归方程中表示自变量x对因变量y影响大小的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论