用python进行数据分析_第1页
用python进行数据分析_第2页
用python进行数据分析_第3页
用python进行数据分析_第4页
用python进行数据分析_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、用python进行数据分析一、样本集本样本集来源于某高中某班78位同学的一次月考的语文成绩。因为每位同学的成绩都是独立的随机变量,遂可以保证得到的观测值也是独立且随机的样本如下:grades=131,131,127,123,126,129,116,114,115,116,123,122,118,121,126,121,126,121,111,119,124,124,121,116,114,116,116,118,112,109,114,116,116,118,112,109,114,110,114,110,113,117,113,121,105,127,110,105,111,112,104,

2、103,130,102,118,101,112,109,107,94,107,106,105,101,85,95,97,99,83,87,82,79,99,90,78,86,75,66;二、数据分析1.中心位置(均值、中位数、众数)数据的中心位置是我们最容易想到的数据特征。借由中心位置,我们可以知 道数据的一个平均情况,如果要对新数据进行预测,那么平均情况是非常直观地 选择。数据的中心位置可分为均值(Mear),中位数(Median),众数(Mode 其中均值和中位数用于定量的数据,众数用于定性的数据。均值:利用python编写求平均值的函数很容易得到本次样本的平均值3132 defavera

3、ge(arr) :|33sum=G.0;34for i in range(len(arr):35sLm=sum+arr i J ;妬rPturn sim/lpn(arr)得到本次样本均值为109.9中位数:113众数:1162.频数分析2.1频数分布直方图柱状图是以柱的高度来指代某种类型的频数,使用Matplotlib对成绩这一定性变量绘制柱状图的代码如下:精品资料15 rates=(lf 3,5,6,1UB, 16 r3;止 l or 丄 in rdiiyef len( r dtes) j:I. natEsiJvat«li/7fl.d;a»U66f 77.3>M.

4、6,95,6405.2,114.4r 123.9,134,7;19 i-20 并姣睪曲屣癖图/. fig=plt. 1 igur亡f igs丄Egiguj):.-'plt.bftr«id± rat«>idth = 3,5, fftcecolor 二'1 i.ght$kvhlu$' .edgwolor 二'wh i.t plLgrt= mta ); 2'. for x,y in iplaid juteb);pit.textxtfl.5r y4<e81f A.2f1 X yh has'center't

5、 w 'botton'); plt.text(x+e.5, 札碇,'V2f' k x> ha=(center*t va= 'bottom1);26 pit. plot (Bids f0tBf8fetef»l«lMrkerB *)fJ plt.title( frrlistrihution h:stoqi;.' plt.xlobelliJl,Doinr5,f fcntpr&perties= S in'll lei . si? e=1151);?9pit.xLellu"f r qiienc/*f fo

6、ntproperties='5 .rnHci »sires lri1 )i这里我主要使用matplotlib.pyplot as pit上的bar ()函数画出直方图。这里所使用的text和title方法是用来给图形加上标注和题目的。运行程序可得到如下频率分布直方图:040frequancy distribution NEtogrsmOVO3C-0酊0 2C-OK010O3E77.J卻 M.&3 9095 60105.20110 114 40函九 U0DO nts60 fi JC700.006070,7080,8090,90100,100110,110120,1201

7、30,130140;这里我将数据分为八组:每组对应中点为:66,77.3,84.6,95.6,105.2,114.4,123.9,130.7每组对应频率:0.01,0.04,0.06,0.08,0.18,0.38,0.21,0.04从该频率直方图我们可以看出该班成绩主要分布在100130区间,当然也存在130多的高分和60多的低分。总体成绩还算不错,低于均分的同学要继续努力。2.2相对频率折线图这里我主要使用matplotlib.pyplot as plt上的plot ()函数画出折线图。程序代码如下:精品资料 fig=plt,figurefig5ize=(9i6;pit 血珂«曲硏

8、at 匪# width = 3,5rfacecalQr = ' lightskyblueh .edgecolor = * white - ,alii=' center1 )j for x,y in ziptnidsj ra七亡5);pit.teKt(x+fl.5f y+,fl01P '.2t1 % y, has'center't wa= "bottcvi1);pit,text(x+0,5, *0.02,电.2f 先 k, ha='center'. v= 1 bottom'):pit i plo 11 m i ds. 0,

9、919 r 0.9 - 9. C. 01. ii a rke r=-】;pit十,f|5卬川口¥ di 5trihutinn 1 n*7, h isi cgrm' J;plt.xlUu'pniints-r Tantproperties= 5iWL1n1);plt.ylabel(u11 frequency fantprop«rties1 SiinHei1 (si;e= 15');pit»plat I« idsj r ates);运行程序可得到如下折线图:而低于一百分的也占有一定的比例。>学2.3箱须图中位数:113上四分位数:

10、Q仁124下四分位数:Q2=105四分位数差:IQR=19此时可以绘制该班的箱须图进行成绩分析,这里使用Matplotlib 中的boxplot绘制关于身高的箱形图,程序如下:21賽绘制籍露图def drawBox(height5;23 絃燧劝個24 破一个枣数为桧銓制的定虽数据25 书箕二个參数为数据曲文字说明pyplot.boxplot(heightst labels=1 Heights')27 pyplot.title('Points Of Male Students1) pyplot.show()29drawBox(grades)精品资料运行程序后可以得到该班关于成绩的

11、箱须图:从该箱须图也可以清楚的看出本班的成绩分布,以及中位数所在的位置所在。由于箱须图的主要目的用来比较, 而这里只有一组数据, 就不进行比较了。 但是仍要注意的是在下边 缘以外的异常值点,这些同学的成绩在本班处于垫底,应格外注意这些同学的学习习惯,积极引导和教育。2.4经验累积分布图总体的分布函数称为理论分布函数。经验累积分布函数利用样本来估计和推断总体的分 布函数F(x).这里主要利用我利用 python的Matplotlib 编写了 drawCumulativeHist函数进行经验累积分布图的绘制,程序如下:Urlpf drawCumulativeHist (heights):?4 py

12、plhi st(heights,normedTrup, hittypp1stpp', cimulati ve=Tru?)pyplotxlabeK'Heights')26 pyplot./label(1rrequency1)2 ! pyplot.1 Points OfStudents )28 pyplot.showt)29drawCumulativeHist (mids)可得到如下的经验累积分布图io.,族of严旅也Q20 01 II |IIII专I607000 9C 100110120130140Heiahh此时我们可以画出正态概率分从该经验累积图上可以直观的看出该样本

13、服从正态分布。 布图进行验证。精品资料2.5正态概率分布图在经验累积分布图上连接上四分位点和下四分位点并延长,可以得到正态概率分布图, 程序如下:jL-r18 for i in range(ten(rates )1): rat&si+l=ratesi)+ratesi+1;20 mids=:66r 77.3,34.6,95.6,105.214.4,123.9,130.7;2122 Ql=124;Q?=L05 ;24IQR=Ql-t)2;/spit.plat(midrates,兀 plT. pl of (mi 亦,rates, 1;27 pit.plot(165,124,0.38.0.96);28运行程序得到正态概率分布图。可见画出的样本数据的图成线性,故该组数据服从正态分布。三、结论通过以上种种方法对该组样本进行分析, 我们发现改组样本数据服从正态分布。 该班的 成绩分布主要集中在 100130区间,其中不乏高分但也有低于边缘值的异常点。 总体来说该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论