版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1语言介绍 数据处理、绘图、编程与统计检验2什么是R ?The R Project for Statistical ComputingR是一种统计绘图语言,也指实现该语言的软件 1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言 从S统计绘图语言演变而来,可看作S的“方言”!免费、软件本身及程序包的源代码公开。3 R登陆界面(Windows版)路径: 开始所有程序R 2.11.0菜单栏菜单栏快捷按钮快捷按钮控制台控制台光标光标:等待输入
2、等待输入4R程序包(R Packages)程序包是什么?程序包是什么? R程序包是多个函数的集合,具有详细的说明和示例。 Window下的R程序包是经过编译的zip包。每个程序包包含R函数、数据、帮助文件、描述文件等。为什么要安装程序包?为什么要安装程序包? R程序包是R功能扩展,特定的分析功能,需要用相应的程序包实现。 例如:系统发育分析,常用到ape程序包,群落生态学vegan包等。5常用R程序包(I)ade4利用欧几里得方法进行生态学数据分析adephylo系统进化数据挖掘与比较方法ape系统发育与进化分析apTreeshape 进化树分析bootBootstrap检验cluster聚类
3、分析ecodist生态学数据相异性分析FD功能多样性分析geiger物种形成速率与进化分析6常用R程序包(II)picante群落系统发育多样性分析raster栅格数据分析与处理seqinrDNA序列分析sp空间数据处理spatstat空间点格局分析,模型拟合与检验splancs空间与时空点格局分析statsR统计学包Bioconductor生物学数据分析工具vegan植物与植物群落的排序,生物多样性计算7安装程序包的方法1 用函数 install.packages(),如果已经连接到互联网,在括号中输入要安装的程序包名称,选择镜像后,程序将自动下载并安装程序包。例如: 要安装picante包
4、,在控制台中输入 install.packages(picante)2 安装本地zip包路径:Packagesinstall packages from local files选择本地磁盘上存储zip包的文件夹。8程序包使用程序包的中函数,都要先导入,再使用,因此导入程序包是第一步。在控制台中输入如下命令:library(affy)程序包内的函数的用法与R内置的基本函数用法一样。library(affy)9查看函数的帮助文件函数的默认值是什么?函数的默认值是什么? 怎么使用?怎么使用? 使用时需要注意什么问题?使用时需要注意什么问题? 需要查询函数的帮助。需要查询函数的帮助。1 ?t.test
5、 2 RGuiHelpHtml help3 apropos(t.test)4 help(t.test)5 help.search(t.test)6 查看查看R包包pdf手册手册10二 函数与对象11R的函数R是一种解释性语言,输入后可直接给出结果。功能靠函数实现。函数形式: 函数(输入数据,参数= )如果没有指定,则参数的以默认值为准。例如:平均值 mean(x, trim = 0, na.rm = FALSE, .) 线性模型 lm(yx, data=test)12R的函数每一个函数执行特定的功能,后面紧跟括号,例如:平均值 mean()求和 sum()绘图 plot()排序 sort()
6、除了基本的运算之外,R的函数又分为”高级”和”低级”函数,高级函数可调用低级函数,这里的”高级”函数习惯上称为泛型函数。 如plot()就是泛型函数,可以根据数据的类型,调用底层的函数,应用相应的方法绘制相应的图形。这就是面向对象编程的思想。13R有哪些函数?查询的方法:查询的方法:HelpHtml helppackageslog() log10() exp() sin()cos() tan() asin()acos()binom.test()fisher.test()chisq.test()glm(y x1+x2+x3, binomial)friedman.test()mean()sd()v
7、ar().14R函数调用及其选项箱线图绘制函数的调用boxplot(daytype, data=bac, col=red, xlab=Virus, ylab=days)daytype,以type为横轴,day为纵轴绘制箱线图。data=bac 数据来源baccol=“red” 箱线图为红色xlab=“Virus” 横轴名称为Virusylab=“days” 纵轴名称为days15赋值与注释在控制台中键入如下命令2 + 2a - 2代替b - 2c 1 + 11 2 1 + 1 * 71 8 (1 + 1) * 71 14 x x1 1 y = 2 y1 2 3 - z z1 3 (x + y)
8、 * z1 9Math:Variables:17 x x1 0 1 2 3 4 y y1 1 2 3 4 5 z z 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 31 32 33 34 35 36 37 38 39 40 41 42 43 44 4546 46 47 48 49 50Arrays:18运算符数学运算 运算后给出数值结果+, -, *, /, (幂幂)比较运算 运算后给出判别结果(TRUE FALSE), , =, =, !=逻辑运算 与、或、非!,
9、&, &, |, |19外部数据读取 最为常用的数据读取方式是用read.table() 函数或read.csv()函数读取外部txt或csv格式的文件。 txt文件,制表符间隔 csv文件,逗号间隔 一些R程序包(如foreign)也提供了直接读取Excel, SAS, dbf, Matlab, spss, systat, Minitab文件的函数。例:test.data-read.csv(D:/R/test2.csv,header=T)header=T表示将数据的第一行作为标题。read.table(file=file.choose(),header=T) 可以弹出对话框,
10、选择文件。20例:从数据输入到t检验编号123456身高 m1.751.801.651.901.741.91体重kg607257909572表2 六名患者的身高和体重现有6名患者的身高和体重,检验体重除以身高的平方是否等于22.5。21第一种方式:从控制台输入数据数据量较少时可以从控制台直接输入: height-c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) weight-c(60, 72, 57, 90, 95, 72) sq.height-height2 ratio-weight/sq.height t.test(ratio, mu=22.5) 22图14 在E
11、xcel中将数据存为txt文件23例:t检验(续)一般从txt文档读取数据。每一行作为一个观测值。每一行的变量用制表符,空格或逗号间隔开。read.table(”位置位置”, header=T)read.csv(”位置位置”,header=T)#从外部读取数据data1-read.table(d:/t.test.data.txt,header=T)bmi- data1$weight/data1$height2t.test(bmi, mu=22.5) #t检验24向量的创建四种类型的向量字符型character-c(China, Korea, Japan, UK, USA, France, In
12、dia, Russia) 数值型numeric-c(1, 3, 6, 7, 3, 8, 6, 4)逻辑型logical-c(T, F, T, F, T, F, F, T)复数型 略25向量的创建生成向量的函数 c(),rep(),seq(),”:”c(2,5,6,9) rep(2,times=4) seq(from=3, to=21, by=3 ) 1 3 6 9 12 15 18 21“:” 1:15 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15通过与向量的组合,产生更为复杂的向量。rep(1:2,c(10,15)26向量创建产生随机数rfunc(n,p1,p2
13、,.),其中func指概率分布函数,n为生成数据的个数,p1, p2, . . .是分布的参数数值。上面的表给出了每个分布的详情和可能的缺省值(如果没有给出缺省值,则意味着用户必须指定参数)。用01之间的均匀分布产生10个随机点:runif(10) or runif(10, min = 0, max= 1) rnorm(10, mean = 0, sd = 1)大多数这种统计函数都有相似的形式,只需用d、p或者q去替代r,比如概率密度 (dfunc(x, .)dunif(x, min=0, max=1, log = FALSE) 累积函数 punif(q, min=0, max=1, )分位数
14、 qunif(p, min=0, max=1, )显著性水平为5%的正态分布的双侧临界值是: qnorm(0.025) -1.959964 qnorm(0.975)= 1.9599642728矩阵的创建生成矩阵的函数 dim()和和matrix()dim() 定义矩阵的行列数,例如:定义矩阵的行列数,例如: x - 1:12 dim(x) - c(3,4) ,1 ,2 ,3 ,4 1, 1 4 7 10 2, 2 5 8 11 3, 3 6 9 12 matrix.x - matrix(1:12,nrow=3,byrow=T)t(x)#转置为行或列添加名称:s()col.nam
15、es()29数据框的创建创建数据框的函数:data.frame(), as.data.frame(), cbind(), rbind()cbind() # 按列组合成数据框rbind() # 按行组合成数据框data.frame() #生成数据框head() #默认访问数据的前6行30工作空间imageR的所有对象都在计算机内存的工作空间中。ls() 列出工作空间中的对象rm() 删除工作空间中的对象rm(list=ls() 删除空间中所有对象save.image() 保存工作镜像sink() 将运行结果保存到指定文件中getwd() 显示当前工作文件夹setwd() 设定工作文件夹可将结果保
16、存在image中,形式为.Rdata文件,里面保存了R当前工作空间中的各种对象,包括函数。31三 脚本编程Scripting32例-线性回归转速rpm 202224262830323436384042杂质率%8.49.511.810.413.314.813.214.716.416.518.918.5n对一批涂料进行研究,确定搅拌速度对杂质含量的影响,数据如下,试进行回归分析表3 搅拌速度对涂料中杂质的影响33脚本举例#将以下代码粘贴到编辑器中,另存为regression.r文件。rate-c(20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42)impu
17、rity -c(8.4, 9.5, 11.8, 10.4, 13.3, 14.8, 13.2, 14.7, 16.4, 16.5, 18.9, 18.5)plot(impurityrate)regFileOpen Script #Ctrl+R运行3 直接粘贴到R控制台ctrl+c, ctrl+v第三种最为简单直接35四 R绘图36图19 R绘制的图形37高级绘图函数plot() 绘制散点图等多种图形,根据数据的类,调用相应的函数绘图hist() 频率直方图boxplot() 箱线图stripchart() 点图barplot() 柱状图dotplot() 点图piechart() 饼图matp
18、lot()数学图形38图23 散点图与箱线图39低级绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字40绘图参数参数用在函数内部,在没有设定值时使用默认值。font = 字体lty = 线类型lwd = 线宽度pch = 点的类型,xlab = 横坐标ylab = 纵坐标xlim = 横坐标范围ylim = 纵坐标范围也可以对整个要绘制图形的各种参数进行设定参见 par()41举例:绘图生成0到2之间的50个
19、随机数,分别命名为x,yx - runif(50,0,2)y - runif(50,0,2)绘图:将主标题命名为“散点图”, 横轴命名为”横坐标”, 纵轴命名为“纵坐标”plot(x, y, main=散点图散点图, xlab=横坐标横坐标, ylab=纵坐标纵坐标)text(0.6,0.6,text at (0.6,0.6)abline(h=.6,v=.6)42图24 绘图举例43例:分步绘图1.打开绘图窗口,不绘制任何对象plot(x, y, type=n, xlab=, ylab=, axes=F)2.添加坐标点points(x,y) 3.添加坐标轴axis(1); axis(at=se
20、q(0.2,1.8,0.2), side=2)4.补齐散点图的边框box() 5.添加标题、副标题、横轴说明、纵轴说明title(main=Main title, sub=subtitle, xlab=x-label, ylab=y-label)44图25 分步绘图12345645一页多图图26 一页多图par()par(mfrow=c(2,2).46在原有图形上添加元素举例:举例:x - rnorm(100) # 生成随机数hist(x,freq=F) # 绘制直方图curve(dnorm(x),add=T) # 添加曲线h - hist(x, plot=F) # 绘制直方图ylim - r
21、ange(0, h$density, dnorm(0) #设定纵轴的取值范围hist(x, freq=F, ylim=ylim) #绘制直方图curve(dnorm(x),add=T,col=red) #添加曲线47图27 在原有直方图上添加曲线48五 编写函数49编程基础 R可以灵活的编写程序,用户自己编写的程序可以直接调用。编程时无需声明变量的类型,这与C,C+等语言不同。基本格式 函数名函数名 - function(数据数据,参数参数1= 默认值默认值,) 异常处理; 表达式(循环/判别); return(返回值); 函数内部也可用#添加注释50函数实例图28 函数实例 data2mat
22、()51程序流程控制 ifif(条件) 表达式 if(条件) 表达式1 else 表达式2 举例p = 0.03if(p=0.05) print(p 0.05!)52循环循环 for, whilefor(变量 in 向量) 表达式用法: for(i in 1:10) print(i)while(条件) 表达式 用法:i - 1while(i10) print(i) i - i + 153返回值返回值表示函数输出的结果。返回值必须是一个对象。R默认将最后一行作为返回值。如果函数的结果需要有多个返回值,可以创建一个list(),并返回该对象。也可以用return()函数,设定返回值。但是一个函数的
23、返回的对象只有一个。54异常处理如数据输入不能满足要求,或者参数设定错误等等,可能造成函数给出错误的结果,则需要对函数的运行过程发出警告或终止,以提高程序的稳健性。警告的写法if(any(is.na(inputdata)inputdata - na.omit(inputdata)cat(“NAs are found in the input data, and has been removed.n)终止的写法if(any(is.na(xx)stop(NAs are not allowed!n)55函数举例问题:输入直角三角形的两个边长,求其斜边长。定义函数:rcal - function(x,
24、y) z - x2 + y2 result - sqrt(z) return(result)调用函数:rcal(3,4)56write.table()write.csv()save.image()sink()unlink()若有LaTeX基础,可以用Sweave() 函数该函数能将脚本、程序说明和运算结果直接保存成.tex文件,用LaTeX编译成pdf文件。六数据保存常用概率分布常用概率分布重点回顾生物科学研究中常用的几种随机变量的概率分布重点回顾生物科学研究中常用的几种随机变量的概率分布正态分布、正态分布、二项分布、二项分布、波松分布波松分布 如果表示试验结果的变量如果表示试验结果的变量x,
25、其可能取值至多为可列个,其可能取值至多为可列个 ,且且 以各种确定的概率取这些不同的值以各种确定的概率取这些不同的值 , 则则 称称 x 为为 离离 散散 型型 随随 机机 变变 量量 ( discrete random variable); 如果表示试验结果的变量如果表示试验结果的变量x ,其可能取值为某范围内的任,其可能取值为某范围内的任何数值何数值 ,且,且x在其取值范围内的任一区间中取值时,其概率在其取值范围内的任一区间中取值时,其概率是确定的,则称是确定的,则称x为为 连续连续 型型 随随 机机 变变 量量 ( continuous random variable)。 59要了解离散
26、型随机变量要了解离散型随机变量x的统计规律,就必须的统计规律,就必须 知知 道它的一切道它的一切可能值可能值xi及取每种可能值的概率及取每种可能值的概率pi。 如果我们将离散型随机变量如果我们将离散型随机变量x的一切可能取值的一切可能取值xi ( i=1, 2 , ),及其对应的概率及其对应的概率pi,记作,记作 P(x=xi)=pi i=1,2, (43) 则称则称 (43)式为离散型随机变量)式为离散型随机变量x的概率分布或分布。的概率分布或分布。常用常用 分分 布布 列列 (distribution series)来表示离散型随机变量:来表示离散型随机变量: x1 x2 xn .p1 p
27、2 pn 显然离散型随机变量的概率分布具有显然离散型随机变量的概率分布具有pi0和和pi=1这两个基本性质。这两个基本性质。 连续型随机变量的概率分布连续型随机变量的概率分布 连续型随机变量连续型随机变量 (如体长、体重、蛋重如体长、体重、蛋重)的概率分布不的概率分布不能用分布列来表示,能用分布列来表示, 因为其可能取的值是不可数的。我因为其可能取的值是不可数的。我们改用随机变量们改用随机变量x在某个区间内取值的概率在某个区间内取值的概率P(axb)来表来表示。示。 下面通过频率分布密度曲线予以说明。下面通过频率分布密度曲线予以说明。 60若记概率分布密度函数为若记概率分布密度函数为f(x),
28、则,则x取值于区间取值于区间a,b)的概)的概率为图中阴影部分的面积,即率为图中阴影部分的面积,即 P(axb)= 式式 为为 连连 续续 型型 随机变量随机变量 x 在在 区间区间a,b)上取值概率的表达式。)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。可见,连续型随机变量的概率由概率分布密度函数确定。badxxf)( 连续型随机变量概率分布的性质:连续型随机变量概率分布的性质: 1、分布密度函数总是大于或等于、分布密度函数总是大于或等于0,即,即f(x)0; 2、当随机变量、当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即;即 (c为任意实数
29、为任意实数) 因而,对于连续型随机变量,仅研究其在某一个区间内取因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。值的概率,而不去讨论取某一个值的概率。 ccdxxfcxP0)()(3、 在在 一次试验中一次试验中 随机变量随机变量x之取值之取值 必在必在 -x+范围内,为一必然事件。所以范围内,为一必然事件。所以 表示分布密度曲线下、横轴上的全表示分布密度曲线下、横轴上的全 部面积为部面积为1。 1)()(dxxfxP一、正态分布的定义及其特征一、正态分布的定义及其特征 (一)(一) 正态分布的定义正态分布的定义 若连续型随机变量若连续型随机变量x的概率
30、分布密的概率分布密度函数为度函数为 其中其中为平均数,为平均数,2为方差,则称随机变量为方差,则称随机变量x服从正态分布服从正态分布(normal distribution), 记为记为xN(,2)。相应的概率分布函。相应的概率分布函数为数为 222)(21)(xexfxxdxexF222)(21)( (二二) 正态分布的特征正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为为x=; 2、f(x) 在在 x = 处达处达 到到 极极 大大 , 极大值极大值 ; 3、f(x)是非负函数,以是非负函数,以x轴为渐近线,分布从轴为
31、渐近线,分布从-至至+; 21)(f4、曲线在、曲线在x=处各有一个拐点,即曲线在处各有一个拐点,即曲线在(-,-)和和(+,+) 区区间上是下凸的,在间上是下凸的,在-,+区间内是上凸的;区间内是上凸的; 5、正态分布有两个参数,即平均数、正态分布有两个参数,即平均数和标准差和标准差。 是位置参数,当是位置参数,当恒定时,恒定时,愈大,则曲线沿愈大,则曲线沿x轴愈向右移动;轴愈向右移动;反之,反之,愈小,曲线沿愈小,曲线沿x轴愈向左移动。轴愈向左移动。 是变异度参数,是变异度参数, 当当恒定时,恒定时, 愈大,表示愈大,表示 x 的取值愈分散,的取值愈分散, 曲线愈曲线愈“胖胖”;愈小,愈小
32、,x的取值愈集中在的取值愈集中在附近,曲线愈附近,曲线愈“瘦瘦”。 我们称我们称=0,2=1的正态分布为标准正态分布的正态分布为标准正态分布(standard normal distribution)。 标准正态分布的概率密度函数及分布函数分别记作标准正态分布的概率密度函数及分布函数分别记作(u)和和(u),由,由 (4-6)及及(4-7) 式得:式得: 随机变量随机变量u服从标准正态分布,记作服从标准正态分布,记作uN(0,1),2221)(ueudueuuu22121)( 对于任何一个服从正态分布对于任何一个服从正态分布N(,2)的随机变量的随机变量x,都可以通,都可以通过标准化变换:过标
33、准化变换: u=(x-) 将将 其变换为服从标准正态分布的随机变量其变换为服从标准正态分布的随机变量u。 u 称称 为为 标标 准准 正正 态变量或标准正态离差态变量或标准正态离差(standard normal deviate)。 三、正态分布的概率计算三、正态分布的概率计算 (一)标准正态分布的概率计算(一)标准正态分布的概率计算 设设u服从标准正态分布,则服从标准正态分布,则 u 在在u1,u2 )何内取值的概率为)何内取值的概率为: (u2)(u1)而而(u1)与与(u2)可由附表可由附表1查得。查得。 dueduedueuuuPuuuuuuu122221221212121212121
34、)(U1 U2 例如,例如,u=1.75 ,1.7放在第一列放在第一列0.05放在第一行放在第一行 。 在附表在附表1中中 , 1.7所在行与所在行与 0.05 所在列相交处的数值为所在列相交处的数值为0.95994,即,即 (1.75)=0.95994 有有 时时 会会 遇遇 到到 给给 定定 (u) 值值 , 例例 如如 (u)=0.284, 反过反过来查来查u值。这只要在附表值。这只要在附表1中找到与中找到与 0.284 最接近的值最接近的值0.2843,对应行的第一列数对应行的第一列数 -0.5, 对应列的第一行数对应列的第一行数 值值 0.07 ,即相应的,即相应的u值为值为 u =
35、 - 0.57,即,即 (-0.57)=0.284 如果要求更精确的如果要求更精确的u值,可用线性插值法计算。值,可用线性插值法计算。 关于标准正态分布,以下几种概率应当熟记:关于标准正态分布,以下几种概率应当熟记: P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95P (-2.58u2.58)=0.99 这表明服从正态分布这表明服从正态分布N(,2)的随机变量的随机变量x 在在 x1 ,x2 )内)内取值的概率取值的概率 , 等等 于服于服 从从 标标 准准 正正 态态 分分 布布 的的 随随 机机 变变 量量 u
36、在在(x1-)/, (x2-)/)内取值的概率)内取值的概率 。 因此,计算一般正态分布的概率时,因此,计算一般正态分布的概率时, 只要将区间的上下限只要将区间的上下限作适当变换作适当变换(标准化标准化), 就可用查标准正态分布的概率表的方法就可用查标准正态分布的概率表的方法求得概率了。求得概率了。 设设x服从服从=30.26,2=5.102的正态分布,试求的正态分布,试求P(21.64x32.98)。 令令 则则u服从标准正态分布,故服从标准正态分布,故 =P(-1.69u0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564 )10. 526.3098.
37、3210. 526.3010. 526.3064.21()98.3264.21(xPxP10.526.30 xu关于一般正态分布,以下几个概率关于一般正态分布,以下几个概率(即随机变量即随机变量x落在落在加减不同倍数加减不同倍数区间的概率区间的概率)是经常用到的。是经常用到的。 P(-x+)=0.6826 P(-2x+2) =0.9545 P (-3x+3) =0.9973 P (-1.96x+1.96) =0.95 P (-2.58x+2.58)=0.9971设X服从平均值为1,标准差为2的正态分布(高斯分布),即X N(1, 4),求P0X1.6解:这里X是一个连续型随机变量。求X在某段区
38、间上的概率,用X的分布函数在区间两端的值的差。方法一:P0 pnorm(1.6, 1, 2) - pnorm(0, 1, 2)1 0.3093739方法二:转化为标准正态分布。Px1 X x2=P(x1-)/ (X-)/(x1-)/=(x2-)/) -(x1-)/)即P0 pnorm(1.6-1)/2) - pnorm(0-1)/2) #pnorm函数的缺省参数mean=0,sd=1,即默认标准正态分布1 0.3093739二项分布二项分布 一、贝努利试验及其概率公式一、贝努利试验及其概率公式 将某随机试验重复进行将某随机试验重复进行n次,若各次试验结果互不影响次,若各次试验结果互不影响 ,
39、即即每次试验结果出现的概率都不依赖于其它各次试验的结果,则每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这称这n次试验是独立的。次试验是独立的。 对于对于n次独立的试验次独立的试验 , 如果每次试验结果出现且只出现对立如果每次试验结果出现且只出现对立事件事件A与与 之一,之一, 在每次试验中出现在每次试验中出现A的概率是常数的概率是常数p(0p 1 - sum(pbinom(0:1, 400, 0.02)1 0.996856178二项分布记为X b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob), q是特定取值,比如pbinom(8,20
40、,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率dbinom(x,size,prob), x同上面的q同含义。dfunction()对于离散分布来说结果是特定值的概率,对连续变量来说是密度(Density)rbinom(n, size, prob),产生n个b(size,prob)的二项分布随机数 二项分布的应用条件有三:二项分布的应用条件有三: (1)各观察单位)各观察单位 只具有互相对立只具有互相对立 的一种结果,如阳性或阴性的一种结果,如阳性或阴性, 生存或死亡等,生存或死亡等, 属于二项分类资料;属于二项分类资料; (2)已知发生某一结果
41、)已知发生某一结果 (如死亡如死亡) 的概率为的概率为p,其对立结果的,其对立结果的概率则为概率则为1-P=q,实际中要求,实际中要求p 是从大量观察中获得的比较稳定是从大量观察中获得的比较稳定的数值;的数值; (3)n个观察单位的观察结果互相独立,即每个观察单位的观个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。察结果不会影响到其它观察单位的观察结果。波松分布波松分布 波松分布是一种波松分布是一种 可以用来描述和分析随机地发生在单位空可以用来描述和分析随机地发生在单位空间或间或 时间里的稀有事件的概率分布。要观察到这类事件,样本时间里的稀有事件的概率分
42、布。要观察到这类事件,样本含量含量 n 必须很大必须很大 。 泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率.泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等. 在生物、医学研究中,服从波松分布的随机变量是常见的。在生物、医学研究中,服从波松分布的随机变量是常见的。如,如, 一定畜群中某种患病率很低的非传染性疾病患病数或死亡一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,数, 畜群中遗传的畸形怪胎数,畜群中遗传的畸形怪胎数, 每升饮水中大肠杆菌数,计每
43、升饮水中大肠杆菌数,计数器小方格中血球数,数器小方格中血球数, 单位空间中某些野生动物或昆虫数等,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。都是服从波松分布的。 一、波松分布的意义一、波松分布的意义 若随机变量若随机变量x(x=k)只取零和正整数值只取零和正整数值0,1,2,且其概,且其概率分布为率分布为 , k=0,1, 其中其中0;e=2.7182 是自然对数的底数,则是自然对数的底数,则 称称 x 服服 从从 参参 数数 为为 的的 波波 松分布松分布(Poissons distribution),记,记 为为 xP()。 ekkxPk!)(波松分布重要的特征:波松分布重要的
44、特征: 平均数和方差相等,都等于常数平均数和方差相等,都等于常数,即,即 =2=【例例】 调查某种猪场闭锁育种群仔猪畸形数,共记录调查某种猪场闭锁育种群仔猪畸形数,共记录200窝窝, 畸形仔猪数的分布情况如表所示。试判断畸形仔猪数是否畸形仔猪数的分布情况如表所示。试判断畸形仔猪数是否服从波松分布。服从波松分布。 样本均数和方差样本均数和方差S2计算结果如下:计算结果如下: =fk/n =(1200+62 +152+23+14)/200 =0.51 x83将将0.51代替公式中的代替公式中的得:得: (k=0,1,2,) 因为因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:,所以畸形仔猪数各项的概率为: P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781 51.0!51.0)(ekkxPkP(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数把上面各项概率乘以总观察窝数(n=200)即得各项按波松分布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年陕西省商洛地区单招职业倾向性测试题库附参考答案详解(预热题)
- 2026年鹤壁职业技术学院单招职业倾向性考试题库附答案详解(满分必刷)
- 2026年长沙民政职业技术学院单招职业技能测试题库带答案详解(达标题)
- 锦鲤网箱养殖利弊研究报告
- 2026年陕西旅游烹饪职业学院单招职业适应性测试题库附答案详解(综合题)
- 2026年阿克苏职业技术学院单招职业技能测试题库及答案详解(基础+提升)
- 2026年青海省海西蒙古族藏族自治州单招职业倾向性测试题库含答案详解(培优a卷)
- 2026年陕西省西安市单招职业适应性考试题库带答案详解(夺分金卷)
- 2026年陕西省榆林地区单招职业倾向性考试题库附答案详解(a卷)
- 国内外动漫研究报告
- 第二章空调负荷计算与送风量
- 船坞工程廊道施工方案
- 建筑材料-混凝土介绍ppt
- GB/T 4745-2012纺织品防水性能的检测和评价沾水法
- GB/T 14689-2008技术制图图纸幅面和格式
- GB/T 11263-1998热轧H型钢和剖分T型钢
- 教师考试 思政资料
- 03【教案】 项目三 数控编程基础知识
- 中小学体育教师职称晋升面试答辩真题解密
- 代开发票委托书范本
- 接触网技术规格书3电连接线
评论
0/150
提交评论