




已阅读5页,还剩85页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R 繪 圖 功 能,統計繪圖,類別資料: bar chart, pie chart 連續資料: stem-and-leaf plot, histogram, box plot, scatter plot,2,統計圖形(Stem-and-Leaf),Author: John W. Tukey. References: Tukey (1977) and Velleman and Hoaglin(1981). 用途與特性:莖葉圖主要是用來描述資料分佈的型態,和直方圖具有一樣的性質,但卻比直方圖多了保留原始資料(keep the original data)的特性。 作法: 決定stem(樹幹、主幹)的數值:可想像是直方圖的組距(如:95,stem記為9;若資料數值為985,stem記為98)。 決定leaf(樹葉):通常都是數值資料的最後一個位數;定好後將資料每一筆值依序填入莖葉圖的表中(如:95,leaf記為5;若資料數值為985,leaf記為5)。 計算各組次數(frequency):填完後記錄各組的個數。,統計圖形(Stem-and-Leaf),優點1:可呈現實際的觀測值。 優點2:可以由此得知資料的排序(order),而有序統計量(order statistics)對於統計分析與推論上,是有很大的幫助。此外,知道資料的排序,就可得知各個資料所屬的樣本百分比(sample percentiles)。 延伸圖形1:Ordered stem-and-leaf display: 將原先的莖葉圖,在樹葉部分的數值加以排序。 延伸圖形2:將原先的stem組距縮短,用符號(如:O)表示。要注意的是:資料分的組數太多,圖型會比較不平滑,可能大部分的組只有少少的觀測值,但若組數太少,所有資料又會集中在某一組;這兩種情況,都比較無法看出資料集中或是分散的趨勢。 缺點:適合數據較少的資料。 R 指令: stem(變數名稱),統計圖形(Stem-and-Leaf),莖葉圖(Stem-and-Leaf),Practice,畫出data2中,身高的莖葉圖,6,統計圖形(Box plot),用途與特性:固定資料的尺度位置,利用樣本產生之統計量(最小值minimum、第一四分位數first quartile、中位數median、第三四分位數third quartile、最大值maximum)來描繪資料的分佈。主要是利用資料尺度固定的特性,用統計量所在的位置來比較兩組以上資料分佈及差異,並察看資料的離散程度,圖形所呈現的訊息比莖葉圖或直方圖少。 作法: 確定資料的尺度。 求資料之最小值minimum(min)、第一四分位數first quartile(Q1)、中位數median(Q2)、第三四分位數third quartile(Q3)、最大值maximum(max)。 第一四分位數first quartile、第三四分位數third quartile分別代表箱子的兩端,中位數median所在的位置畫一條線,將箱子切為兩半 從第一四分位數的位置畫一條線,延伸至最小值;從第三四分位數的位置畫一條線,延伸至最大值。,統計圖形(Box plot),其他: Interquartile range四分位距(IQR):IQRQ3-Q1 第三與第一四分位數的差距;即箱子的總長度。 Outlier 離群值:也可稱為極端值,若一組資料有極端值的存在,將會影響資料分佈的型態,對於某些統計量(如:平均數)也會有很大的影響。 Tukey利用IQR來判別資料是否具有離群值,他訂立了幾個衡量的量與標準(Ch6.1 p.330-331): Inner fence(內部柵欄):距離Q1及Q3 一點五倍IQR的位置。 Outer fence(外部柵欄):距離Q1及Q3 三倍IQR的位置。 Suspected outliers:落在inner fence與outer fence之間的資料為疑似離群值。 Outliers: 落在outer fence 之外的資料為離群值。 R指令: boxplot(變數名稱1),9,Elements of a Box Plot,盒鬚圖 (box plot),盒鬚圖 (box plot),boxplot(high),boxplot(c(high,200),10,Practice,畫出data2中,體重的盒鬚圖,11,分割資料繪圖,男女身高的分佈可能不同,想要將男女分開畫圖 boxplot(split(high,sex) boxplot(highsex),12,Practice,依照性別,畫出data2中,體重的盒鬚圖,13,盒鬚圖 (box plot),boxplot(high,horizontal=T),14,畫成水平的盒鬚圖,盒鬚圖 (box plot),boxplot(split(high,sex), col=c(3,4), xlab=“gender”, ylab=“high”, main=“Box plot“),15,給男女不同的顏色,y座標的名稱,圖形的標題,X座標的名稱,盒鬚圖 (box plot),boxplot(split(high,sex),col=c(“red“,“yellow“), xlab=“gender“, ylab=“high“, main=“Box plot“),16,除了數字之外,也可以用文字表示,Practice,依照性別,畫出data2中,體重的盒鬚圖,命名x軸為sex,y軸為weight,並用不同顏色分別男女。將此圖命名為“Box plot of weight”。,17,將圖片存檔,指令: savePlot(“欲儲存檔案名稱“, type = c(“wmf“, “emf“, “png“, “jpeg“, “jpg“, “bmp“, “ps“, “eps“, “pdf“, ) 或者,18,統計圖形,盒鬚圖(Box plot) par(mfrow=c(2,2) #par指令是將圖形分成左右兩個位置;mfrow表示分割是依據列來做切割 boxplot(data$wt) #繪製weight變項的box plot boxplot(data$wt, horizontal=T,ylab=“weight“,main=“Horizontal Box Plot“) # horizontal=T表示畫成水平的盒子圖;main, xlab, ylab後面接的字串 分別代表圖形的標題、x座標、y座標的名稱,col為圖形顏色的指令 boxplot(split(data$wt,data$sex),col=c(3,4),xlab=“sex“ ,ylab=“weight“) #依照性別畫圖,並圖上顏色 boxplot(data$wtdata$sex,col=c(“red”,“yellow”),xlab=“sex” ,ylab=“weight”) #另一種依照類別(性別)畫圖的表示法 #split函數的第二個變數,或是後面接的變數,皆是代表要依此分群分類的資料,統計圖形(Box plot),Practice,請畫出資料“airquality”中,“Temp”的盒鬚圖。 請根據不同月份,畫出資料“airquality”中,“Temp”的盒鬚圖。(用不同顏色代表不同月份,X軸名稱為“Month”,Y軸名稱為“Temperature”) 請說明盒鬚圖的結果,21,統計圖形,散佈圖(Scatter plot) 用途與特性:描述兩個變數、或兩組資料之間的關係或趨勢。 指令: plot(變數名稱1, 變數名稱2),散佈圖 (Scatter plot),plot(weight,high),23,統計圖形(Scatter plot matrix),散佈圖矩陣 (scatter plot matrix) 當資料有三個變數以上,可以將資料中兩兩變數之間的關係,用散佈圖矩陣呈現。 指令: pairs(資料檔名稱) 以鳶尾花為例 data(iris) pairs(iris),散佈圖 (Scatter plot),plot(data1),26,將data1中的所有變數,兩兩配對畫出來,Practice,請將Surgical的資料讀入R 看看共有幾個人的資料,每個人的資料收集了幾個變數 請畫出clot與prog的散佈圖,27,散佈圖中可以設定的參數(Scatter plot),散佈圖中可以設定的參數(Scatter plot),圖形的種類(type=),plot(data2$weight,data2$high,type=“p“,main=“type=p“) plot(data2$weight,data2$high,type=“l“,main=“type=l“) plot(data2$weight,data2$high,type=“b“,main=“type=b“) plot(data2$weight,data2$high,type=“o“,main=“type=o“) plot(data2$weight,data2$high,type=“h“,main=“type=h“) plot(data2$weight,data2$high,type=“s“,main=“type=s“),30,31,標明線的種類 (lty=),plot(data2$weight,data2$high,type=“l“,lty=1,main=“lty=1“) plot(data2$weight,data2$high,type=“l“,lty=2,main=“lty=2“) plot(data2$weight,data2$high,type=“l“,lty=3,main=“lty=3“) plot(data2$weight,data2$high,type=“l“,lty=4,main=“lty=4“) plot(data2$weight,data2$high,type=“l“,lty=5,main=“lty=5“) plot(data2$weight,data2$high,type=“l“,lty=6,main=“lty=6“),32,33,設定點的型式(pch=),可選擇的型式 plot(data2$weight,data2$high,pch=1,main=“pch=1“) plot(data2$weight,data2$high,pch=2,main=“pch=2“) plot(data2$weight,data2$high,pch=3,main=“pch=3“) plot(data2$weight,data2$high,pch=“%“,main=“pch=%“) plot(data2$weight,data2$high,pch=“*“,main=“pch=*“) plot(data2$weight,data2$high,pch=“,main=“pch=“),34,only available on graphsheet,35,Color,36,Practice,在Surgical資料中,用三種不同的點畫出clot與prog的散佈圖,37,將兩變數畫在同一張圖上(Scatter plot),若想將兩個變數畫在同一張圖上,Example 1,將data1中high與weight依男女分別畫在同一張圖上,39,因為男生的身高介於157182,體重介於5494,先畫男生的身高-體重散佈圖,X與Y的範圍會被男生的資料決定(女生身高介於149175,體重介於4146),Example 1,plot(high_sex$“M“,weight_sex$“M“,xlim=c(140,190),ylim=c(40,100),pch=3,col=3) points(high_sex$“F“,weight_sex$“F“,pch=4,col=6),plot(high_sex$“M“,weight_sex$“M“,xlim=range(high),ylim=range(weight),pch=3,col=3) points(high_sex$“F“,weight_sex$“F“,pch=4,col=6),40,加入註解,legend(X的頂點, Y的頂點, legend=c(欲加入的註解), pch=c(使用的點的型式), col=c(使用的顏色), lty=c(使用的線的種類) ) Ex: legend(150,95,legend=c(“Male“,“Female“),pch=c(3,4),col=c(3,6),41,Example 1,42,(150,95),可以很明顯看出來,女生比男生輕、身高較不高 Q: 有線性關係嗎?,Example 2,43,若已知身高與體重的關係為weight=-113.5+1.05high,將這一條迴歸線加在圖中 abline(截距,斜率) abline(-113.5,1.05,col=“purple“),Example 2,44,Practice,在Surgical資料中,依男女畫出clot與prog的散佈圖(gender=0: male; gender=1: gemale),男女請用不同顏色及標示,並加入註解標明男女。 假設clot與prog的關係為porg=57.75+0.95clot,請將此迴歸線標示於圖上,45,Example 3,46,資料TemperatureMonth記錄台灣26區域,一月到十二月的平均溫度 將A、B、C三地的每月平均溫度畫在同一張圖上,Practice,47,將D、E、F三地的每月平均溫度畫在同一張圖上 用不同顏色及線條標明D、E、F三地,並加註解,統計圖形(Scatter plot),統計圖形(Scatter plot),統計圖形(Histogram),Author: William Playfair (1759-1823) 為數據圖學的先驅。 用途與特性:描述資料的分佈。 作法:決定組距(continuous data)或是類別數(categorical/ discrete data),計算各組的個數,直方圖的寬度為資料的組距;高度即各組的個數、或所佔的百分比。 R指令: hist(變數名稱, ),hist(),hist(x, breaks=“Sturges“, freq = NULL, col = NULL, main = paste(“Histogram of“ , xname), xlim = range(breaks), ylim = NULL, xlab = xname, ) breaks: 設定組距 自行設定: c() 利用seq() 設定分組的組數( nclass) freq: 畫次數(T)或是相對頻率(F) xlim: X軸取值的範圍,51,直方圖 (Histogram ),hist(high) 自動給定組距,hist(high,breaks=c(140,155,165,170,190),52,直方圖 (Histogram ),hist(high,breaks=seq(140,190,10),hist(high,nclass=8),53,直方圖 (Histogram ),hist(high),hist(high,freq=F),54,統計圖形(Bar plot),用途與特性:描述資料的分佈(特別是類別資料)。 作法:寬度相同,長度和已知次數成比例的長方形顯示數據的統計圖。 指令 barplot(變數名稱) Ex: barplot(VADeaths) barplot(VADeaths, legend = rownames(VADeaths) title(main = list(“Death Rates in Virginia“, font = 4),Random generation from distribution,Normal distribution rnorm(n, mean=0, sd=1) Chi-square distribution rchisq(n, df , ncp=0) Student t distribution rt(n, df) F distribution rf(n, df1, df2) Binomial distribution rbinom(n, size, prob) Poisson distribution rpois(n, lambda) Uniform distribution runif(n, min=0, max=1),Random generation from distribution,機率分佈相關的指令,Normal distribution 常態分佈 dnorm(x, mean=0, sd=1) x值所對應的密度 pnorm(q, mean=0, sd=1) q值所對應的累積機率 qnorm(p, mean=0, sd=1) 累積機率值為p所對應的數值 rnorm(n, mean=0, sd=1) 利用常態分佈產生n個隨機亂數,繪製機率密度函數圖,#=Normal Probability distribution=# x=c(-250:250)/50 a=dnorm(x, mean = 0, sd = 1) b=dnorm(x, mean = 0, sd = 20.5) c=dnorm(x, mean = 0, sd = 0.5(0.5) dd=dnorm(x, mean = 2, sd = 1) plot(x,c,pch=“+“) points(x,b,pch=“-“,col=“blue“) points(x,a,col=“red“,pch=“*“) points(x,dd,pch=“,col=“Green“) legend(-5,0.55, legend=c(“mean=0 var=1“,“mean=0 var=2“,“mean=0 var=0.5“, “mean=2 var=1“),pch=c(“*“,“-“,“+“,“), col=c(“red“,“blue“,“black“,“Green“),另一種繪製機率密度函數圖的方法,x=c(-250:250)/50 matplot(x, outer(x, c(0.5,1,2),function(x,sd)dnorm(x,0,sd), lty=1:3, type=c(“l“,“l“,“l“), ylab=“, col=c(“black“,“red“,“blue“) matlines(x, outer(x, c(-1,2),function(x,mu)dnorm(x,mu,1), lty=4:5, type=c(“l“,“l“,“l“), ylab=“, col=c(“green“,“purple“) legend(1.5,0.8,c(“N(0,0.5)“,“N(0,1)“,“N(0,2)“,“N(-1,1)“,“N(-2,1)“), lty=1:5,col=c(“black“,“red“,“blue“,“green“,“purple“) ),另一種繪製機率密度函數圖的方法,matplot: 將矩陣(x, y)依據行的資料,畫成圖形。 指令:matplot(x, y, 其餘圖形的設定指令);在此y是利用outer指令產生。 outer: 利用函數function產生一個矩陣,亦即生成(x, y) 指令:outer(x, y, function) function: 自訂函數。 指令:function(自訂變數名稱) 表示式或公式。 matlines: 增加不同圖形於matplot上面。 matpoints: 同上。,Example of matplot,table(iris$Species) # is data.frame with Species factor iS - iris$Species = “setosa” #邏輯變數 iV - iris$Species = “versicolor“ #邏輯變數 op - par(bg = “bisque”) #背景是燒陶的顏色 matplot(c(1, 8), c(0, 4.5), type= “n“, xlab = “Length“, ylab = “Width“, main = “Petal and Sepal Dimensions in Iris Blossoms”) #type=“n”表示座標軸 matpoints(irisiS,c(1,3), irisiS,c(2,4), pch = c(“s“, “S“), col = c(2,4) matpoints(irisiV,c(1,3), irisiV,c(2,4), pch = (“v“,“V“), col = c(2,4) legend(1, 4, c(“Setosa Petals“, “ Setosa Sepals“, “Versicolor Petals“, “Versicolor Sepals“), pch = “sSvV“, col = rep(c(2,4), 2),繪製機率密度函數圖,繪製Beta分佈機率密度函數圖形 將Beta(1,1), Beta(1,2), Beta(1, 0.5), Beta(3,2), Beta(4,4), Beta(0.5,0.25) 繪製在同一張圖上,統計圖形,低階繪圖函數,低階繪圖函數,低階繪圖函數,Example-text(),畫出data1中,身高體重的散佈圖,並標示出其迴歸線(weight=-113.5+1.05high),73,Practice,畫出Surgical data中, clot與prog的散佈圖,並標示出其迴歸線(porg=57.75+0.95clot),74,Example-cex,75,設定字形大小,axis(),修改座標軸之文字、刻度、顏色 axis(side, at = NULL, labels = TRUE, tick = TRUE, lty = “solid“, lwd = 1,col = NULL, .) side: 1=below, 2=left, 3=above and 4=right at: 要修改的位置 labels: 修改座標軸刻度,可以是數字或文字 tick:a logical value specifying whether tickmarks and an axis line should be drawn box(): 產生座標軸框框,76,Example,par(mfrow=c(1,2) boxplot(split(clot,gender) boxplot(split(clot,gender),axes=F) axis(1,1:2,labels=c(“male“,“female“) axis(2,tick=F) box(),77,Practice,畫出Surgical data中,不同Dum1的clot之盒鬚圖(X軸之標示為Dum1=0與Dum1=1),78,Table,計算離散型資料的次數分配表 R函數:table(變數1,變數2,變數3,),79,Practice,計算Surgical data中,男女的人數 分別列出男女接受Dum1治療的人數,80,長條圖(bar chart ),描述離散型資料之次數分配 barplot(height, width = 1, beside = FA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环保设备安装维护服务合同
- 校园餐管理绩效评估与持续改进机制
- 传统工程教育模式的局限性及挑战
- 健康保险行业理赔数据表
- 互联网食品销售平台合作合同
- 乡村人口健康需求与风险评估
- 2025年心理学实验设计与统计分析考试试题及答案
- 2025年人际关系与沟通能力测试试题及答案
- 2025年教师资格证考试试卷及答案
- 2025年健康心理学考研入学考试试卷及答案
- 人教版小学语文四年级下册作文范文2
- 大学语文试题及答案琴
- 实验题(7大类42题)原卷版-2025年中考化学二轮复习热点题型专项训练
- CJ/T 362-2011城镇污水处理厂污泥处置林地用泥质
- 红十字会资产管理制度
- 2025安全宣传咨询日活动知识手册
- DB31/T 1249-2020医疗废物卫生管理规范
- 四川省宜宾市翠屏区2025届数学七下期末综合测试试题含解析
- 乡镇合法性审查工作报告
- 2025年发展对象考试题题库及答案
- 2025上半年山东文旅集团有限公司直属企业招聘88人笔试参考题库附带答案详解
评论
0/150
提交评论