统计资料的整理与描述(doc 23页).DOC_第1页
统计资料的整理与描述(doc 23页).DOC_第2页
统计资料的整理与描述(doc 23页).DOC_第3页
统计资料的整理与描述(doc 23页).DOC_第4页
统计资料的整理与描述(doc 23页).DOC_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

授 課 目 錄 第1章 導 論第2章 統計資料的整理與描述第3章 機率導論第4章 常用的機率分佈與統計分佈第5章 描樣方法與描樣分佈第6章 統計估計第7章 統計檢定第8章 變異數分析第9章 相關分析與迴歸模式第10章 無母數統計檢定第11章 類別資料分析-列聯表與卡方檢定第2章 統計資料的整理與描述研究自然或社會現象,首先要搜集相關的統計資料。接著對所搜集的資料進行處理描述,並製作統計圖表,以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。藉由統計資料去了解母體的特性(參數),常用代表集中趨勢的統計量,如樣本的平均值;與代表離散的統計量,如樣本的變異數或標準差。此即敘述統計量。(Measures of Central Tendency-Location)(Measures of Dispersion-Scale)2.1 統計資料的搜集一般衡量資料的尺度(Scale)有四種:(1) 類別尺度(Nominal Scale)-依資料性質分類並給予特別數值或代號。如女性= 0、男性= 1;合格= 、不合格= ;紅色= 1、黃色= 2、藍色= 3。此類別表示之數值或記號只區分類別,沒有大小、順序或比率關係。其僅能計算某類別代號出現的次數或頻率,其計算平均數則無意義。(2) 順序尺度(Ordinal Scale)- 依資料的重要性、強弱、好壞程度區分,給予大小不等的數值。如小學= 1、中學= 2、大學= 3、研究所= 4;很便宜= 1、便宜= 2、一般= 3、貴= 4、很貴= 5。此類別雖在等第上有好壞、高低之分別,但無從比較差距。(3) 計量尺度(Metric Scale)-計量尺度是將研究對象或事物予以數量化,且滿足度量公設;因此又稱等另尺度。其數字大小差異不但有意義且可以比較大小,更可藉數學運算,達到深入分析的目的。如量測身高、體重、容量、重量、長度、溫度、時間等資料。(4) 比率尺度(Ratio Scale)-以某一特定對象為基準,其他現象相對於此一標準的比值。例如,經濟成長率、人口成長率。統計資料若依據取得的方式來分:(1) 直接資料(或初級資料)-自行蒐集或委託調查的資料(2) 間接資料(或次級資料)-參考他人蒐集的相關資料 統計資料蒐集的方式有:(1) 調查(Survey)-設計研究需求的專業問卷,親自或透過調查人員觀察,或當面、電話與郵寄的方式訪問。又分普查資料與抽查資料。(2) 實驗(Experiment)-設定條件和狀態,對實際的作業過程進行試驗,並記錄其相關現象與數據。 多數的統計資料皆屬於數值型態有:(1) 連續型資料-可度量的數據資料稱為計量資料,其數值可無限細分,又稱此計量資料。如重量(公斤)、長度(公分)、溫度(。C)等。(2) 離散型資料-度測數值是以點計得到的數據,因為其數值間是間斷的,又稱此計數資料。如1頭牛、2個人等。2.2 資料處理與展示-統計圖表人類辨識影像圖形的能力,一般優於辨識數字與文字。千言萬言的說明敘述,有時反不及圖表的效果。字不如表,表不如圖。製作統計圖表,即以簡潔、有系統的方式,陳示說明資料的主要內容與特性,使之一目了然。常用統計表(a) 資料次數分配或頻率表,(b) 時間數列表,(c) 會計帳表等。(a) 次數分配或頻率表(1) 確定所須組數。(一般不超過10組為原則)。Sturges Formula k(組數)=1+3.32 log(n), n=樣本數When n= 40 k=1+3.32 log(40)= 6.3 6-7組數或依下列原則分組n50-100100-250250以上k6-107-1210-20(2)計算全部數據的全距(Range)。R = max-min。並求出組距C = 全距/組數(3) 求出各組的組距與組界(4) 確定各組的頻數 當全距太大的資料常以概括頭尾的方式處理(第一組在某值以下,最後一組在某值以上)。另過於離散的資料,可依據其出現的密度選取合適的組距(如職棒投手之球速)。常用統計圖(a) 直方圖-次數分配或頻率表以圖示之。例題:某技術員用車床車制螺絲,要求其直徑為10mm。為了了解該技術員的加工品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。螺絲直徑數據(100個)10.249.94109.999.859.9410.4210.310.3610.0910.219.799.710.049.989.8110.1310.219.849.5510.0110.369.889.2210.019.859.6110.0310.4110.1210.159.7610.579.7610.1510.1110.0310.1510.2110.059.739.829.8210.0610.4210.2410.69.5810.069.9810.129.9710.310.1210.1410.171010.0910.119.79.499.9710.189.999.899.839.559.8710.1910.3910.2710.1810.019.779.5810.3310.159.919.6710.110.0910.3310.069.539.9510.3910.169.7310.159.759.799.9410.099.979.919.649.8810.029.919.54Max. = 10.60; Min. = 9.22;Range = 1.38; k = 7 (n =100);組距 = 1.38/7 = 0.192 0.2為使得所有數據不會落在組界上,並保證最小值9.22落在第一組內,故取第一組的組下限等於最小值減去最小量測單位的一半(即0.01/2 = 0.005)。則第一組的組下限 = 9.22 0.005 = 9.125第一組的組上限 = 第一組的組下限+組距 = 9.215 + 0.2 = 9.415接著,確定各組的頻數組 別頻 數第一組:9.215 9.4151第二組:9.415 9.6158第三組:9.615 9.81514第四組:9.815 10.01529第五組:10.015 10.21532第六組:10.215 10.41512第七組:10.415 10.6154最後作直方圖 直方圖可以種方式表示:(1) Frequency (2) Cumulative Frequency(3) Percent (4) Cumulative Percent(3-1) Relative Fequency (3-2) Cumulative Relative Frequency(5) Density (6) Cumulative Density 螺絲直徑落在直方圖的可能性大小是以其高度表示,另由數學應用方便的角度觀之,各直方的面積表示可能大小,由於各組的組距,即直方的寬度是相等的,因此用直方面積表示與用直方的高度表示是相同的。(b) 散佈圖係對兩組變數之間關係感興趣,組成這兩組變數的對應圖,又稱XY散佈圖。範例: 身高132149160140138154145151136140體重38455840385341473436(c) 盒圖或盒鬚圖(Box Plot or Box and Whisker Plot)盒圖中有極小值、極大值、Q1 ,Q2 ,Q3。範例:修改後16.8516.4017.2116.3516.5217.0416.9617.1516.5916.57修改前17.517.6318.251817.8617.7518.2217.917.9618.15盒圖或盒鬚圖於股票市場之應用-股票箱形圖最低價收高價開盤價最高價最高價收高價開盤價最低價(d) 柏拉圖法(Paretos Diagram)80/20法則:80%的問題是來自20%的源頭。問題區分少數重要項目(Vital Few)、多數輕微項目(Trivial Many)的分法稱之為柏拉圖原則-重點的掌握。Example of Pareto AnalysisThe data in Table 1 has been recorded for peach arriving at Super Market during August.Table 1 Raw data for Pareto AnalysisProblem CategoriesPeaches LostBruised(有受傷的)100Undersized(太小的)87Rotten(腐爛的)235Underripe(未熟的)9Wrong Variety(品種不同的)7Wormy(有蟲的)3The Pareto table for the data in Table 1 is shown in Table 2.RankCategoryCountPercentageCum%1Rotten(腐爛的)23553.2953.292Bruised(有受傷的)10022.6875.973Undersized(太小的)8719.7395.704Other194.31100.012.3 樣本統計量(統計量)(Sample Statistic)統計圖表可方便展示資料,但對於資料的深入分析,其精確度與廣度仍不足。為了研究母體的特性(參數),仍須用一些統計量測數,藉以了解母體的特性。常用的統計量測數為代表集中趨勢統計量、代表離散統計量與形狀統計量,來表達母體的分配情形。這些樣本統計量亦稱之樣本的特徵值。2.3.1集中趨勢統計量集中趨勢統計量是用來衡量所有觀測值聚集的中心位置-算術平均數、中位數、四分位數、眾數、截尾平均數(a) 算術平均數(Arithmetic Mean)在一般未分組的原始資料中,有n個觀測值,其集合為x1, x2, , xn |nN,則其算術平均數=(x1 + x2 + + xn)/n = (ni =1 xi )/n對於分組資料,假定資料共有n個觀測值分為m組,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數,fi = n。則其算術平均數為=(x1f1+x2f2+xmfm)/n = (mi =1xi fi)/n(b) 中位數(Median)中位數又稱為二分位數,是一種由小至大順序數列的中心項。將某筆資料n個觀測值由小而大順序排列,則其中間位數的觀測值即為中位數。若n為奇數,則第(n+1)/2位數的觀測值為中位數。若n為偶數,中位數即為第n/2位數與第(n/2)+1位數觀測值的算術平均數。(c) 四分位數(Quartile)將觀測值由小至大順序數列按位數分為四等分,Q1 , Q2 , Q3為其位數等分點之觀測值。第0個四分位即是最小值,第1個四分位(Q1)是第25%的值,第2個四分位(Q2)是第50%的值(即中位數),第3個四分位(Q3)是第75%的值,第4個四分位(Q1)即是最大值。此概念可以推廣至十分位數(D1, D2,D9)和百分位數(Percentiles, P1, P2,P99)。(d) 眾數(Mode)眾數是指統計資料中出現之次數最頻繁的觀測值。(e) 截尾平均數(Trimmed Mean)-奧運體操評分標準係考慮算術平均數容易受兩端特別遠離中心位置觀測值的影響,有時不能確切描述觀測值集中趨勢。即截頭去尾的方法,將Q1以下與Q3之上的觀測值排除,再計算Q1與Q3之間的觀測值的算術平均數。此數為奧林匹克運動會的體操競賽評分標準。2.3.2離散趨勢統計量離散趨勢統計量是用來測量所有觀測值偏離中心的程度-全距、四分位間距、平均絕對偏差、變異數與標準差、變異係數等(a) 全距(Range)Range = Max. Min.(b) 四分位間距(IQR, Inter-Quartile Range)四分位間距= Q3-Q1全距很容易受到少數極端觀測值的影響,如原來某班上同學體重最重為85 kg,最輕為45 kg,則該班同學體重全距為40 kg,今來了一位轉系生體重為95 kg,則該班同學體重全距變為50 kg。但四分位間距較不容易受少數極端值影響而產生極據變動。(c) 平均絕對偏差(MAD, Mean Absolute Deviation)MAD =ni =1| xi-|/n(d) 變異數與標準差(Variance and Standard Deviation)若有N個母體觀測值x1, x2, , xN,且母體平均值為m,則母體變異數為s2=Ni =1 (xi-m)2/N,(Ni =1 (xi-m)2:Sum Square)對於n個樣本資料 x1, x2, , xn,則樣本變異數為S2=ni =1 (xi-)2/(n-1),(ni =1 (xi-)2:Sum Square)樣本變異數S2使用(n-1)當分母的原因是,分子中(xi-)的自由度(DOF, Degree of Freedom)為(n-1)的關係。即n個項目(x1-),(xn-)中,只要知道其中的(n-1)項,則剩下的最後一項就固定了,因為S(xi-)= 0。變異數是取觀測值與母體平均數差之平方和,所以變異數的單位與原觀測值所用的單位不同。為取一致可將變異數的開平方根,則s 稱之母體標準差,作為對應之離散量。另樣本標準差則相對為S。對於分組資料,假設資料分為m組共有n個觀測值,令xi為第i組觀測值之組中點,fi為該組觀測值相對應的次數, fi = n。則樣本變異數為S2=mi =1 (xi-)2 fi/(n-1)(e) 變異數係數(CV, Coefficient of Variance )CV =(標準差/平均值)2.3.3形狀統計量形狀統計量係用量測一組資料對稱與否,與分佈形狀峰度之高低-分別為偏態係數與峰態係數。(a) 偏態係數(Skewness)偏態係數(SK)是對資料分配偏往某一方的趨勢(Tendency)。SK的值必介於 3與3之間。其定義:SK = 3(-Median)/s上圖SK 0 ;Mean = Median = Mode 上圖SK 0 (右偏或正偏);Mean Median Mode 上圖SK 0 (左偏或負偏);Mean Median 0 高峻峰K 0 低闊峰K=0 常態峰習題一2.1 私立學校的董事長擔心近年來一直下降的新生報到人數。茲雇用你從事統計工作。若要你提供他一個簡單的圖表來表示1985年至1994年10年間每年所招生的人數,則下列何種統計圖表最適合? (A)直方圖 (B)條圖 (C)圖餅圖 (D)XY分佈圖 (E)時間數列走勢圖。2.2 若有一組隨機樣本,每一個樣本點的值都相同,則此組樣本的算術平均數、第三四分位數(Q3)、中位數、眾數、及變異數敘述何者正確? (A)均不相同 (B)均相同,但變異數不為0 (C)均相同,且變異數為0。2.3 國賓戲院紀錄首映25天鐵達尼號影片,午夜場的觀眾人數如下表:19232836301237441144449332914302489333421293413 請(A)以6-15、16-25、26-35、36-45作為分界,製作次數分配表(B)繪製直方圖。2.4 試舉出三種用來衡量資料集中趨勢的量值,並列示出他們的計算公式來求算方法。2.5 試舉出二種用來衡量資料離散趨勢的量值,並列示他們的計算公式或求算方法。2.6 現在有一組樣本是取自貨幣市場共同基金每年收益狀況,資料如下:6,6,4,8,10,12。則其算術平均數、中位數、變異數為何。2.7 景文技術學院舉行全校的英文檢定考試,其中財務金融科得到下列成績之次數分配表,試求該科此次英文檢定考試之算術平均數。組限31-4041-5051-6061-7071-8081-9091-100次數421173392012.8 西北旅行社的嚮導紀錄暑假期間,乘長榮航空客機至夏威夷茂宜島歡樂旅遊的每日出團人數如下:38 21 17 42 30 24 20 19 32 1120 36 30 20 43 43 19 30 9 1817 49 37 14 15 36 24 23 41 1951 58 32 62 29 17 13 17 16 3143 61 14 20 25 16 21 40 45 22 試求暑假期間每日出團人數(A)算術平均數(B)中位數(C)截尾平均數(D)四分位數。2.9 由奇異公司生產線上隨機抽樣30件產品,測其重量(mg)為:159.2 159.2 160.7 158.4 159.5 159.1 157.7 158.6157.2 158.1 156.6 158.6 157.3 157.9 158.8 159.0158.7 159.0 159.3 158.9 158.8 159.1 158.6 158.9158.4 159.1 159.1 159.3 159.5 157.9 試計算(A)全距(B)四分位距(C)算術平均數(D)變異數。2.10 一個投資者希望知道A股票和B股票那種較適合投資,下列是最近二個星期A和B股票每股的股票價值,那種股票之股價較為穩定?A股票:64.5,65,65.5,64.5,64.5,62.5,60,58.5,60.5,60,60,62B股票:198,195,194,195,195,190,189,186,189,185,184,1852.11 以下是1998年8月1日至8日的店頭市場某一個股股票成交量、開盤價、最高價、最低價、收盤價(8月7日為星期日)。日期成交量開盤價最高價最低價收盤價9月1日2104343632339月2日1459343431319月3日1648323330329月4日2314353534349月5日2215363737369月6日3648353935399月8日1262414140429月9日277340443940請依照上表的資料繪製股票箱形圖。習題二1、裝配零件之生產線,用塞規決定孔徑是否合格,為(文字/屬性/屬量)資料。2、一群員工對生產線問題提出討論之集體思考其要因,為(文字/屬性/屬量)資料。3、下列何者為計量值資料(1)密度 (2)布匹之缺點數 (3)某批產品中有2個不合格品 (4)教室內共有20個學生。4、 間斷資料 連續資料(1)、電鍍液的鎳濃度(%) ( ) ( )(2)、鐵線的強度 ( ) ( )(3)、請假人數 ( ) ( )(4)、機器故障次數 ( ) ( )(5)、膠布的污點數 ( ) ( )(6)、MILSTD105抽樣表 ( ) ( )(7)、某工廠每期意外事件 ( ) ( )(8)、鋼球直徑 ( ) ( )(9)、回收率 ( ) ( )5、致遠管理學院舉行全校統計學檢定考試,其中工管系成績的次數分配如下表,試求該系統計學檢定考試之算術平均數。組限31-4041-5051-6061-7071-8081-9091-100次數421173392016、某技術員用車床車制螺絲,要求其直徑為10mm。為了了解該技術員的加工品質,抽查其加工的100個螺絲,分別測得其直徑數據100個。螺絲直徑數據(100個)10.29.9109.99.89.910.410.310.310.010.29.79.710.19.99.810.110.29.89.510.010.69.89.210.19.89.610.010.410.110.29.710.79.710.510.110.310.110.210.09.79.89.810.110.210.210.69.510.09.910.19.910.310.210.410.110.410.010.19.79.59.910.19.99.99.89.59.810.110.310.31

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论