抽样及抽样分配.ppt_第1页
抽样及抽样分配.ppt_第2页
抽样及抽样分配.ppt_第3页
抽样及抽样分配.ppt_第4页
抽样及抽样分配.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章 抽樣及抽樣分配,授課教師:楊富龍,學習目標,學習為何樣本經常是唯一用來認識母體的途徑。 學習如何抽取樣本。 學習樣本平均數之抽樣分配。 學習中央極限定理。 學習樣本比例之抽樣分配。 學習 t 分配。,本章架構,8.1 抽樣 8.2 抽樣方法 8.3 統計量與抽樣分配 8.4 樣本平均之抽樣分配 8.5 樣本比例之抽樣分配 8.6 t 分配,8.1 抽樣,母數(parameter) 由母體測量出用來描述母體特徵的數值,如母體平均或母體變異數。 誤差(error) 母數真值與由樣本所得到之估計值的差。,抽樣調查實例電視收視率調查,以國內的收視率調查公司來看,共分幾種不同的類型,AC尼爾森公

2、司以裝設people-meter來進行家戶收視調查。潤利收視率調查公司所做的收視率調查則採用分層隨機抽樣電話訪問的方式,與潤利相同的還有天和水行銷顧問公司(僅作廣播收聽率調查)。此外,從民國八十九年起,財團法人廣播電視事業發展基金也加入收視率調查的準備工作,與日本的收視率調查公司合作,先期以進行電視收視行為調查和廣播收聽行為調查研究為主。 以現有的收視率調查技術而言,其調查僅以量化的衡量為原則,無法進行質的調查。若僅作為節目品質評定的單一標準,在說服力上略顯不足,因為收視率調查為一點人頭式的調查方式,可算出有多少人正在看,但卻無法調查收視者對該節目的優劣評價,因此,收視率高低與節目品質並無直接

3、關係。,8.1 抽樣(續),誤差的來源 抽樣誤差(sampling error) 由隨機抽樣代替普查所發生之不確定性。 非抽樣誤差(nonsampling error) 其他種種非因隨機抽樣之不確定性所造成的誤差,包括樣本選擇偏差(sample selection bias)、測量偏差(response bias)以及自我選擇偏差(self-selection bias)。,8.1 抽樣(續1),非抽樣誤差的來源 樣本選擇偏差(sample selection bias) 由於抽樣方法的不正確所造成的 。 測量偏差(response bias) 包含了資料記錄錯誤、受訪者故意提供不實資訊等。

4、自我選擇偏差(self-selection bias) 包含了受訪者拒絕回答、或在 call-in 投票中,投票者通常是有主動傾向且有強烈意見者 。,8.2 抽樣方法,8.2.1 簡單隨機抽樣(simple random sampling) 8.2.2 分層隨機抽樣(stratified random sampling) 8.2.3 部落抽樣(cluster sampling) 8.2.4 系統抽樣(systematic sampling) 8.2.5 非隨機抽樣(nonrandom sampling),抽樣方法實例電腦輔助電話訪問系統,近年來,國內的民意調查幾乎都採電話訪問方式來進行。主要原

5、因是電話在國內普及率已近99%,幾乎家家都有電話,無法接受電話訪問的民眾極少。電腦輔助電話訪問系統(Computer Assisted Telephone Interviewing System,簡稱CATIS) , 利用電腦儲存電話號碼的母體清冊,利用電腦程式執行統計的隨機取樣,架設問卷在電腦中,然後由電腦直接自動撥號,訪員在線上直接鍵入訪問結果,再經由電腦的監聽、看、錄系統,更有效的管理電訪的執行,使民意調查在統計抽樣調查執行技術上的可能缺失減到最低程度。,8.2.1 簡單隨機抽樣,定義 使得母體內所有可能抽出的樣本被抽出的機率均相等,而由這種方法所抽出的樣本就稱為簡單隨機樣本(simpl

6、e random sample),或簡稱為隨機樣本( random sample)。 重要的統計特質 不偏(unbiased) 母體內每一個體被抽到的機會均等。 獨立(independence) 母體內某一個體被抽到與否不會影響其他個體被抽到之機會。,8.2.1 簡單隨機抽樣(續),優點: 母體名冊完整時,樣本抽取方便,方法簡單 。 估計式簡單(樣本機率為定值,甚至相等)。 缺點: 完整母體名冊不易取得,或取得成本很大時實行困難 。 當母體樣本單位過多時,抽樣作業相對上不便(如母體名冊幾萬戶)。 樣本分配分散,增加調查行政作業困難(如台灣地區住戶580萬戶要抽18000戶)。 當樣本單位差異大

7、時,樣本代表性恐有不足(如估計所得,抽到高所得或偏低所得) 。,簡單隨機抽樣實例,某公司舉辦尾牙餐會,會中並有抽獎活動,為了獎勵員工這一年來的辛勞,公司提供一部汽車及若干家電作為抽獎用,與會的員工每人發給一張兩頭印有號碼的摸彩券(兩頭的號碼相同,且一半為存根聯,一半為抽獎聯),撕下其中的抽獎聯後投入摸彩箱中,然後由董事長將之攪拌均勻,依序請公司各級主管抽出摸彩券,以決定家電與汽車的得獎人。這就是簡單隨機抽樣。,8.2.2 分層隨機抽樣,定義 將母體依母體內個體的某些特性分為若干沒有交集的層(strata),務必使層內的差異小(又稱為同質(homogeneity)),而層間的差異大(又稱為異質(

8、heterogeneity))。 母體內的每一個體均只屬於其中一層,再自每層中抽取簡單隨機樣本,這些來自各層之簡單隨機樣本即構成一分層隨機樣本(stratified random sample)。,8.2.2 分層隨機抽樣(續),比例分層隨機抽樣 (proportionate stratified random sampling) 在每一層中所抽取之隨機樣本數若按照每一層中個體數在總母體中所佔比例決定。 非比例分層隨機抽樣 (disproportionate stratified random sampling) 若各層所抽出之隨機樣本數不能反映出各層在母體中所佔比例。,樣本,母體,8.2.2

9、 分層隨機抽樣(續1),圖8.4 分層隨機抽樣,第一層,第二層,第三層,第K層,8.2.2 分層隨機抽樣(續2),優點: 樣本分配較均勻,可提高估計確度 。 可以分別得各層訊息,並做比較分析。 各層可視情形採取不同之抽樣方法。 便於尋找樣本跳動之來源(如連續性調查每季每月就業、失業、人力資源調查)。 可在各層設立行政單位,以利調查方便。 限制: 分層變數之選取(分層特性)需多加注意。 分層不能有重疊現象。 分層後樣本資料之整理與估計較簡單隨機抽樣複雜。,分層抽樣實例,交通部觀光局為瞭解週休二日制度實施後,對國人國內旅遊的影響及改變,於87年首次辦理週休二日實施對國內旅遊的影響調查, 以提供政府

10、及旅遊相關業者參考之依據。以各縣市之住宅電話號碼簿做為抽樣清冊, 即抽樣母體之來源。抽樣方式採分層抽樣法:臺灣地區依北、中、南、東分為四層,各層依照層內戶數占台灣省總戶數的比例分配樣本數;層內各縣市再依照其戶數比例分配其樣本。預計樣本數1,500人。以電話訪問調查,居住在臺灣地區之家庭住戶內十二歲以上之國民,且就讀學校或服務單位已實施週休二日或隔週休二日者。,8.2.3 部落抽樣,定義 將母體分為若干沒有交集的部落,母體內的每一個體均只屬於其中一部落,再自所有部落中簡單隨機抽取若干部落樣本,並對這些簡單隨機部落樣本作完整的普查。 不同於分層隨機抽樣,其要求部落內要異質。理論上,每一個部落均可視

11、為母體的縮小,最常見的部落區分便是按照地域來區分。,8.2.3 部落抽樣(續),部落抽樣之優點 部落抽樣因調查範圍僅限於較小範圍的部落內,因此也較節省人力時間與經費。 二階段部落抽樣(two-stage cluster sampling) 有時若部落太大,則可在抽到的部落內再細分更多部落 。,8.2.3 部落抽樣(續1),圖8.5 部落抽樣,部落抽樣實例,假設某公司想調查高雄市市民每月消費在甲產品的支出,計畫在所有11個行政區中隨機抽出4個行政區,然後再從被抽出的行政區中隨機抽出一條路(街)(如遇街道跨區時,則僅調查屬於該區的住戶),然後普查該條路(街)的所有住戶。這就是部落抽樣。,8.2.4

12、 系統抽樣,系統抽樣之定義 將大小為N的母體內之個體隨機排序,再自前k個個體中隨機抽取一個體作為第一個樣本,然後自該個體起,每隔k個個體選取一個樣本,直到選滿n個樣本為止。k值的決定 其中,n=樣本大小 N=母體大小 k=樣本選取間隔,8.2.4 系統抽樣(續),當母體大小為無限時,k值大小則可依方便決定之。 系統抽樣的目的並不在降低抽樣誤差,而是純粹為了方便及管理考量。 當母體內個體排序出現某一週期性或規則時,系統抽樣的使用就必須非常小心,不然,則很容易增加抽樣誤差 。,系統抽樣實例,某製造燈泡的工廠,計畫生產5000個燈泡,想從中抽取50個樣本,以了解不良品的比例,若採取系統抽樣,則依50

13、00個燈泡生產的順序,做為假想的編號,其次決定抽樣區間k,k=5000/50 =100,然後從1至100中以簡單隨機抽樣抽出一數,做為起始點,如抽出35,最後只要每生產第100個燈泡,便將該燈泡抽出,即生產順序為35,135,235,335,4935的燈泡,就被抽出做為樣本。,8.2.5 非隨機抽樣,非隨機抽樣(nonrandom sampling) 任何一種抽樣方法在自母體選取樣本的過程中並不包括隨機選取者,均屬於非隨機抽樣。 非隨機抽樣方法因非機率抽樣,所以也不適合做統計分析與推論,抽樣誤差也無法客觀的計算出來。一般在廣播電視常出現的叩應(call-in)民調即屬非隨機抽樣的一種。,隨機抽

14、樣與非隨機抽樣的比較,估計值的信賴度:機率抽樣可依統計理論求得樣本的估計值、抽樣誤差和信賴區間。非機率抽樣的估計值則包含難以衡量的偏差,無法客觀評估樣本估計值的正確性。 統計效率評估:機率抽樣可比較不同樣本設計的相對效率,非機率抽樣則沒有客觀的統計方法比較。 母群體的情報:機率抽樣所需有關母群體的情報較少。非機率抽樣,所需的情報較多。 經驗和技巧:機率抽樣的設計和執行比非機率抽樣需要專業化的技巧和經驗。 時間:機率抽樣的設計和執行較繁雜,花費時間較長。 成本:機率抽樣的設計和執行為達到某些目的,費用較多。,8.3 統計量與抽樣分配,母數(parameter) 由母體中計算出用來描述母體的數值測

15、量結果。 統計量(statistic) 由樣本中計算出用來描述樣本的數值測量結果。 抽樣分配(sampling distribution) 在一母體中重複抽取固定大小的隨機樣本,由該隨機樣本所計算出之統計量的所有可能結果之機率分配, 稱為該統計量的抽樣分配。,例 8.1 考試平均成績,假設某次統計學考試前五名高分的成績分別為 91、92、93、94及 95 分,若將這五名同學當成一母體,則母體之平均成績為 = (91+92+93+94+95)/6 = 93(分) 今若自該母體中隨機抽取兩名同學為樣本(n=2)計算平均成績,則該平均成績之抽樣分配為何? 解答:若自該母體中隨機抽取兩名同學為樣本(

16、n=2)計算平均成績,則所有可能抽出之成對樣本及其平均成績見表 8.2。,例 8.1 考試平均成績(續),表 8.2 所有可能樣本及樣本平均(n=2),例 8.1 考試平均成績(續1),表 8.3 樣本平均的抽樣分配表(n=2),例 8.1 考試平均成績(續2),圖 8.6 樣本平均的抽樣分配圖(n = 1 和 2),例 8.1 考試平均成績(續3),今若自該母體中隨機抽取三名同學為樣本(n=3)計算平均成績,則該平均成績之抽樣分配又為何? 解: 表 8.4 所有可能樣本及樣本平均(n = 3),例 8.1 考試平均成績(續4),表 8.5 樣本平均的抽樣分配表(n = 3),例 8.1 考試

17、平均成績(續5),表 8.7 樣本平均的抽樣分配圖(n = 3),8.4 樣本平均之抽樣分配,取出放回或無限母體 自一平均數為 與標準差為的母體中抽取一大小為 n 之隨機樣本(X1, X2, , Xn),樣本平均之期望值與變異數如下,8.4 樣本平均之抽樣分配(續),8.4 樣本平均之抽樣分配(續1),在有限母體中採抽出後不放回 樣本平均之期望值與變異數如下 其中, 為有限母體修正因子,一般認為,當n 0 .05N時,上式中的修正因子即可省略不用 。,例8.2 平均月薪之期望值與標準差,假設高科公司有 1000 名員工,已知其平均月薪為 40,000 元,月薪標準差為 5,000 元,今若自該

18、公司中隨機抽取 25 名員工調查其月薪,該25 名員工之平均月薪之期望值與標準差為若干?今若改自該公司隨機抽取 100 名員工調查其月薪,則該 100 名員工之平均月薪之期望值與標準差為若干?,例8.2平均月薪之期望值與標準差(續),解: 25 名員工之平均月薪期望值為 40,000 元。因 n 0.05N (25 0.051,000),平均月薪之標準差為 (元) 100名員工之平均月薪期望值仍為 40,000 元。但因n 0.05N ,須用有限母體修正因子計算標準差 (元),8.4 樣本平均之抽樣分配(續2),在常態母體 X N (, 2)的假設下 樣本平均的抽樣分配,例 8.3 銀行等待時

19、間,假設泛太銀行每位顧客等待服務的時間呈常態分配,平均等待時間為 10 分鐘,標準差為 2 分鐘。為作服務品質調查,隨機抽選 16 名顧客瞭解其等待服務時間,問該 16 名顧客平均等待時間超過 11 分鐘的機率為何? 解: 令X為每位顧客等待服務時間,由題意知為常態分配且 = 10 、 = 2,例 8.3 銀行等待時間(續),故 , 即 因此該16名顧客平均等待時間超過11分鐘的機率為2.28%。,例 8.3 銀行等待時間(續1),圖 8.8 顧客平均等待時間超過 11 分鐘的機率(例 8.3),8.4 樣本平均之抽樣分配(續3),在常態母體 X N (, 2)的假設下 樣本和的抽樣分配,例

20、8.4 飲料會被退貨嗎?,喝好茶盒裝飲料平均每盒重量為 500 克,標準差為 10 克。今每日便利商店進了一批喝好茶盒裝飲料並隨機抽取一箱(內含20 盒)飲料進行重量檢驗,若該箱飲料重量不足 9900 克,則整批飲料通通退貨。若該盒裝飲料之重量呈常態分配,請問該批飲料會被退貨的機率為何? 解:令 X 為喝好茶盒裝飲料每盒之重量而得到,例 8.4 飲料會被退貨嗎?(續),故 , 因此該批飲料會被每日便利商店退貨的可能性為 1.25%。,例8.4 飲料會被退貨嗎?(續1),圖 8.9 整箱飲料不足 9900 克重的機率(例8.4),8.4 樣本平均之抽樣分配(續4),中央極限定理(central

21、limit theorem) 無論母體分配為何,自平均數為 、標準差為 的母體中抽取 n 個隨機樣本,若樣本大小 n 夠大(n 30) ,則樣本平均 的抽樣分配會趨近於常態分配。 無限母體 有限母體抽出後不放回,8.4 樣本平均之抽樣分配(續5),中央極限定理亦適用於樣本和的抽樣分配 無限母體 有限母體抽出後不放回,8.4 樣本平均之抽樣分配(續5),圖 8.10 不同母體分配下,不同樣本大小樣本平均之抽樣分配,例 8.5 年終獎金與減薪,假設某產品推銷員平均每天賣出 1000 件產品,每天賣出產品數之標準差為 100 件。今公司於年終欲瞭解該銷售員之銷售業績,遂隨機選取了 100 天的銷售業

22、績來檢驗,若該 100 天的平均銷售數量超過 1025 件,則發給該銷售員年終獎金;若該 100 天的平均銷售數量不足 985 件,則要扣減其薪資。問該銷售員既得不到獎金亦沒有受到減薪懲罰之機率為何?,例 8.5 年終獎金與減薪(續),解: 令X為該銷售員之每天銷售產品數量,雖然X之分配未知,因為樣本夠大(n= 100 30),所以該銷售員任 100 天的平均銷售數量之抽樣分配近似常態分配 ,故 今欲求該銷售員既得不到獎金亦沒有受到減薪懲罰之機率,即為,例 8.5 年終獎金與減薪(續1),因此該銷售員年終收入沒有任何新的變化之機率為 0.927。,例 8.5 年終獎金與減薪(續2),圖 8.1

23、1 平均銷售數量介於 985 與 1025 件之機率(例 8.5),例 8.6 接力賽破紀錄,假設某大專院校全體學生參加 100 公尺賽跑的平均時間為 15 秒,標準差為 3 秒。今學校隨機抽選 36 位同學參加大專運動會之 3600 公尺接力賽跑,若 3600 公尺接力賽跑之大會紀錄為 8 分鐘整,試問該 36 位同學破紀錄之機率為何?,例 8.6 接力賽破紀錄(續),解: 令X1, X2, , X36為該校隨機抽選之 36 位同學各跑 100 公尺所花時間,因學生人數夠多(n= 3630) 該 36 位同學跑出的成績是低於8分鐘(或 480 秒)之機率為,例 8.6 接力賽破紀錄(續1),

24、因此,若自該校中隨機抽取 36 位同學參加 3600公尺 接力賽跑,其成績破大會紀錄之機率為 0.04%。,例 8.6 接力賽破紀錄(續2),圖 8.12 接力賽跑破紀錄之機率(例 8.6),8.4 樣本平均之抽樣分配(續6),結論 母體是常態分配,則樣本平均的抽樣分配亦是常態分配。 母體不是常態分配,則在樣本夠大時,樣本平均的抽樣分配會近似常態分配。 樣本平均的期望值等於母體平均 。 樣本平均的標準差比母體標準差小 倍。,8.5 樣本比例之抽樣分配,樣本比例(Sample Proportion) 其中X: 樣本中某特定類別族群之發生次數 n: 樣本大小,8.5 樣本比例之抽樣分配(續),樣本比例之平均數與變異數 無限母體 有限母體且母體大小(N)與樣本大小(n)的比例關係n/N為 0.05 情況下,,8.5 樣本比例之抽樣分配(續1),自一成功機率為 p 的二項分配抽取 n 之隨機樣本,在大樣本(np 5 且 n (1p) 5)的情況下,樣本比例 ( )的抽樣分配近似為 無限母體或有限母體大小N滿足 有限母體大小N滿足,例 8.7 保單之續保率,某保險公司宣稱其保單每年之續保率為 85%,遠高於全國所有保險公司之總續保率。假設全國的續保率為 80%,並且該保險公司之宣稱正確,今自該公司去年之保單中隨機抽取 100 份檢查是否在今年又續保,問這 100

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论