医学统计学课件_第1页
医学统计学课件_第2页
医学统计学课件_第3页
医学统计学课件_第4页
医学统计学课件_第5页
已阅读5页,还剩221页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

緒論

第一節統計學與醫學統計學方法

統計學是收集、分析、解釋與呈現數據資料的一門科學。Statistics:“asciencedealingwiththecollection,analysis,interpretationandpresentationofmassesofnumericaldata”

----Webster國際大辭典收集數據:實驗設計、調查設計(8,9)分析數據:統計學描述(2)、統計學推斷(3~7;10)解釋數據:根據專業等解釋統計結果(穿插各個章節)呈現結果:向雜誌社、上級部門發表結果(12)統計工作的基本步驟1.統計設計:包括調查、實驗設計。2.收集資料:取得準確可靠的原始資料3.整理資料:對資料進行清理、改錯,數量化4.分析資料:統計描述、統計推斷醫學統計學用統計學原理和方法研究醫學問題第二節數據類型1.計量資料2.計數資料3.等級資料4.三類資料間關係住院號年齡身高體重住院天數職業文化程度分娩方式妊娠結局20256552716571.55無中學順產足月20256532216074.05無小學助產足月20258302515868.06管理員大學順產足月20225432316169.05無中學剖宮產足月20224662515962.011商業中學剖宮產足月20245352715768.02無小學順產早產20258342015866.04無中學助產早產20194642415870.53無中學助產足月20257832915457.07幹部中學剖宮產足月觀察單位observations個體individuals變數variablesQuantitativedata計量資料Qualitativedata計數資料Units;elements1.計量資料

用儀器、工具等測量(measure)方法獲得的數據,即為計量資料measurmentdata。也叫定量數據Quantitativedata特點:有計量單位,如患者的身高(cm)、體重(kg)、血壓(mmHg)、脈搏(次/分)、紅細胞計數(1012/L)2.計數資料

按某種屬性分類,然後清點每類的數據,稱計數資料(countdata)或enumerationdata。也叫定性數據Qualitativedata

特點:無固有計量單位,如膚色(黑、白)、血型(ABO)、職業(工農兵)、性別(男女)3.等級資料Rankdata

半定性或半定量的觀察結果。有大小順序,所以也叫有序分類資料(ordinalcategorydata)。

①癌症分期:早、中、晚。

②药物疗效:治愈、好转、无效、死亡。

③尿蛋白:

,,,++,+++及以上實例數據1實例數據24.三類資料間關係

例:一組20

40歲成年人的血壓以12kPa為界分為正常與異常兩組,統計每組例數

<8低血壓

8

正常血壓

12

輕度高血壓

15

中度高血壓

17

重度高血壓計量資料等級資料計數資料第三節統計學基本概念

1.隨機變數及其分類2.同質與變異3.總體與樣本4.參數與統計量5.誤差6.概率1.隨機變數(randomvariable)

簡稱變數(variable),統計上習慣用大寫拉丁字母表示,如X、Y、Z、…

變數值習慣用小寫拉丁字母表示,如性別x1=1(男)、x2=1

(男)、x3=0

(女)

、…。編號(ID)性別(X)體重(kg)(Y)療效(Z)張11660李21781王30572…………

隨機變數的分類

離散型變數(discretevariable),相當於計數資料

連續性變數(continuousvariable),相當於計量資料有序變數(ordinalvariable),相當於等級資料2.同質與變異homogeneityandvariation

同質:指事物的性質、影響條件或背景相同或非常相近。變異:指同質的個體之間的差異。

同質與變異的例子例1調查2003年西安市7歲男童的身高和體重同質:2003年、西安市、7歲男童變異:身高和體重各不相同例2研究某降壓藥的療效同質:高血壓患者、用某藥治療變異:療效各不相同表1-1120名正常成年男子紅細胞計數值(1012/L)

5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18,最小值=3.29,極差=2.89算術均數=4.72,標準差=0.57

3.總體與樣本populationandsample總體:根據研究目的確定的同質研究對象的全體(集合)。分有限總體與無限總體樣本:從總體中隨機抽取的部分觀察單位

隨機抽樣randomsampling為了保證樣本的可靠性和代表性,需要採用隨機的抽樣方法(在總體中每個個體具有相同的機會被抽到)。4.參數與統計量

parameterandstatistic參數:總體的統計指標,如總體均數、標準差,採用希臘字母分別記為μ、σ。固定的常數

總體樣本抽取部分觀察單位

統計量

參數

推斷inference統計量:樣本的統計指標,如樣本均數、標準差,採用拉丁字母分別記為。參數附近波動的隨機變數。5.誤差

error誤差:實際觀察值與客觀真實值之差(1)系統誤差(2)隨機誤差(1)系統誤差

systematicerror

在實際觀測過程中,由受試對象、研究者、儀器設備、研究方法、非實驗因素影響等原因造成的有一定傾向性或規律性的誤差。流行病學稱之為偏倚(bias)。特點:觀察值有系統性、方向性、週期性的偏離真值。可以通過嚴格的實驗設計和技術措施消除。(2)隨機誤差randomerror

排除上述誤差後尚存的誤差,受多種無法控制的因素的影響。特點:大小方向不一的隨機變化。隨機測量誤差(randommeasurementerror)——提高操作者熟練程度可以減少這種誤差

隨機抽樣誤差(random

samplingerror):由抽樣造成的樣本統計量和總體參數間的差異。——不可避免,但有一定的分佈規律,可估計。6.概率probability

確定性現象:在一定條件下,一定會發生或一定不會發生的現象。其表現結果為兩種事件:肯定發生某種結果的叫必然事件;肯定不發生某種結果的叫不可能事件。

隨機現象:在同樣條件下可能會出現兩種或多種結果,究竟會發生哪種結果,事先不能確定。其表現結果稱為隨機事件。隨機事件的特徵:①隨機性;②規律性:每次發生的可能性的大小是確定的。概率:隨機事件發生的可能性大小,用大寫的P表示;取值[0,1]。必然事件P=1不可能事件P=0隨機事件0<P<1

P≤0.05(5%)或P≤0.01(1%)稱為小概率事件(習慣),統計學上認為不大可能發生。小概率事件

樣本的實際發生率稱為頻率。設在相同條件下,獨立重複進行n次試驗,事件A出現f次,則事件A出現的頻率為f/n。頻率與概率間的關係:樣本頻率總是圍繞概率上下波動樣本含量n越大,波動幅度越小,頻率越接近概率。頻率frequency第四節統計學發展及有關問題

20世紀20年代,英國統計學家R.A.Fisher爵士(1890-1962)創立了實驗設計方法和統計分析技術,奠定現代生物統計的基礎。1948年,英國發表了評價鏈黴素治療肺結核療效的隨機對照的臨床試驗報告,第一次採用生物統計方法進行臨床干預試驗。1948年,郭祖超教授(1912~1999)編著的《醫學與生物統計方法》,是我國第一部醫學統計方法的教科書。1.實例

遺傳學家F.Galton爵士(1822-1911)對上千家庭父親身高和兒子身高的觀察發現遺傳的“回歸”現象1960年英國醫生Doll,Hill等發現吸煙與肺癌有關2.醫學論文中的統計學問題60年代到80年代,國外醫學雜誌調查結果:有統計錯誤的論文20%~72%。1996年對4586篇論文統計(中華醫學會系列雜誌占6.9%),數據分析方法誤用達55.7%。3.偽造統計數據違反科學道德1976年NewScience雜誌關於科研舞弊行為的調查(1)74%的調查表反映有不正當修改數據的情況(2)17%拼湊實驗結果(3)7%憑空捏造數據(4)2%故意曲解結果FancystatisticalmethodscannotrescuegarbagedataFancystatisticalmethodscanhelpyougaininsightintoyourdata,overandabovewhatseemsobviousonitsfaceYoushouldalwaysworryaboutwhetherthesampledresultsarerepresentativeofthepopulation,andwhetheryoursampleallowsyoutomakeinferencesaboutthepopulation.AWarning!第一節計量資料的統計描述頻數表與頻數分佈平均指標(算術均數、幾何均數、中位數、眾數)變異指標(極差、百分位數與四分位間距、方差、標準差、變異係數)一、頻數表與頻數分佈

(frequencytableandfrequencydistribution)

表2-1160名正常成年女子的血清甘油三酯(mmol/L)

編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.771.頻數表的編制步驟(1)求極差(range):即最大值與最小值之差,又稱為全距。本例極差:R=1.77-0.51=1.26(mmol/L)(2)決定組數、組段和組距:根據研究目的和樣本含量n確定。組距=極差/組數,通常分10-15個組,為方便計,組距參考極差的十分之一,再略加調整。本例i=R/10=1.26/10=0.126≈0.1。(3)列出組段:第一組段的下限略小於最小值,最後一個組段上限必須包含最大值,其他組段上限值忽略。(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。

組段(1)

劃記(2)

頻數,f(3)

組中值,X(4)fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8

合計

31.755.25160182.302.頻數表的分佈特徵①集中趨勢(centraltendency):變數值集中位置。本例在組段“1.1~”。——平均水準指標②離散趨勢(tendencyofdispersion):變數值圍繞集中位置的分佈情況。本例0.9~1.4,共有90人,占56%;離“中心”位置越遠,頻數越小;且圍繞“中心”左右對稱。——變異水準指標

3.正態分佈與偏態分佈1.表2-2頻數表——正態分佈normaldistribution(圖2-1)

2.表2-3頻數表——右偏態(skewedtotheright),也稱正偏態(positiveskewed)(圖2-2)

3.表2-4頻數表——左偏態(skewedtotheleft),也稱負偏態(negativeskewed)(圖2-3)正態分佈:中間高、兩邊低、左右對稱正偏態分佈:長尾向右延伸負偏態分佈:長尾向左延伸a.尖峭峰

b.正態峰

c.平闊峰

二、平均指標總稱為平均數(average)反映了資料的集中趨勢(centraltendency

)。常用的有:

1.算術均數(arithmeticmean),簡稱均數(mean)

2.几何均数(geometricmean)

3.中位数

(median)

4.众数(mode)1.均數(mean)Σ為求和符號,讀成sigma適用條件:資料呈正態或近似正態。

組段(1)

劃記(2)

頻數,f(3)

組中值,X(4)fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5513.951.6~正81.6513.201.7~1.8

合計

31.755.25160182.30均數=182.3/160=1.142.幾何均數(geometricmean)幾何均數:變數對數值的算術均數的反對數。

幾何均數的適用條件與實例適用條件:呈倍數關係的等比資料或對數正態分佈(正偏態)資料;如抗體滴度資料

血清的抗體效價滴度的倒數分別為:10、100、1000、10000、100000,求幾何均數。此例的算術均數為22222,顯然不能代表滴度的平均水準。同一資料,幾何均數<均數頻數表資料的幾何均數抗體滴度⑴

人數,f⑵

滴度倒數,X⑶lgX⑷

f·lgX⑸1:2.5

1:101:401:1601:640

合計141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.10323.中位數(median)

中位數是將一批數據從小至大排列後位次居中的數據值,符號為Md,反映一批觀察值在位次上的平均水準。

適用條件:適合各種類型的資料。尤其適合於①大樣本偏態分佈的資料;

②資料有不確定數值;③資料分佈不明等。

中位數計算公式與實例

先將觀察值按從小到大順序排列,再按以下公式計算:特點:僅僅利用了中間的1~2個數據頻數表資料的中位數下限值L上限值Ui;fm中位數Md

組段(1)

劃記(2)

頻數,f(3)

累計頻數Sf(4)累計百分率0.5~

331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8

合計

3160100.0(98.1~100)160中位數=1.1+0.1x[(160x50%-72)/20]=1.144.眾數(mode)

出現次數(或頻數)最多的觀察值;在頻數分佈圖中對應於高峰所在位置的觀察值。適用於大樣本;較粗糙。均數、中位數、眾數三者關係正態分佈時:均數=中位數=眾數正偏態分佈時:均數>中位數>眾數負偏態分佈時:均數<中位數<眾數三、變異(variation)指標

反映數據的離散度(Dispersion

)。即個體觀察值的變異程度。常用的指標有:

1.極差(Range)

(全距)

2.百分位数与四分位数间距

PercentileandQuartilerange

3.方差

Variance

4.標準差StandardDeviation

5.變異係數

CoefficientofVariation

三、變異(variation)指標盤編號甲乙丙14404804902460490495350050050045405105055560520510合計250025002500均數500500500

例:設甲、乙、丙三人,采每人的耳垂血,然後紅細胞計數,每人數5個計數盤,得結果如下(萬/mm3)甲乙丙1.極差(Range)(全距)優點:簡便缺點:1.只利用了兩個極端值

2.n大,R也會大

3.不穩定12040202.百分位數與四分位數間距

Percentileandquartilerange百分位數:數據從小到大排列;在百分尺度下,所占百分比對應的值。記為Px。四分位間距:QR=P75-P25四分位半間距quartiledeviation:QD=QR/2P100(max)P75P50(中位數)P25P0(min)Px頻數表資料的百分位數下限值L上限值Ui;fm百分位數Px

組段(1)

劃記(2)

頻數,f(3)

累計頻數Sf(4)累計百分率0.5~

331.9(0~1.9)0.6~正9127.5(1.9~7.5)0.7~正正122415.0(7.5~15.0)0.8~正正133723.1(15.2~23.1)0.9~正正正175433.8(23.1~33.8)1.0~正正正187245.0(33.8~45.0)1.1~正正正正209257.5(45.0~57.5)1.2~正正正1811068.8(57.5~68.8)1.3~正正正1712779.4(68.8~79.4)1.4~正正1314087.5(79.4~87.5)1.5~正914993.1(87.5~93.1)1.6~正815798.1(93.1~98.1)1.7~1.8

合計

3160100.0(98.1~100)160P25=0.9+0.1x[(160x25%-37)/17]=0.92P75=1.3+0.1x[(160x75%-110)/17]=1.36QR=1.36-0.92=0.44;QD=0.22百分位數的應用確定醫學參考值範圍(referencerange):如95%參考值範圍=P97.5-P2.5;表示有95%正常個體的測量值在此範圍。中位數Md與四分位半間距QD一起使用,描述偏態分佈資料的特徵3.方差

方差(variance)也稱均方差(meansquaredeviation),樣本觀察值的離均差平方和的均值。表示一組數據的平均離散情況。樣本方差為什麼要除以(n-1)

與自由度(degreesoffreedom)有關。自由度是數學名詞,在統計學中,n個數據如不受任何條件的限制,則n個數據可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。計算標準差時,n個變數值本身有n個自由度。但受到樣本均數的限制,任何一個“離均差”均可以用另外的(n-1)個“離均差”表示,所以只有(n-1)個獨立的“離均差”。因此只有(n-1)個自由度。

離均差和Σ(X-m)=04.標準差

標準差(standarddeviation)即方差的正平方根;其單位與原變數X的單位相同。標準差的計算盤編號甲乙丙甲2乙2丙214404804901936002304002401002460490495211600240100245025350050050025000025000025000045405105052916002601002550255560520510313600270400260100合計250025002500126040012510001250250標準差50.9915.817.91

組段(1)

頻數,f(3)

組中值,X(4)fX(5)=(3)×(4)fX2(5)=(3)×(4)20.5~30.551.650.910.6~90.655.853.800.7~120.759.006.750.8~130.8511.059.390.9~170.9516.1515.341.0~181.0518.9019.851.1~201.1523.0026.451.2~181.2522.5028.131.3~171.3522.9530.981.4~131.4518.8527.331.5~91.5513.9521.621.6~81.6513.2021.781.7~1.8

合計31.755.259.19160182.30221.52方差=(221.52-182.302/160)/(160-1)=0.0869標準差=0.295.變異係數變異係數(coefficientofvariation,CV)適用條件:①觀察指標單位不同,如身高、體重②同單位資料,但均數相差懸殊均數

標準差變異係數青年男子身高170cm6cm3.5%體重60kg7kg11.7%第三節計數資料的統計描述一、計數資料的數據整理二、常用相對數指標三、應用注意事項一、計數資料的數據整理

計數資料:按某種屬性分類,然後清點每類的數據(以下是:孕婦分娩資料)住院號年齡職業文化程度分娩方式妊娠結局202565527無中學順產足月202565322無小學助產足月202583025管理人員大學順產足月202567724知識份子中學順產早產202564730管理人員大學順產足月202584832無小學剖宮產足月201991527無中學順產死產202586129無大學剖宮產足月202460125農民中學順產足月200038626無小學順產足月按年齡(2歲一組)與職業整理年齡工人管理人員農民商業服務無知識份子總計182000305209261018045222871024701115024503428521534436126504325451337036628343510347857248301114112239171143214231424360344253122283621145114383110218400020002合計2071411022085372061401二、常用相對數(relativenumber)指標率(rate):說明某現象或某事物發生的頻率或強度。率=(實際發生數/可能發生總數)×比例基數

比例基數:100%、1000‰、10000/萬、100000(1/10萬)等

如:發病率、死亡率、發生率、陽性率、患病率等構成比(proportion):說明某一事物內部,各組成部分所占的比重。也叫百分比。

構成比=(某部分觀察單位數/各組成部分觀察單位總數)×100%

如:教研室16人中高級職稱有4人,占20%。相對比(relativeratio):是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾,通常用倍數或分數表示。如:男:女、醫生:護士、教師:學生率與構成比率構成比概念發生的頻率或強度各組成部分所占的比重強調點隨機發生事件各部分的構成資料獲得較難容易特點不一定合計為100%率與構成比的例子

年齡組⑴

受檢人數⑵白內障例數⑶

患者年齡構成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合計5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.361468448100.0030.52三、應用注意事項1、不能以構成比代替率。2、計算相對數的分母不宜過小。小則直接敘述。3、進行率的對比分析時,應注意資料可比性。如比較療效時,比較組間應病情輕重相同,性別影響,應按性別分組後再作比較。4、正確求平均率。例:若P1=x1/n1

P2=x2/n2P3=x3/n3

P=(x1+x2+x3)/n1+n2+n3)(正確)

P=(P1+P2+P3)/3(錯誤)第四節統計表與統計圖

統計表(statisticaltable)——數據代替文字描述,便於統計結果的精確、簡潔的表達和對比分析

統計圖(statisticalchart)——用圖形代替數據,獲得直觀、形象的效果一、統計表1.統計表的結構

2.統計表的種類

3.不良統計表的修改舉例1.統計表的結構統計表由以下幾個部分組成:①標題、②標目、③線條、④數字、⑤備註表2-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數異常人數檢出率(%)

受檢人數異常人數檢出率(%)

血壓心率

TTT

GPT

5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚濁度試驗),

:GPT(穀丙轉氨酶)。

(丁建生等.中國衛生統計1999;16(3):166)

統計表的結構××.××┋┋×.××××.××縱標目總標目(單位)××.××××××××合計┋┋┋┋┋┋┋┋×.××××××┋××.××××××××橫標目縱標目縱標目縱標目總標目橫標目的總標目備註:表號標題(包括何時、何地、何事)2.統計表的種類

根據分組標目的複雜程度,統計表可大致分為簡單表和複合表。

簡單表(simpletable):只按一個特徵或標誌分組。如表2-8。

複合表(combinativetable):按兩個或兩個以上特徵或標誌結合起來分組。如表2-9。

3.不良統計表的修改舉例一、統計圖

統計圖(statisticalchart或statisticalgraph)是用點、線、面等幾何圖形,直觀形象地表達、描述數據或結果。

1.統計圖的結構

2.

統計圖的種類與繪製注意事項1.統計圖的結構表2-172000年三大城市四苗接種率(%)地區接種率(%)卡介苗脊灰炎苗百白破苗麻疹疫苗甲99.7299.2099.2499.12乙93.5098.2098.7098.20丙99.5093.9098.7098.20統計圖由以下幾個部分組成:①標題、②標目、③點線條面、④刻度、⑤圖例圖2-172000年三大城市四苗接種率(%)Excel繪製的圖形兩組資料均數的比較第一節均數的抽樣誤差第二節t分佈與可信區間第三節t檢驗第四節假設檢驗的步驟及其有關概念總體樣本抽取部分觀察單位

統計量

參數

統計推斷統計推斷statisticalinference如:樣本均數樣本標準差S

樣本率P如:總體均數總體標準差總體率內容:參數估計(estimationofparameters)

包括:點估計與區間估計2.假設檢驗(testofhypothesis)總體樣本抽取部分觀察單位

統計量

參數

統計推斷第一節均數的抽樣誤差如:樣本均數樣本標準差S

樣本率P如:總體均數總體標準差總體率

抽樣誤差(samplingerror):由於個體差異導致的樣本統計量與總體參數間的差別。一、抽樣試驗

從正態分佈總體N(5.00,0.502)中,每次隨機抽取樣本含量n=5,並計算其均數與標準差;重複抽取1000次,獲得1000份樣本;計算1000份樣本的均數與標準差,並對1000份樣本的均數作直方圖。按上述方法再做樣本含量n=10、樣本含量n=30的抽樣實驗;比較計算結果。抽樣試驗(n=5)抽樣試驗(n=10)抽樣試驗(n=30)1000份樣本抽樣計算結果總體的均數總體標準差s均數的均數均數標準差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.09133個抽樣實驗結果圖示抽樣實驗小結

均數的均數圍繞總體均數上下波動。

均數的標準差即標準誤與總體標準差相差一個常數的倍數,即

樣本均數的標準誤(StandardError)=樣本標準差/

從正態總體N(m,s2)中抽取樣本,獲得均數的分佈仍近似呈正態分佈N(m,s2/n)

。二、中心極限定理centrallimittheorem①即使從非正態總體中抽取樣本,所得均數分佈仍近似呈正態。②隨著樣本量的增大,樣本均數的變異範圍也逐漸變窄。第二節t分佈與可信區間一、t分佈(tdistribution)二、總體均數的估計

1.總體均數的點估計(pointestimation)與區間估計

2.總體均數的可信區間(confidenceinterval,CI)

3.總體均數差的可信區間

4.大樣本總體均數的可信區間三、可信區間的解釋一、t分佈隨機變數XN(m,s2)標準正態分佈N(0,12)u變換均數標準正態分佈N(0,12)Studentt分佈自由度:n-1t分佈的概率密度函數式中為伽瑪函數;圓周率(Excel函數為PI())為自由度(degreeoffreedom),是t分佈的唯一參數;t為隨機變數。以t為橫軸,f(t)為縱軸,可繪製t分佈曲線。t分佈曲線

t分佈有如下性質:①單峰分佈,曲線在t=0處最高,並以t=0為中心左右對稱②與正態分佈相比,曲線最高處較矮,兩尾部翹得高(見綠線)③隨自由度增大,曲線逐漸接近正態分佈;分佈的極限為標準正態分佈。t分佈曲線下麵積(附表2)雙側t0.05/2,9=2.262

=單側t0.025,9單側t0.05,9=1.833雙側t0.01/2,9=3.250

=單側t0.005,9單側t0.01,9=2.821雙側t0.05/2,∞=1.96

=單側t0.025,∞單側t0.05,∞=1.64二、總體均數的估計

1.總體均數的點估計(pointestimation)與區間估計參數的估計點估計:由樣本統計量直接估計總體參數區間估計:在一定可信度(Confidencelevel)下,同時考慮抽樣誤差可信度與可信區間

區間的可信度(如95%或99%)是重複抽樣(如1000次)時,樣本(如n=5)區間包含總體參數(m)的百分數。常用100(1-α)%或(1-α)表示,α值一般取0.05或0.01。可信度實驗

2.總體均數的可信區間

3.兩總體均數差的可信區間

4.大樣本總體均數的可信區間(1)

4.大樣本總體均數的可信區間(2)

三、可信區間的解釋

95%可信區間:從總體中作隨機抽樣,作100次抽樣,每個樣本可算得一個可信區間,得100個可信區間,平均有95個可信區間包括μ(估計正確),只有5個可信區間不包括μ(估計錯誤)。

95%可信區間99%可信區間公式區間範圍窄寬估計錯誤的概率大(0.05)小(0.01)第三節t檢驗(ttest)t檢驗,亦稱studentt檢驗(Student’sttest),主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分佈資料。

一、樣本均數與總體均數的比較二、配對資料的比較三、兩樣本均數的比較四、大樣本均數比較的u檢驗五、正態性檢驗與兩方差齊性檢驗一、樣本均數與總體均數的比較

推斷樣本所代表的未知總體均數µ與已知總體均數µ0有無差別。已知總體均數µ0一般為理論值、標準值或經大量觀察所得的穩定值。統計量t的計算公式:實例附表2t界值表可信區間方法解答例3-7根據專業知識確定單、雙側檢驗二、配對資料的比較

兩種情況:1.隨機配對設計(randomizedpaireddesign)是將受試對象按某些混雜因素(如性別、年齡、窩別等)配成對子,每對中的兩個個體隨機分配給兩種處理(如處理組與對照組);2.或者同一受試對象作兩次不同的處理(自身對照)。

優點:配對設計減少了個體差異。

特點:資料成對,每對數據不可拆分。表3-3兩法測定12份尿鉛含量的結果樣品號尿鉛含量(μmol.L-1)簡便法常規法差值(d)12.412.80-0.390.152122.903.04-0.140.019632.751.880.870.756943.233.43-0.200.040053.673.81-0.140.019664.494.000.490.240175.164.440.720.518485.455.410.040.001692.061.240.820.6724101.641.83-0.190.0361111.061.45-0.390.1521120.770.92-0.150.0225合計----1.342.6314表3-3兩法測定12份尿鉛含量的結果三、兩樣本均數的比較

完全隨機設計(completelyrandomdesign):把受試對象完全隨機分為兩組,分別給予不同處理,然後比較獨立的兩組樣本均數。各組對象數不必嚴格相同。

目的:比較兩總體均數是否相同。

條件:假定資料來自正態總體,σ12=σ22計算公式:其中,均數差的標準誤

實例四、大樣本均數比較的u檢驗

兩樣本均數比較時當每組樣本量大於30(或50)時,可採用u檢驗;但只是近似方法。優點:簡單,u界值與自由度無關,

u0.05=1.96,u0.01=2.58五、正態性檢驗與兩方差齊性檢驗1.正態性檢驗(normalitytest):

統計指標:偏度係數、峰度係數;W值、D值等

統計圖:P-P圖、Q-Q圖、直方圖、莖葉圖、箱圖等2.方差齊性檢驗2.方差齊性檢驗Y=log(X+a)Y=Y=Y=

方差齊性檢驗方差不齊Satterthwaitet檢驗第四節假設檢驗的步驟及有關概念總體間差異:1.個體差異,抽樣誤差所致;

2.總體間固有差異判斷差別屬於哪一種情況的統計學檢驗,就是假設檢驗(testofhypothesis)。

t檢驗是最常用的一種假設檢驗之一。小概率思想:P<0.05(或P<0.01)是小概率事件。在一次試驗中基本上不會發生。P≤α(0.05)樣本差別有統計學意義;P>α(0.05)樣本差別無統計學意義1、建立假設與確定檢驗水準(α)

H0:μ1=μ2無效假設(nullhypothesis)

H1:μ1≠μ2備擇假設(alternativehypothesis)檢驗水準(levelofatest):α=0.05(雙側)2、選定方法和計算統計量:根據統計推斷目的、設計、資料組數、樣本含量、等選擇方法。如兩組小樣本比較用t檢驗、大樣本比較u檢驗、方差齊性檢驗用F檢驗。3、確定P值,作出判斷

P≤α(0.05)樣本差別有統計學意義;

P>α(0.05)樣本差別無統計學意義

假設檢驗的步驟

Ⅰ型錯誤和Ⅱ型錯誤

由樣本推斷的結果

真實結果

拒絕H0不拒絕H0

H0成立Ⅰ型錯誤a

推斷正確(1-a

)

H0不成立推斷正確(1-b)Ⅱ型錯誤b

(1-b)即把握度(powerofatest):兩總體確有差別,被檢出有差別的能力(1-a)即可信度(confidencelevel):重複抽樣時,樣本區間包含總體參數(m)的百分數

對於一般的假設檢驗,

a定為0.05(或0.01),b的大小取決於H1。通常情況下,比較總體間有無差異並不知道,即H1不明確,b值的大小無法確定,也就是說,對於一般的假設檢驗,我們並不知道犯Ⅱ型錯誤的概率b有多大。通常情況下Ⅱ型錯誤未知ab減少(增加)I型錯誤,將會增加(減少)II型錯誤增大n

同時降低a與ba與b間的關係多組資料均數的比較第一節方差分析的基本思想及應用條件第二節完全隨機設計資料的方差分析第三節隨機單位組設計資料的方差分析第四節均數間的多重比較第五節析因設計資料的方差分析第六節Bartlett齊性檢驗第七節Excel實現方差分析(實例演示)

將所研究的對象分為多個處理組,施加不同的干預,施加的干預稱為處理因素(factor),處理因素至少有兩個水準(level)。用這類資料的樣本資訊來推斷各處理組間多個總體均數是否存在差別,常採用的統計分析方法為方差分析(analysisofvariance,ANOVA)。由英國統計學家R.A.Fisher首創,為紀念Fisher,以F命名,故方差分析又稱F檢驗

(Ftest)。第一節方差分析的基本思想及應用條件i為組的編號,A,B,C

j為組內為個體編號,1,2,…,10i為組的編號,1,2,3

j為組內為個體編號,1,2,…,10總變異(Totalvariation):全部測量值Xij與總均數間的差別

組間變異(betweengroupvariation)各組的均數與總均數間的差異組內變異(withingroupvariation)每組的10個原始數據與該組均數的差異

試驗數據有三個不同的變異下麵先用離均差平方和(sumofsquaresofdeviationsfrommean,SS)表示變異的大小

1.總變異SS總反映了所有測量值之間總的變異程度,

SS總=各測量值Xij與總均數差值的平方和SS組間反映了各組均數間的變異程度組間變異=①隨機誤差+②處理因素效應

2.組間變異mi

mj

在同一處理組內,雖然每個受試對象接受的處理相同,但測量值仍各不相同,這種變異稱為組內變異。SS組內僅僅反映了隨機誤差的影響。也稱SS誤差3.組內變異m

i三種“變異”之間的關係One-FactorANOVA

PartitionsofTotalVariationVariationDuetoTreatmentSSBVariationDuetoRandomSamplingSSWTotalVariationSSTCommonlyreferredtoas:SumofSquaresWithin,orSumofSquaresError,orWithinGroupsVariationCommonlyreferredtoas:SumofSquaresAmong,orSumofSquaresBetween,orSumofSquaresModel,orAmongGroupsVariation=+均方(meansquare,MS)均方之比=FvalueF分佈F分佈概率密度函數:F分佈曲線F界值表附表4F界值表(方差分析用,單側界值)上行:P=0.05下行:P=0.01分母自由度υ2分子的自由度,υ1123456

1161200216225230234

405249995403562557645859

218.5119.0019.1619.2519.3019.33

98.4999.0099.1799.2599.3099.33

254.243.392.992.762.602.49

7.775.574.684.183.853.63

方差分析的基本思想

首先將總變異分解為組間變異和誤差(組內)變異,然後比較兩者的均方,即計算F值,若F值大於某個臨界值,表示處理組間的效應不同,若F值接近甚至小於某個臨界值,表示處理組間效應相同(差異僅僅由隨機原因所致)。對於不同設計的方差分析,其思想都一樣,即均將處理間平均變異與誤差平均變異比較。不同之處在於變異分解的專案因設計不同而異。方差分析的應用條件各樣本是相互獨立的隨機樣本;各樣本來自正態總體;各處理組總體方差相等,即方差齊性或齊同(homogeneityofvariance)。

上述條件與兩均數比較的t檢驗的應用條件相同。當組數為2時,方差分析與兩均數比較的t檢驗是等價的,對同一資料,有第二節 完全隨機設計的方差分析

完全隨機設計(completelyrandomdesign)

也叫單因素方差分析(one-wayANOVA)。將受試對象隨機地分配到各個處理組的設計。隨機分組方法:

1.編號,確定分組方案(如較少10個亂數為A,中間10個數為B,較大10個亂數為C)

2.產生亂數字(附表15,或電腦),排序

3.按方案分組編號12345678910…2930亂數12.13.918.327.126.728.81.412.826.05.024.429.78.4分組BACCCCABCACCA二、方差分析的步驟

m1=m2

=m3H0:m1=m2=m3=...=mk

m1

=m2

m3H1:notallthemi

areequal

m1

m2

m3(二)計算F值(方差分析表)

計算F值(方差分析表)

(三)下結論

第三節 隨機單位組設計的方差分析

隨機單位組設計(randomizedblockdesign)

:又稱隨機區組設計、配伍組設計,也叫雙因素方差分析(two--wayANOVA)。是配對設計的擴展。具體做法:將受試對象按性質(如性別、年齡、病情等)(這些性質是非處理因素,可能影響試驗結果)相同或相近者組成b個單位組(配伍組),每個單位組中有k個受試對象,分別隨機地分配到k個處理組。這樣,各個處理組不僅樣本含量相同,生物學特點也較均衡。比完全隨機設計更容易察覺處理間的差別。表4-4注射不同劑量雌激素後的大白鼠子宮重量(g)

一、隨機單位組設計

隨機分組方法(每個單位組內隨機):1.將同種類同窩大白鼠為一個單位組,並編號;2.給同窩中3只大白鼠編號;規定亂數小者分到甲組,中等分到乙組,大者分到丙組;3.給每個大白鼠一個亂數;4.按規定分組表4個單位組大白鼠按隨機單位組組設計分組單位組號1234小白鼠123456789101112亂數683526009953936128527005序號321132321231

分配結果丙乙甲甲丙乙丙乙甲乙丙甲二、方差分析的步驟

m1=m2

=m3H0:m1=m2=m3=...=mk

m1

=m2

m3H1:notallthemi

areequal

m1

m2

m3

與完全隨機設計的方差分析基本相同,主要區別在於:F值計算的方差分析表(ANOVAtable)不同。變異來源從組內變異中分解出單位組變異與誤差變異。(二)計算F值(方差分析表)

計算F值(方差分析表)

(三)下結論

t檢驗與F檢驗的關係

當處理組數為2時,對於相同的資料,如果同時採用t檢驗與F檢驗,則有:隨機單位組設計ANOVA的處理組F值與配對設計的t值;完全隨機設計ANOVA的F值與兩樣本均數比較的t值間均有:完全隨機設計ANOVA與隨機單位組設計ANOVA

隨機單位組設計ANOVA將完全隨機設計ANOVA的組內變異分解為單位組間變異與誤差變異,即:第四節均數間的多重比較

當方差分析的結果拒絕H0,接受H1

時,只說明k個總體均數不全相等。若想進一步瞭解哪些兩個總體均數不等,需進行多個樣本均數間的兩兩比較或稱多重比較(multiplecomparison)。也叫posthoc檢驗

若用上一章的兩樣本均數比較的t檢驗進行多重比較,將會加大犯Ⅰ類錯誤(把本無差別的兩個總體均數判為有差別)的概率。例如,有4個樣本均數,兩兩組合數為,若用t檢驗做6次比較,且每次比較的檢驗水準選為,則每次比較不犯Ⅰ類錯誤的概率為(1-0.05),6次均不犯Ⅰ類錯誤的概率為.這時,總的檢驗水準變為為什麼一般t檢驗作多重比較

是錯誤的?

一、SNK-q檢驗(多個均數間全面比較)二、LSD-t檢驗(有專業意義的均數間比較)三、Dunnett檢驗(多個實驗組與對照組比較)還有TUKEY

、DUNCAN、

SCHEFFE、

WALLER

、BON等比較方法“多重比較”的幾種方法

SNK(Student-Newman-Keuls)檢驗,亦稱q檢驗一、SNK-q檢驗

最小顯著差異(Leastsignificantdifference)t檢驗

二、LSD-t檢驗

三、Dunnett檢驗

第六節Bartlett方差齊性檢驗

第一節率的抽樣誤差與可信區間第二節率的統計學推斷一、樣本率與總體率比較的u檢驗二、兩個樣本率比較的u檢驗第三節卡方檢驗一、卡方檢驗的基本思想二、四格表專用公式三、連續性校正公式四、配對四格表資料的χ2檢驗五、行×列(R×C)表資料的χ2檢驗計數資料的統計學推斷第一節率的抽樣誤差與可信區間

一、率的抽樣誤差與標準誤二、總體率的可信區間一、率的抽樣誤差與標準誤

樣本率(p)和總體率(π)的差異稱為率的抽樣誤差(samplingerrorofrate),用率的標準誤(standarderrorofrate)度量。如果總體率π未知,用樣本率p估計標準誤的計算二、總體率的可信區間

總體率的可信區間(confidenceintervalofrate):根據樣本率推算總體率可能所在的範圍

第二節率的統計學推斷

一、樣本率與總體率比較u檢驗二、兩個樣本率的比較u檢驗一、樣本率與總體率比較的u檢驗u檢驗的條件:np

和n(1-p)均大於5時二、兩個獨立樣本率比較的u檢驗表5-1兩種療法的心血管病病死率比較療法死亡生存

合計病死率(%)鹽酸苯乙雙胍26(X1)178204(n1)12.75(p1)安慰劑2(X2)6264(n2)3.13(p2)合計2824026810.45(pc)u檢驗的條件:n1p1

和n1(1-p1)與n2p2

和n2(1-p2)均>5小結1.樣本率也有抽樣誤差,率的抽樣誤差的大小用σp或Sp來衡量。

2.率的分佈服從二項分佈。當n足夠大,π和1-π均不太小,有nπ≥5和n(1-π)≥5時,近似正態分佈。

3.總體率的可信區間是用樣本率估計總體率的可能範圍。當p分佈近似正態分佈時,可用正態近似法估計率的可信區間。

4.根據正態近似原理,可進行樣本率與總體率以及兩樣本率比較的u檢驗。率的u檢驗能解決以下問題嗎?

率的反應為生與死、陽性與陰性、發生與不發生等二分類變數,如果二分類變數為非正反關係(如治療A、治療B);反應為多分類,如何進行假設檢驗?率的u檢驗要求:n足夠大,且nπ≥5和n(1-π)≥5。如果條件不滿足,如何進行假設檢驗?

第三節卡方檢驗

χ2檢驗(Chi-squaretest)是現代統計學的創始人之一,英國人K.Pearson(1857-1936)於1900年提出的一種具有廣泛用途的統計方法,可用於兩個或多個率間的比較,計數資料的關聯度分析,擬合優度檢驗等等。本章僅限於介紹兩個和多個率或構成比比較的χ2檢驗。一、卡方檢驗的基本思想(1)療法死亡生存

合計病死率(%)鹽酸苯乙雙胍26(a)178(b)204(a+b)12.75(p1)安慰劑2(c)62(d)64(c+d)3.13(p2)合計28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)表5-1兩種療法的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论