医学统计学课件_第1页
医学统计学课件_第2页
医学统计学课件_第3页
医学统计学课件_第4页
医学统计学课件_第5页
已阅读5页,还剩794页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

緒论

Introduction一、醫學統計學的意義

1.統計學(statistics):應用數學的原理與方法,研究數據的搜集、整理與分析的科學,對不確定性數據作出科學的推斷。2.醫學統計學(statisticsofmedicine):統計學的原理與方法應用於醫學科研與實踐。一、醫學統計學的意義

3.統計學方法的特點:(1)用數量反映品質1)體格檢查(量血壓、脈搏…)→個體健康品質2)考試分數→個體學習品質

3)期望壽命——反映人群健康狀況的指標4)嬰兒死亡率——反映衛生服務品質的指標………….一、醫學統計學的意義

(2)用群體歸納個體請同學們回答:2002年長沙市7歲男孩有多高?1)7歲男孩身高有高有矮2)n=100,平均身高=119.5cm95%的長沙市7歲男孩的身高在110.20cm~129.20cm之間二、統計學中的幾個基本概念1、研究單位(觀察單位、unit)和變數(variable)、變數值(valueofvariable)

(1)、研究單位(unit):研究中的個體(individual),是根據研究目的確定的。

二、統計學中的幾個基本概念例如:研究7歲男孩身高的正常值範圍一個人研究大學生視力一只眼睛研究水污染情況一毫升水研究細胞變性一個細胞研究肝癌的地區分佈一個地區二、統計學中的幾個基本概念(2)變數(variable):研究單位的研究特徵。例如:研究7歲男孩身高的正常值範圍變數:身高(3)變數值(valueofvariable)二、統計學中的幾個基本概念變數值(valueofvariable):變數的觀察結果。例如:研究7歲男孩身高變數值:測得的身高值(120.2cm,118.6cm,121.8cm,…)研究某人群性別構成變數值:男、女。二、統計學中的幾個基本概念2、同質(homogeneity)和變異(variation)(1)、同質(homogeneity):根據研究目的給研究單位確定的相同性質。研究長沙市2004年7歲男孩身高的正常值範圍?同質:同長沙市、同7歲、同男孩、同無影響身高的疾病。二、統計學中的幾個基本概念(2)、變異(variation)變異(variation):同質研究單位中變數值間的差異。例如:1)長沙市2004年7歲男孩身高有高有矮2)相同的藥方治療相同的疾病的病人,療效有好有壞二、統計學中的幾個基本概念3、總體(population)和樣本(sample)(1)、總體(population):是根據研究目的確定的同質研究單位的全體。更確切地說是同質研究單位某種變數值的集合。例如:調查某地2002年正常成年男子的紅細胞數的正常值範圍二、統計學中的幾個基本概念研究單位:一個人變數:紅細胞數同質:同某地、同2002年、同成年男子、同正常。總體:1)某地所有的正常成年男子2)某地所有的正常成年男子的紅細胞數二、統計學中的幾個基本概念1)有限總體(finitepopulation):研究單位數是有限的例如:調查某地2002年正常成年男子的紅細胞數的正常值範圍2)無限總體(infinitepopulation):研究單位數是無限的例如:高血壓患者←無時間、空間限制。二、統計學中的幾個基本概念(2)樣本(sample):是總體中抽取的有代表性的一部分。注意:隨機抽樣(無主觀性)樣本含量(sample

size):樣本中包含的研究單位數。例如:某藥治療高血壓患者30名樣本含量(n)為30二、統計學中的幾個基本概念4、參數(parameter)和統計量(statistic)(1)參數(parameter):根據總體個體值統計計算出來的描述總體的特徵量。一般用希臘字母表示(2)、統計量(statistic):根據樣本個體值統計計算出來的描述樣本的特徵量。一般用拉丁字母表示二、統計學中的幾個基本概念總體參數一般是不知道的統計學抽樣研究的目的就是:樣本統計量→總體參數二、統計學中的幾個基本概念5、系統誤差(systematicerror)、非系統誤差(nonsystematicerror)、抽樣誤差(samplingerror)誤差(error)是指實際觀察值與觀察真值之差、樣本指標與總體指標之差。二、統計學中的幾個基本概念(1)、系統誤差(systematicerror):由於儀器未校正、測量者感官的某種障礙、醫生掌握療效標準偏高或偏低等原因,使觀察值不是分散在真值兩側,而是有方向性、系統性或週期性地偏離真值。例如:測量血糖,有斑氏法和葡萄糖氧化法,斑氏法的測量結果偏高←易受體內還原性物質的影響。二、統計學中的幾個基本概念這類誤差可以通過實驗設計和技術措施來消除或使之減少。

觀察性研究由於組間不可比性產生的系統誤差稱為偏倚(bias),如吸煙組的平均年齡大於吸煙組,兩組死亡率的差異包含年齡偏倚。二、統計學中的幾個基本概念(2)、非系統誤差(nonsystematicerror)由於研究者偶然失誤而造成的誤差。例如:儀器失靈、抄錯數據、點錯小數點、寫錯單位等,亦稱過失誤差(grosserror)這類誤差應當通過認真檢查核對予以清除,否則將會影響研究結果的準確性。二、統計學中的幾個基本概念(3)、抽樣誤差(samplingerror):由於抽樣所造成的樣本統計量與總體參數的差別。例如:=120.0cmn=100N=5萬→=118.6cm特點:1)不可避免性2)有統計規律性二、統計學中的幾個基本概念產生原因:個體差異(生物變異)二、統計學中的幾個基本概念6、頻率(relativefrequency)、概率(probability)、小概率事件.(1)、頻率(relativefreguency):

一次隨機試驗有幾種可能結果,在重複進行試驗時,個別結果看來是偶然發生的,但當重複試驗次數相當多時,將顯現某種規律性。例如,投擲一枚硬幣,結果不外乎出現“正面”與“反面”兩種,現在,我們看一擲幣模擬試驗:二、統計學中的幾個基本概念實驗者投擲次數出現“正面”次數頻率HuPingcheng111.0000HuPingcheng200.0000HuPingcheng320.6667HuPingcheng430.7500HuPingcheng530.6000HuPingcheng620.4000HuPingcheng740.5714Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005二、統計學中的幾個基本概念可見,在相同條件下重複試驗,試驗結果為“正面”或“反面”雖不能事先斷定,但我們知道試驗的所有可能結果只有兩種。

在重複多次後,出現“正面”或“反面”這個結果的比例稱之為頻率。二、統計學中的幾個基本概念.(2)、概率(probability)概率是度量隨機事件發生可能性大小的一個數值。

設在相同條件下,獨立地重複n次試驗,隨機事件A出現

次,則稱為隨機事件A出現的頻率。當n逐漸增大時,頻率

趨向於一個常數,則稱該常數為隨機事件A的概率,可記為P(A),簡記為。0≤P(A)≤1二、統計學中的幾個基本概念0<P(A)<1隨機事件

P(A)=1必然事件

P(A)=0不可能事件。二、統計學中的幾個基本概念頻率是就樣本而言的,而概率從總體的意義上說的,m/n是概率p(A)的估計值。試驗次數越多,估計越可靠。二、統計學中的幾個基本概念(3)小概率事件:統計分析中的很多結論都基於一定置信程度下的概率推斷,習慣上將稱為小概率事件,我們認為小概率事件在一次試驗中不可能發生。二、統計學中的幾個基本概念湖南風采:中獎概率大約為:1/671萬交通事故:發生概率為:1/20萬三、統計資料的類型變數與統計資料的分類方法1.概述2.數值變數(numericalvariable)和計量資料(measurementdata)3.無序分類變數(unorderedcategoriesvariable)和計數資料(enumerationdata)4.有序分類變數(ordinalcategoriesvariable)和等級資料(rankeddata)三、統計資料的類型1.概述

數值變數………………..構成計量資料分類變數無序分類變數……………...構成計數資料

有序分類變數……………...構成等級資料三、統計資料的類型2.數值變數與計量資料1).數值變數(numericalvariable):變數值是定量的,表現為數值大小,一般有度量衡單位。如:身高(cm)、體重(kg)、血壓(pa)、

坐高/身高。2).計量資料(measurementdata):由一群個體的數值變數值構成的資料,即一群變數值。如:長沙市99年7歲男孩身高值(120.2cm,118.6cm,121.8cm…)三、統計資料的類型3.無序分類變數與計數資料1).無序分類變數(unorderedcategoriesvariable):變數值是定性的,有類別。特點:類別是客觀存在的,各類無秩序,可任意排列;類與類之間界限清楚,(理論上)不會錯判。如:性別:男、女。血型:O、A、B、AB。2).計數資料(enumerationdata):一群個體按無序分類變數的類別清點每類有多少個個體,即分類個體數。如:衛生統計學教研室教師性別構成:男:6,女:7。某人群血型構成:O:20A:35B:30AB:10三、統計資料的類型4.有序分類變數與等級資料1).有序分類變數(ordinalcategoriesvariable):變數值是定性的、分等級。特點:等級是主觀劃分的,各級沒有大小但有秩序,必須從低到高或由高到低;級和級之間界限模糊,可能錯判。如:療效:無效、好轉、顯效、治癒。血清反應:–、+、+、++ 2).等級資料(rankeddata):一群個體按有序分類變數的級別清點每級有多少個個體,即分級個體數。如:某地某人群EB病毒抗體反應:–:65

+:2+:3++:1四、醫學統計工作的基本步驟1、設計(design)專業設計

統計設計調查設計醫學科研設計實驗設計臨床實驗設計

醫學科研設計的程式

科研選題:選題又叫立題,確定所要研究的問題。選題是科研的起點,也是關係到成敗的關鍵。(1)題意產生:(綜述)背景材料來源:個人經驗的積累;向有關專家請教;

文獻檢索等.專業設計文獻檢索的要點

(1)有助於認識本課題的重要性(2)瞭解有關的既往研究工作情況(3)瞭解有關研究現狀(4)尋找可借鑒的研究方法(5)注意有關的不同見解與爭論。如:與****商榷類文章專業設計文獻檢索的幾種查法(1)先查國內文獻,再查國外文獻(2)先查綜述性文章,後原始文章。(3)先近期後遠期(4)先核心期刊後一般期刊。專業設計

綜述性文章:是收集大量文獻資料經過分析綜合,結合自己的工作和體會整理成的文章。它是對某一課題或新進展作出的總結,並指明發展方向,有較大的參考價值,是專題性文獻資料最集中的表現形式。

專業設計科研選題的原則(1)創新性:包括探索和創新兩個連續的過程,創新就是選擇前人沒有解決或沒有完全解決的問題。是本學科的空白點,或者將會在理論上或應用上有新的發展和補充。(2)科學性:以科學理論為指導,符合客觀規律。(3)先進性:先進性是相對的,有國際先進和國內先進。更重要的是結合實際條件選擇適合的先進技術。(4)可行性:研究課題的主要技術指標實現的可能性。它包括人、財、物的支持和工作基礎。專業設計選題方法(1)從招標範圍中選題。(2)從碰到的問題中選題(3)從文獻的空白點選題(4)從已有的課題延伸中選題(5)從改變研究內容組合中選題(6)從其他學科移植中選題。專業設計四、醫學統計工作的基本步驟統計設計的內容要包括資料的收集、整理和分析全過和的設想和安排。例如:研究目的和假說?研究對象和研究單位?研究因素(變數)?收集哪些原始資料?用什麼方式和方法取得這些原始資料?怎樣整理匯總和計算統計指標?如何控制誤差?預期會得到什麼結果?需要多少經費?統統計設計四、醫學統計工作的基本步驟在研究者對統計設計的構思過程中,有以下幾個問題最為關鍵:

如何進行抽樣?如何安排設計所規定的干預措施或稱處理(treatment)。要達到研究目的應抽取多少個觀察單位?如何在諸多的影響因素中,分離出研究同素對結果的效應?統計設計四、醫學統計工作的基本步驟(1)、對照的原則

對照(control)原則,即在均衡條件下實現實驗組與對照組間科學對比的原則,它回答如何從諸多影響因素中,分離出研究因素對實驗結果的效應問題。所謂均衡性,即可比性,是指在對比組中,除研究因素不同外,或施加的處理不同外,其他影響實驗結果的非研究因素,包括實驗過程中的實驗條件和輔助措施,都應相同。統計設計無對照的研究誇大了門腔分流手術的作用表1-2

關於門腔分流手術的51次研究結果對照方式 門腔分流手術的價值小計

非常支持 支持 不支持

無對照 24 7 1 32非隨機對照10 3 2 15

隨機對照0 1 3 4

合計 34 11 6 51統計設計統計學家Student

1930年2月至6月主持的牛奶營養試驗的現場觀察研究:對照組(1萬兒童)飲奶組(1萬兒童)對照組飲奶組年齡(歲)體重(磅)結論:對照組體重>飲奶組統計設計四、醫學統計工作的基本步驟(2)、重複(repetition)的原則

重複(repetition

)原則,即確定樣本含量的原則,它回答至少應抽取多少個觀察單位的問題。

統計設計四、醫學統計工作的基本步驟(3)、隨機化(randomization)的原則1)、

隨機抽樣(randomizedsampling):指總體中的每一個觀察單位都有同等機會進入樣本;2)、隨機分配(randomizedallocation):指本次研究所選定的實驗受試對象都有同等機會進入根據研究目的而設定的處理組和對照組。統計設計四、醫學統計工作的基本步驟2、收集資料(collectionofdata)(1)資料來源第一手資料1)

經常性:統計報表(傳染病報表、職業病報表、醫院工作報表、死亡登記、疫情報告等),工作記錄(衛生監督記錄、健康檢查記錄、病歷等);2)一時性:專題調查、實驗或臨床試驗。第二手資料:已公佈的資料,如數據銀行、全國、全省衛生統計資料。

四、醫學統計工作的基本步驟(2)、資料要求

1).完整:觀察單位及觀察專案完整。

2)准确:即真实、可靠。真实是统计学的灵魂。

3).及时:即时限性。如人口普查规定调查开始日期和截止日期。四、醫學統計工作的基本步驟3、整理(sortingdata)資料

整理资料即原始数据的条理化、系统化的过程。DataCollectionDataAnalysisDataScreening

Timeconsuming,eventediousFundamentaltoanhonestanalysisofthedataTheissuesshouldbeconcernedindatascreeningTheaccuracyofthedataMissingdataOutliersThefitbetweenyourdataandtheassumptionsPerfectornear-perfectcorrelationsamongvariables四、醫學統計工作的基本步驟4、分析(analysisofdata)資料任務:計算有關指標,反映數據的綜合特徵、闡明事物的內在聯繫和規律。工具:1)foxbase資料庫2)spssforwindows11.03)SAS四、醫學統計工作的基本步驟統計描述統計分析統計推斷參數估計

假設檢驗五、學習醫學統計學應注意的問題1、醫學統計學研究的是群體的數量特徵↑適當的統計指標2、學會統計學的思維方法抽樣研究→抽樣誤差→結論具有概率性

↑醫學專業知識解釋

五、學習醫學統計學應注意的問題3、正確選用統計學方法(1)資料類型不同→統計學方法不同(2)設計類型不同→統計學方法不同(3)研究目的不同→統計學方法不同………..ContentFrequencydistributionDescriptionofcentraltendencyMeasuresofdispersionNormaldistributionRangeofreferencevalue第一節頻數分佈

一、頻數分佈表(frequencytable):例2-1從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇()的測量結果如下,試編制頻數分佈表。

編制步驟如下:1.求極差

:

極差(range)也稱全距,即最大值和最小值之差,記作R。本例:。

2.確定組距(i):組段數通常取組

10-15組本例組距

3.寫組段:組下限(L):每個組段的起點組上限(U):每個組段的終點

2.30~

2.60~

2.90~

3.20~

…5.60~5.902.30~2.60~

4.分組段劃記並統計頻數

2.30~2.60~

頻數表:由各組段及其頻數所構成的統計表。二、頻數分佈圖三、頻數表和頻數分佈圖用途

1.描述頻數分佈的類型

(1)對稱分佈:若各組段的頻數以頻數最多組段為中心左右兩側大體對稱,就認為該資料是對稱分佈

(2)偏態分佈:1)右偏態分佈(skewedtotherightdistribution)也稱正偏態分佈(positiveskewnessdistribution):右側的組段數多於左側的組段數,頻數向右側拖尾

2)左偏態分佈(skewedtotheleftdistribution)也稱負偏態分佈(negativeskewnessdistribution):左側的組段數多於右側的組段數,頻數向左側拖尾

2.描述頻數分佈的特徵

①變異的範圍在2.30~5.90②有明顯的統計分佈規律,數據主要集中在3.50~4.70之間,尤以組段的人數3.80~4.10最多,且上下組段數的頻數分佈基本對稱。

3.便於發現一些特大或特小的可疑值

4.便於進一步做統計分析和處理第二節

集中趨勢的描述

統計上使用平均數(average)這一指標體系來描述一組變數值的集中位置或平均水準。常用的平均數有:

算術均數幾何均數中位數

一、算術均數算術均數:簡稱均數(mean)

可用於反映一組呈對稱分佈的變數值在數量上的平均水準或者說是集中位置的特徵值。1、計算方法(1)直接計算法

公式:例2-2用直接法計算例2-1某單位101名正常成年女子的血清總膽固醇的均數。

(2)加權法:公式:計算4,4,4,6,6,8,8,8,10的均數?

例2-3利用表2-1計算101名正常成年女子的血總膽固醇的均數。

式中k表示頻數表的組段數,及分別表示各組段的頻數和組中值,如表2-1第1個組段的組中值為,餘類推(見表2-1的第(3)欄)。在這裏,頻數起到了“權”(weight)的作用,即某個組段頻數多,權數就大,其組中值對均數的影響也大;反之,影響則小

2、應用

適用於對稱分佈,特別是正態分佈資料。二、

幾何均數

幾何均數(geometricmean):可用於反映一組經對數轉換後呈對稱分佈的變數值在數量上的平均水準。1、計算方法(1)、直接計算法

公式:或例2-4某地5例微絲蚴血症患者治療七年後用間接螢光抗體試驗測得其抗體滴度倒數分別為,10,20,40,40,160,求幾何均數。(2)加權法公式:例2-569例類風濕關節炎(RA)患者血清EBV-VCA-lgG抗體滴度的分佈見表2-4第(1)、(2)欄,求其平均抗體滴度。

故例類風濕關節炎患者血清EBV-VCA-lgG抗體的平均滴度為:1:150.6。

2、應用:

適用於成等比級數的資料,特別是對數正態分佈資料。三、

中位數與百分位數(一)中位數中位數(median):是將變數值從小到大排列,位置居於中間的那個變數值。例:1,3,7,5,>100

中位數為多少?計算公式:n為奇數時

n為偶數時

例2-67名病人患某病的潛伏期分別為2,3,4,5,6,9,16天,求其中位數。本例n=7,為奇數

例2-78名患者食物中毒的潛伏期分別為1,2,2,3,5,8,15,24小時,求其中位數。本例n=8,為偶數

應用

適用於:1、各種分佈類型的資料

2、特別是偏態分佈資料和開囗資料(一端或兩端無確切數值的資料)。

(二)百分位數

百分位數(percentile)是一種位置指標,用來表示。一個百分位數將全部變數值分為兩部分,在不包含的全部變數值中有的變數值比它小,變數值比它大。

1.直接計算法

設有x個原始數據從小到大排列,第x百分位數的計算公式為:當為帶有小數位時:

當為整數時:例2-9對某醫院細菌性痢疾治癒者的住院天數統計,名患者的住院天數從小到大的排列如下,試求第5百分位數和第99百分位數。

者:

住院天數:

n=120,120X5%=6,為整數:

例2-9對某醫院細菌性痢疾治癒者的住院天數統計,名患者的住院天數從小到大的排列如下,試求第5百分位數和第99百分位數。

者:住院天數:,帶有小數,取整後trunc(118.8)=1182.頻數表法

公式:式中XL、Xi和Xf分別為第X百分位數所在組段的下限、組距和頻數,LfS為小於XL各組段的累計頻數,n

為總例數。

例2-10某地118名鏈球菌咽喉炎患者的潛伏期頻數表見表2-5第(1)、(2)欄,試分別求中位數及第25、第75百分位數。

第三節

離散趨勢的描述

例2-11三組同齡男孩的身高值(cm)

常用統計指標:

極差、四分位數間距、方差、標準差和變異係數。

一、

極差極差,用R表示:即一組變數值最大值與最小值之差。

二、四分位數間距

四分位數間距,用QR表示:QR=下四分位數:上四分位數:

例2-12續例2-10。已知P25=39.2,P75=67.7,計算118名鏈球菌咽喉炎患者潛伏期的四分位數間距。

(天)請回答:四分位數間距可以看成大小在中間的一半變數值的全距(R)。

四分位數間距可以看成一半變數值的極差。三、方差與標準差

1、方差(variance)也稱均方差(meansquaredeviation),反映一組數據的平均離散水準。

樣本方差用表示

2、公式:樣本標準差用表示公式:

標準差的公式還可以寫成:利用頻數表計算標準差的公式為例2-12續例2-10,計算三組資料的標準差。

甲組:

四、

變異係數

變異係數(coefficientofvariation)記為CV,多用於觀察指標單位不同時,如身高與體重的變異程度的比較;或均數相差較大時,如兒童身高與成人身高變異程度的比較。

某地7歲男孩身高的均數為123.10cm,標準差為4.71;體重均數為22.59kg,標準差為2.26kg,

比較其變異度?

(觀察指標單位不同)均數相差較大時:第四節

正態分佈

正態分佈:又稱為Gauss分佈(Gaussiandistribution)。

設想當原始數據的頻數分佈圖的觀察人數逐漸增加且組段不斷分細時,圖2-4中的直條就不斷變窄,其頂端則逐漸接近於一條光滑的曲線。這條曲線形態呈鐘形,兩頭低、中間高,左右對稱,近似於數學上的正態分佈。在處理資料時,我們就把它看成是正態分佈。一、正態分佈的概念和特徵

1.正態分佈曲線的數學函數運算式

如果隨機變數的分佈服從概率密度函數2.正態分佈的特徵

(4)正態曲線下的面積分佈有一定的規律。對公式(2-17)積分

:正態分佈是一個分佈族,對應於不同的參數m和s會產生不同位置、不同形狀的正態分佈。

正態分佈除了可估計頻數分佈外,還是許多統計方法的基礎,並可應用於品質控制及制定醫學參考值範圍。第五節

醫學參考值範圍的制定

一、基本概念

醫學參考值(referencevalue)是指包括絕大多數正常人的人體形態、機能和代謝產物等各種生理及生化指標常數,也稱正常值。由於存在個體差異,生物醫學數據並非常數而是在一定範圍內波動,故採用醫學參考值範圍(medicalreferencerange)作為判定正常和異常的參考標準。

醫學參考值範圍涉及到採用單側界值還是雙側界值的問題,這通常依據醫學專業知識而定。

雙側

:血清總膽固醇無論過低或過高均屬異常白細胞數無論過低或過高均屬異常單側:1、血清轉氨酶僅過高異常2、肺活量僅過低異常

醫學參考值範圍有、、等,最常用的為。計算醫學參考值範圍的常用方法:1、正態分佈法

2、百分位數法二、方法1、正態分佈法:許多生物醫學數據服從或近似服從正態分佈,如同年齡同性別兒童的身高值、體重值,同性別健康成人的紅細胞數等;有些醫學資料雖然呈偏態分佈,但若能通過適當的變數變換轉換為正態分佈,也可採用正態分佈法制定參考值範圍。

適用:正態分佈資料

公式:2、百分位數法適用:各種分佈資料特別是偏態分佈資料

公式:

例2-17測得某年某地名正常人的尿汞值如下表,試製定正常人尿汞值的參考值範圍。

142Content1.Samplingerrorandstandarderrorofmean2.t-distribution3.EstimationofPopulationMean4.t-test5.Noticeofhypothesistest

6.Normalitytestandhomogeneityofvariancetest143第一節均數的抽樣誤差與標準誤144統計推斷:由樣本資訊推斷總體特徵。樣本統計指標(統計量)總體統計指標(參數)正態(分佈)總體:推斷!說明!為說明抽樣誤差規律,先用一個實例,後引出理論。145圖3-11999年某市18歲男生身高N(167.7,5.32)的抽樣示意圖

146見P34~36表3-1147

將此100個樣本均數看成新變數值,則這100個樣本均數構成一新分佈,繪製直方圖。圖3-2從正態分佈總體N(167.7,5.32)隨機抽樣所得樣本均數分佈148①

,各樣本均數未必等於總體均數;②各樣本均數間存在差異;③樣本均數的分佈為中間多,兩邊少,左右基本對稱。

④樣本均數的變異範圍較之原變數的變異範圍大大縮小。可算得這100個樣本均數的均數為167.69cm、標準差為1.69cm。

樣本均數的抽樣分佈具有如下特點:1491、抽樣誤差:

由個體變異產生的、抽樣造成的樣本統計量與總體參數的差別

均數的抽樣誤差:由於抽樣造成的樣本均數與總體均數的差別原因:1)抽樣

2)個體差異150本書以n=60為界限151表示樣本統計量抽樣誤差大小的統計指標。均數標準誤:說明均數抽樣誤差的大小,總體計算公式(3-1)2、標準誤(standarderror,SE)實質:樣本均數的標準差152數理統計證明:

153若用樣本標準差S來估計,

(3-2)降低抽樣誤差的途徑有:①通過增加樣本含量n;②通過設計減少S。154第二節t分佈(t-distribution)155t分佈概述

抽樣誤差的分佈規律

↓樣本→總體

t分佈理論

↑手段(橋樑)目的156

一、t分佈的概念

157158

式中為自由度(degreeoffreedom,df)

3.實際工作中,由於未知,用代替,則不再服從標準正態分佈,而服從t分佈。

159二、t分佈的圖形與特徵

分佈只有一個參數,即自由度160

圖3-3不同自由度下的t分佈圖1611.特徵:

1622t界值表:詳見附表2,可反映t分佈曲線下的面積。單側概率或單尾概率:用表示;雙側概率或雙尾概率:用表示。

163-tt0164舉例:

165第三節總體均數的估計166一、參數估計用樣本統計量推斷總體參數。總體均數估計:用樣本均數(和標準差)推斷總體均數。167168

按預先給定的概率(1

)所確定的包含未知總體參數的一個範圍。總體均數的區間估計:按預先給定的概率(1

)所確定的包含未知總體均數的一個範圍。

如給定

=0.05,該範圍稱為參數的95%可信區間或置信區間;如給定

=0.01,該範圍稱為參數的99%可信區間或置信區間。2.區間估計(intervalestimation):169二、總體均數可信區間的計算170

總體均數可信區間的計算需考慮:(1)總體標準差

是否已知,(2)樣本含量n的大小通常有兩類方法:(1)t分佈法

(2)u分佈法171

1.單一總體均數的可信區間

172173P25,15號樣本174175176

例3-3某地抽取正常成年人200名,測得其血清膽固醇的均數為3.64mmol/L,標準差為1.20mmol/L,估計該地正常成年人血清膽固醇均數的95%可信區間。

177

故該地正常成年人血清膽固醇均數的雙側95%可信區間為(3.47,3.81)mmol

L。178

179180181

例3-4為了解氨甲喋呤(MTX)對外周血IL-2水準的影響,某醫生將61名哮喘患者隨機分為兩組。其中對照組29例(),採用安慰劑;實驗組32例(),採用小劑量氨甲喋呤(MTX)進行治療。測得對照組治療前IL-2的均數為20.10IU/ml(),標準差為7.02IU/ml();試驗組治療前IL-2的均數為16.89IU/ml(),標準差為8.46IU/ml()。問兩組治療前基線的IL-2總體均數相差有多大?

182第一步:

183能否下:兩組IL-2的總體均數“不同”或“有差別”的結論?184三、可信區間的確切涵義185

1.95%的可信區間的理解:(1)所要估計的總體參數有95%的可能在我們所估計的可信區間內。(2)從正態總體中隨機抽取100個樣本,可算得100個樣本均數和標準差,也可算得100個均數的可信區間,平均約有95個可信區間包含了總體均數。(3)但在實際工作中,只能根據一次試驗結果估計可信區間,我們就認為該區間包含了總體均數

。186

2.可信區間的兩個要素(1)準確度:用可信度(1

)表示:即區間包含總體均數

的理論概率大小。當然它愈接近1愈好,如99%的可信區間比95%的可信區間要好。(2)精確度:即區間的寬度區間愈窄愈好,如95%的可信區間比99%的可信區間要好。187

當n確定時,上述兩者互相矛盾。提高準確度(可信度),則精確度降低(可信區間會變寬),勢必降低可信區間的實際應用價值,故不能籠統認為99%可信區間比95%可信區間要好。相反,在實際應用中,95%可信區間更為常用。188

在可信度確定的情況下,增加樣本含量可減小區間寬度,提高精確度。189四、總體均數可信區間與參考值範圍的區別190*也可用對應於雙尾概率時),**也可用對應於雙尾概率時)表3-2總體均數的可信區間與參考值範圍的區別191第四節

t檢驗1921、樣本均數與已知某總體均數比較的t檢驗

目的:推斷一個未知總體均數與已知總體均數是否有差別,用單樣本設計。2、兩個樣本均數與比較的t檢驗

目的:推斷兩個未知總體均數與是否有差別,用成組設計。3、配對設計資料均數比較的t檢驗

目的:推斷兩個未知總體均數與是否有差別用配對設計。t檢驗,亦稱studentt檢驗,有下述情況:193對於大樣本,也可以近似用u檢驗。194t檢驗和u檢驗的應用條件:1.t檢驗應用條件:樣本含量n較小時(如n<60)(1)正態分佈(2)方差齊性(homogeneityofvariance)2.u

檢驗應用條件:樣本含量n較大,或n雖小但總體標準差已知

(1)正態分佈

(2)方差齊性(homogeneityofvariance)195

假設檢驗過去稱顯著性檢驗。它是利用小概率反證法思想,從問題的對立面(H0)出發間接判斷要解決的問題(H1)是否成立。然後在H0成立的條件下計算檢驗統計量,最後獲得P值來判斷。

假設檢驗基本思想及步驟196例3-5某醫生測量了36名從事鉛作業男性工人的血紅蛋白含量,算得其均數為130.83g/L,標準差為25.74g/L。問從事鉛作業工人的血紅蛋白是否不同於正常成年男性平均值140g/L?130.83g/L≠140g/L原因:1.可能是總體均數不同

2.是抽樣造成的197198③

H1的內容直接反映了檢驗單雙側。若H1中只是

0或

<

0,則此檢驗為單側檢驗。它不僅考慮有無差異,而且還考慮差異的方向。④

單雙側檢驗的確定,首先根據專業知識,其次根據所要解決的問題來確定。若從專業上看一種方法結果不可能低於或高於另一種方法結果,此時應該用單側檢驗。一般認為雙側檢驗較保守和穩妥。199

(3)檢驗水準

,過去稱顯著性水準,是預先規定的概率值,它確定了小概率事件的標準。在實際工作中常取

=0.05。可根據不同研究目的給予不同設置。200

根據變數和資料類型、設計方案、統計推斷的目的、是否滿足特定條件等(如數據的分佈類型)選擇相應的檢驗統計量。

2.計算檢驗統計量201

P的含義是指從H0規定的總體隨機抽樣,抽得等於及大於(或/和等於及小於)現有樣本獲得的檢驗統計量(如t、u等)值的概率。例3-5的P值可用圖3-5說明,P為在

=

0=140g/L的前提條件下隨機抽樣,其t小於及等於-2.138和大於及等於2.138的概率。

3.確定P值202圖3-5例3-5中P值示意圖203204

若,是否也能下“無差別”或“相等”的結論?

205一、單樣本t

檢驗

(onesample/groupt-test)

即樣本均數(代表未知總體均數

)與已知總體均數

0(一般為理論值、標準值或經過大量觀察所得穩定值等)的比較。其檢驗統計量按下式計算206

例3-5某醫生測量了36名從事鉛作業男性工人的血紅蛋白含量,算得其均數為130.83g/L,標準差為25.74g/L。問從事鉛作業工人的血紅蛋白是否不同於正常成年男性平均值140g/L?

(1)建立檢驗假設,確定檢驗水準H0:

=

0=140g/L,即鉛作業男性工人平均血紅蛋白含量與正常成年男性平均值相等H1:

0=140g/L,即鉛作業男性工人平均血紅蛋白含量與正常成年男性平均值不等

=0.05207(2)計算檢驗統計量

208(3)確定P值,作出推斷結論

209配對t檢驗適用於配對設計的計量資料。配對設計類型:①兩同質受試對象分別接受兩種不同的處理;②同一受試對象分別接受兩種不同處理;③同一受試對象(一種)處理前後。

二、配對t檢驗(paired/matchedt-test)210

例3-6為比較兩種方法對乳酸飲料中脂肪含量測定結果是否不同,某人隨機抽取了10份乳酸飲料製品,分別用脂肪酸水解法和哥特裏-羅紫法測定其結果如表3-3第(1)~(3)欄。問兩法測定結果是否不同?211表3-3兩種方法對乳酸飲料中脂肪含量的測定結果(%)

212

(1)建立檢驗假設,確定檢驗水準H0:

d=0,即兩種方法的測定結果相同H1:

d≠0,即兩種方法的測定結果不同

=0.05

(2)計算檢驗統計量本例n=10,d=2.724,d2=0.8483,

213按公式(3-16)

(3)確定P值,作出推斷結論查附表2的t界值表得P<0.001。按

=0.05水準,拒絕H0,接受H1,有統計學意義。可認為兩種方法對脂肪含量的測定結果不同,哥特裏-羅紫法測定結果較高。214

三、兩樣本t檢驗

(two-sample/groupt-test)

又稱成組t檢驗,適用於完全隨機設計兩樣本均數的比較,此時人們關心的是兩樣本均數所代表的兩總體均數是否不等。兩組完全隨機設計是將受試對象完全隨機分配到兩個不同處理組。215

適用範圍:完全隨機設計兩樣本均數的比較檢驗方法:依兩總體方差是否齊性而定。216217

例3-7

為研究國產四類新藥阿卡波糖膠囊的降血糖效果,某醫院用40名II型糖尿病病人進行同期隨機對照試驗。試驗者將這些病人隨機等分到試驗組(用阿卡波糖膠囊)和對照組(用拜唐蘋膠囊),分別測得試驗開始前和8周後的空腹血糖,算得空腹血糖下降值見表3-4,能否認為該國產四類新藥阿卡波糖膠囊與拜唐蘋膠囊對空腹血糖的降糖效果不同?218219

(2)計算檢驗統計量

220(3)確定P值,作出推斷結論

221

若變數變換後總體方差齊性

可採用t檢驗(如兩樣本幾何均數的t檢驗,就是將原始數據取對數後進行t檢驗);

若變數變換後總體方差仍然不齊

可採用t

檢驗或Wilcoxon秩和檢驗。若兩總體方差不等(),?222

2.Cochran&Cox近似t檢驗(t‘

檢驗)

——調整t界值223224

例3-8

在上述例3-7國產四類新藥阿卡波糖膠囊的降血糖效果研究中,測得用拜唐蘋膠囊的對照組20例病人和用阿卡波糖膠囊的試驗組20例病人,其8周時糖化血紅蛋白HbA1c(%)下降值如表3-5。問用兩種不同藥物的病人其HbA1c下降值是否不同?225表3-5對照組和試驗組HbA1c下降值(%)

對照組方差是試驗組方差的3.77倍,經方差齊性檢驗,認為兩組的總體方差不等,故採用近似t檢驗。226

(1)建立檢驗假設,確定檢驗水準(略)(2)計算檢驗統計量

227(3)確定P值,作出推斷結論。查t界值表t0.05/2,19=2.093。

由t

=0.965<t

0.05/2=2.093得P>0.05。按

=0.05水準,不拒絕H0,無統計學意義。還不能認為用兩種不同藥物的病人其HbA1c下降值不同。228

3.Satterthwaite近似t檢驗

:

Cochran&Cox法是對臨界值校正而Satterthwaite法則是對自由度校正。

229

=28.4

28、t=0.965查附表2的t界值表得0.20<P<0.40。結論同前。按Satterthwaite法對例3-8做檢驗,得230

3.Welch法近似t檢驗Welch法也是對自由度進行校正。校正公式為231對例3-8,如按Welch法,則

=29.4

29、t=0.965查附表2的t界值表得0.20<P<0.40。結論同前。232

第五節假設檢驗注意事項233一、I型錯誤和II型錯誤

假設檢驗是利用小概率反證法思想,根據P值判斷結果,此推斷結論具有概率性,因而無論拒絕還是不拒絕H0,都可能犯錯誤。見表3-8。234表3-8可能發生的兩類錯誤235

I型錯誤:“實際無差別,但下了有差別的結論”,假陽性錯誤。犯這種錯誤的概率是

(其值等於檢驗水準)

II型錯誤:“實際有差別,但下了不拒絕H0的結論”,假陰性錯誤。犯這種錯誤的概率是

(其值未知)

但n

一定時,

增大,

則減少。1-

:檢驗效能(power):當兩總體確有差別,按檢驗水準

所能發現這種差別的能力。236圖3-6I型錯誤與II型錯誤示意圖(以單側u檢驗為例)

237減少I型錯誤的主要方法:假設檢驗時設定

值。減少II型錯誤的主要方法:提高檢驗效能。提高檢驗效能的最有效方法:增加樣本量。如何選擇合適的樣本量:實驗設計。238二、假設檢驗應注意的問題1.要有嚴密的研究設計這是假設檢驗的前提。組間應均衡,具有可比性,也就是除對比的主要因素(如臨床試驗用新藥和對照藥)外,其他可能影響結果的因素(如年齡、性別、病程、病情輕重等)在對比組間應相同或相近。保證均衡性的方法主要是從同質總體中隨機抽取樣本,或隨機分配樣本。2392.不同的資料應選用不同檢驗方法

應根據分析目的、資料類型以及分佈、設計方案的種類、樣本含量大小等選用適當的檢驗方法。如:配對設計的計量資料採用配對t檢驗。而完全隨機設計的兩樣本計量資料,若為小樣本(即任一ni60)且方差齊,則選用兩樣本t檢驗;若方差不齊,則選用近似t

檢驗(Cochran&Cox法或Satterthwaite法)。若為大樣本(所有ni>60),則可選用大樣本u檢驗。2403.正確理解“顯著性”一詞的含義

差別有或無統計學意義,過去稱差別有或無“顯著性”,是對樣本統計量與總體參數或樣本統計量之間的比較而言,相應推斷為:可以認為或還不能認為兩個或多個總體參數有差別。2414.結論不能絕對化因統計結論具有概率性質,故“肯定”、“一定”、“必定”等詞不要使用。在報告結論時,最好列出檢驗統計量的值,儘量寫出具體的P值或P值的確切範圍,如寫成P=0.040或0.02<P<0.05,而不簡單寫成P<0.05,以便讀者與同類研究進行比較或進行循證醫學時採用Meta分析。2425.假設檢驗是為專業服務的,統計結論必須和專業結論有機地相結合,才能得出恰如其分、符合客觀實際的最終結論。若統計結論和專業結論一致,則最終結論就和這兩者均一致(即均有或均無意義);若統計結論和專業結論不一致,則最終結論需根據實際情況加以考慮。若統計結論有意義,而專業結論無意義,則可能由於樣本含量過大或設計存在問題,那麼最終結論就沒有意義。243

6.可信區間與假設檢驗各自不同的作用,要結合使用。

一方面,可信區間亦可回答假設檢驗的問題,算得的可信區間若包含了H0,則按

水準,不拒絕H0;若不包含H0,則按

水準,拒絕H0,接受H1。

244

另一方面,可信區間不但能回答差別有無統計學意義,而且還能比假設檢驗提供更多的資訊,即提示差別有無實際的專業意義。

245圖3-7可信區間在統計推斷上提供的資訊

246

雖然可信區間亦可回答假設檢驗的問題,並能提供更多的資訊,但並不意味著可信區間能夠完全代替假設檢驗。可信區間只能在預先規定的概率

檢驗水準

的前提下進行計算,而假設檢驗能夠獲得一較為確切的概率P值。

247第六節正態性檢驗和兩樣本方差比較的F檢驗248

t檢驗的應用條件是正態總體且方差齊性;配對t檢驗則要求每對數據差值的總體為正態總體。進行兩小樣本t檢驗時,一般應對資料進行方差齊性檢驗,尤其兩樣本方差懸殊時。若方差齊,採用一般的t檢驗;若方差不齊,則採用t’檢驗。249一、正態性檢驗(normalitytest)

1.圖示法:P-Pplot,Q-Qplot2.矩法偏度係數(skewness),峰度係數(kurtosis)。

3.

W檢驗法

4.

D檢驗法250圖3-8例3-1中100個樣本均數的P-P圖251圖3-9例3-1中100個樣本均數的Q-Q圖252253254

例3-9試用矩法對表3-1中電腦模擬抽樣所得100個樣本均數進行正態性檢驗。255(2)計算檢驗統計量256二、兩樣本方差比較的F檢驗

兩小樣本t

檢驗時,檢查兩樣本方差代表的總體方差是否相等(決定t檢驗的方法)。

1.Levene檢驗

2.F檢驗257258259

圖3-10不同自由度時F分佈的圖形260

(2)計算檢驗統計量

例3-10對例3-7,用F檢驗判斷兩總體空腹血糖下降值的方差是否不等。

(1)建立檢驗假設,確定檢驗水準261

(3)確定P值,作出推斷結論

262三、變數變換

常用的變數變換有對數變換、平方根變換、倒數變換、平方根反正弦變換等,應根據資料性質選擇適當的變數變換方法。263264265266小結

1.均數的標準誤與標準差的區別2.兩均數差別檢驗的比較:大樣本也可近似用u檢驗

Content1.Basalidealandapplicationconditions2.ANOVAofcompletelyrandomdesigneddata

3.ANOVAofrandomizedblockdesigneddata4.ANOVAoflatinsquaredesigneddata

5.ANOVAofcross-overdesigneddata

6.Multiplecomparisonofsamplemeans7.BartletttestandLevenetest第一節方差分析的基本思想及其應用條件目的:推斷多個總體均數是否有差別。

也可用於兩個

方法:方差分析,即多個樣本均數比較的F檢驗。基本思想:根據資料設計的類型及研究目的,可將總變異分解為兩個或多個部分,每個部分的變異可由某因素的作用來解釋。通過比較可能由某因素所至的變異與隨機誤差,即可瞭解該因素對測定結果有無影響。應用條件:總體——正態且方差相等

樣本——獨立、隨機設計類型:完全隨機設計資料的方差分析隨機區組設計資料的方差分析拉丁方設計資料的方差分析兩階段交叉設計資料的方差分析完全隨機設計資料的方差分析的基本思想

合計

NS:第i個處理組第j個觀察結果記總均數為,各處理組均數為,總例數為N=nl+n2+…+ng,g為處理組數。

1.總變異:全部測量值大小不同,這種變異稱為總變異。總變異的大小可以用離均差平方和(sumofsquaresofdeviationsfrommean,SS)表示,即各測量值Xij與總均數差值的平方和,記為SS總。總變異SS總反映了所有測量值之間總的變異程度。計算公式為其中:2.組間變異:各處理組由於接受處理的水準不同,各組的樣本均數

(i=1,2,…,g)也大小不等,這種變異稱為組間變異。其大小可用各組均數與總均數的離均差平方和表示,記為SS組間。計算公式為3.組內變異:在同一處理組中,雖然每個受試對象接受的處理相同,但測量值仍各不相同,這種變異稱為組內變異(誤差)。組內變異可用組內各測量值Xij與其所在組的均數的差值的平方和表示,記為SS組內,表示隨機誤差的影響。

三種變異的關係:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论