应用多元统计分析课件_第1页
应用多元统计分析课件_第2页
应用多元统计分析课件_第3页
应用多元统计分析课件_第4页
应用多元统计分析课件_第5页
已阅读5页,还剩540页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1應用多元統計分析

2第一章緒論

本章主要討論:●多元統計分析概述●多元統計分析的應用●線性代數基礎

3

第一节多元统计分析概述

本節基本內容:

一、多元統計分析的涵義二、多元統計研究的內容和方法

4一、多元統計分析的涵義多元統計分析(簡稱多元分析),是運用數理統計的方法來研究多變量問題的理論和方法,它是一元統計學的推廣。在現實生活中,很多隨機現象涉及到的變數不止一個,而經常是多個變數,這些變數之間往往存在一定的聯繫。按照一元統計方法分析多變量問題,往往不容易取得好的研究結論。這就需要同時對多個隨機變數進行分析研究。

5從應用上講,多元統計分析實際上是以個變數的次觀測數據形成矩陣為依據,根據實際問題的需要所給出種種分析方法。一、多元統計分析的涵義6多元統計研究的內容和方法概括為(Kendall):理論基礎隨機向量、矩陣抽樣分佈理論,統計推斷理論等。降維問題主成分分析,因數分析,對應分析等。歸類問題聚類分析,判別分析等。相依問題典型相關分析、回歸分析等。二、多元統計研究的內容和方法7

第二节多元统计分析的应用多元統計分析方法是解決實際問題有效的數據處理分析方法,隨著電子電腦使用的日益普遍,多元統計分析方法廣泛應用於地質科學、氣象科學、醫療衛生、體育、語言學、考古學、教育學、心理學以及經濟學、管理學等自然學科、社會科學領域。其中,僅就在經濟管理中的應用,主要可集中在如下的場合:8對多變量進行降維處理,選擇數目較少的變數子集合。對研究對象需要進行分類研究、分類處理、構造分類模式。建立經濟模型和利用模型進行外推。研究經濟現象之間相互關係。

第二节多元统计分析的应用9

第三节线性代数基础

本節基本內容:對《應用多元統計》課程學習過程中所須具備的線性代數知識作簡單的回顧和介紹。包括:

向量、矩陣及基本運算,行列式,逆矩陣和矩陣的秩,特徵根、特徵向量,矩陣的跡,正定矩陣和非負定矩陣,投影矩陣,矩陣微商。10約定:向量用小寫粗體字母(如

等)表示,矩陣用大寫粗體字母(如

等)表示,標量用斜體字母(如

等)表示。

第三节线性代数基础11向量:由

個實數組成的一個數組稱為

維向量,記為,或

注意,我們提到的向量均指列向量;

行向量用列向量的轉置表示,如。

一、向量12維向量在幾何上表示一個有方向的線段。向量可以進行數量乘法和加法運算。令為任意常數,和,則向量的數量乘法和加法可分別定義為:一、向量13矩陣:將個數排成一個形如行列的長方形表:稱為矩陣,常記為,其中為第行,第列的元素。本書中假定均為實數。二、矩陣及基本運算14矩陣的運算矩陣加法。若與為矩陣,則與的和為矩陣對應元素的和:數量乘積。若為一常數,它與的積定義為該常數與矩陣元素的乘積:二、矩陣及基本運算15矩陣乘法。若,,則與的積定義為:在一般情況下,。從上述矩陣運算定義中可以得到如下運算規律:二、矩陣及基本運算16若為方陣,滿足,則稱為正交矩陣。二、矩陣及基本運算17矩陣分塊矩陣的分塊是處理階數較高的矩陣時常用的方法。有時,我們把一個高階矩陣看成是由一些低階矩陣組成的,就像矩陣由數值組成一樣。設為矩陣,將剖分稱四塊,表示成其中,表示矩陣,表示矩陣,表示矩陣,為矩陣。分塊矩陣也滿足一般矩陣的乘法和加法等運算規律。二、矩陣及基本運算18若矩陣與有相同的分塊,則若為矩陣,剖分成其中,為矩陣,為矩陣,為矩陣,為矩陣。則有二、矩陣及基本運算19二、矩陣及基本運算20(一)行列式一個階方陣對應一個數,記為稱為的行列式。三、行列式、逆矩陣和矩陣的秩21直接由行列式的定義計算行列式是很麻煩的,通常利用行列式的一些性質,可以簡化計算:(1)若矩陣的某行(或列)為零,則行列式。(2)。(3)將矩陣某行(或列)乘以數所得矩陣的行列式為。(4)若矩陣的兩行(或兩列)相同,則行列式。(5)若將矩陣兩行(或兩列)互換所得矩陣的行列式為。(6)若將矩陣的某一行(或列)乘上一個常數加到另一行相應的元素上,所得矩陣的行列式不變,仍為。三、行列式、逆矩陣和矩陣的秩22(二)逆矩陣設一個階方陣,若,則稱為非奇異矩陣,若,則稱為奇異矩陣。若為階非奇異矩陣,則存在唯一的矩陣使得,稱為的逆矩陣,記為,可以證明其中,為的代數餘子式。三、行列式、逆矩陣和矩陣的秩23逆矩陣具有如下性質:

(1)。(2)。(3)若和均為階非退化矩陣,則。(4)。(5)若是正交矩陣,則有。(6)若非退化,即(),則。(7)若和為非退化方陣,則。三、行列式、逆矩陣和矩陣的秩24(三)逆矩陣的秩設為階矩陣。若存在的一個階子方陣的行列式不為零,而的一切階子方陣的行列式均為零,則稱的秩為,記為。矩陣的秩具有下列基本性質:(1),當且僅當。(2)若為階矩陣,且,則。(3)。(4)若為矩陣和為矩陣,則。三、行列式、逆矩陣和矩陣的秩25(5)若和為矩陣,則

(6)若和為非退化矩陣,則

(7)階方陣是非退化的,當且僅當,此時稱為滿秩矩陣。三、行列式、逆矩陣和矩陣的秩26設為階方陣,則方程的左邊為次多項式,由多項式的理論知道,該方程有個根(可能有重根),記為,並稱為矩陣的特徵根或特徵值。若是方程的一個根,則為奇異矩陣,故存在一個維非零向量使得四、特徵根、特徵向量27即是矩陣的特徵根,而稱為特徵根對應的特徵向量。今後一般取為單位向量,即滿足。特徵根和特徵向量具有以下性質:(1)矩陣和有相同的特徵根。(2)若為矩陣,為矩陣,則和有相同的特徵根。(3)若為實對稱矩陣,則的特徵根全為實數,個特徵根按大小依次表示為。四、特徵根、特徵向量28若,則相應的特徵向量和必正交,即

(4)若是矩陣的特徵根,可逆,則的特徵根為。(5),即矩陣行列式等於其特徵根的乘積。四、特徵根、特徵向量29若是階方陣,其對角線元素之和稱為矩陣的跡,記為

方陣的跡具有如下性質:(1)若為階方陣的特徵根,則

(2)五、矩陣的跡30(3)。(4)。(5)。(6)。五、矩陣的跡31設為階對稱矩陣,是一個維列向量,則稱為的二次型。若對於一切,有,則稱為正定矩陣,記為;若對於一切,有,則稱為非負定矩陣,記為。六、正定矩陣和非負定矩陣32正定矩陣和非負定矩陣具有如下性質:(1)一個對稱陣是正(非負)定矩陣,當且僅當它的特徵根為正(非負)。(2)若,則。(3)設,則當且僅當。(4),對於一切矩陣成立。六、正定矩陣和非負定矩陣33

(5)若(或),則必存在一個正交矩陣,使得其中,為矩陣的特徵根,的列向量為相應的特徵向量,於是有。(6)由性質(1),均非負,即,記特別地,令,有,稱為的平方根矩陣。六、正定矩陣和非負定矩陣34

(7)若(或),則存在(或),使得。六、正定矩陣和非負定矩陣35若階方陣滿足,則稱為冪等矩陣,對稱的冪等矩陣稱為投影矩陣。以下是投影矩陣的一些性質:(1)若為投影矩陣,則。(2)若為投影矩陣,則是投影矩陣。七、投影矩陣36

(3)若為秩為的投影矩陣,則有個特徵根為1,其餘特徵根為0。故滿秩的投影矩陣必為單位陣。(4)若和為投影矩陣,且,則。(5)若是矩形,,,則是投影矩陣,且。七、投影矩陣37若令為實值向量,,其中()。那麼規定關於的偏導數定義為:八、矩陣微商38

第一节多元分布的基本概念

本節基本內容:一、隨機向量二、多元分佈函數和多元密度函數三、邊緣密度、獨立性與條件分佈四、多維隨機向量的數字特徵

39一、隨機向量所隨機變數通俗理解就是“其值隨機會而定”的量。本課程討論的是多變量的情形,也即隨機向量:設為個隨機變數,由它們組成向量,則稱作維隨機向量。在不做特別說明的情況下,向量、矩陣用粗體表示;涉及總體的變數用大寫字母表示,涉及樣本的變數用小寫字母表示;隨機變數用大寫字母表示,其實現值用小寫字母表示。40在理論上,對多維隨機向量的研究和對一維隨機變數的研究思路是類似的,通過分佈及其特徵進行刻畫。不同的是,可能要考慮變數之間的相關關係。在統計應用上,對多維隨機向量的研究和對一維隨機變數的研究思路也是一樣的,要通過樣本資料來推斷總體。一、隨機向量41如果同時對個變數作一次觀測,得到觀測值:,稱觀測值為一個樣品;若這樣的觀測重複進行次,可得到個樣品

()。把這樣的個樣品放在一起,稱之為一個樣本。常排成矩陣:一、隨機向量42需要說明的是,從橫向看,矩陣的第行

表示對第個樣品的一次觀測值。當然,在獲得具體觀測之前,是一個維隨機向量。從縱向上看,矩陣的第列表示對第個變數的次重複觀測值,在獲得具體觀測之前,是一個隨機變數。一、隨機向量43二、多元分佈函數和多元密度函數隨機向量(變數)離散型、連續型刻畫隨機向量(變數)分佈函數、密度函數44分佈函數設為一隨機向量,它的多元分佈函數定義為:記為。

隨機向量的統計特性可用它的分佈函數來完整地描述。二、多元分佈函數和多元密度函數45密度函數(設為維隨機向量)連續型。若稱為的的聯合分佈密度函數。

離散型。若存在有限或可列個維向量,使得,且滿足,則稱()為的概率分佈(本質上為密度函數)。二、多元分佈函數和多元密度函數46以連續型變數為例進行討論。多維隨機向量的邊緣密度。若為維隨機向量,由它的()個分量組成的子向量的分佈稱為的邊緣(邊際)分佈。通過變換中的各分量的次序,總可以假定正好是的前個分量,其餘個分量記為,則可表示為:

三、多維隨機向量的邊緣密度、獨立性與條件分佈47此時,的分佈函數為。若的聯合分佈密度為,則的邊緣密度函數為:,(2.3)多維隨機向量的獨立性。若個隨機變數的聯合分佈密度等於各自邊緣分佈的乘積,則稱是互相獨立的。三、多維隨機向量的邊緣密度、獨立性與條件分佈48多維隨機向量的條件分佈。當的密度函數為,的密度函數為時,給定時的條件密度為

稱給定時的分佈為條件分佈。三、多維隨機向量的邊緣密度、獨立性與條件分佈49概率分佈是對隨機變數的概率性質最完整的刻畫。優點是刻畫的完整性,不便之處在於表示形式有時是非常複雜的。而隨機變數的數字特徵,則是指某些由隨機變數的分佈所決定的常數,它刻畫了隨機變數(或者其分佈)的某一方面的性質。對於多維隨機變數刻畫其性質的最重要的數字特徵有均值、自協差陣與協差陣及相關矩陣。為了便於討論,設為維隨機向量,為維隨機向量。四、多維隨機向量的數字特徵50若()存在,則隨機向量的均值可定義為:其中是一個維向量,稱為均值向量。四、多維隨機向量的數字特徵51若和的協方差()存在,則稱為的自協差陣(簡稱協差陣),有時,把簡記為。四、多維隨機向量的數字特徵52若和的協方差()存在,則隨機向量、的協差陣記為若(表示零矩陣),則稱與不相關。四、多維隨機向量的數字特徵53隨機向量均值及協差陣具有如下性質:(1);(2);(3);(4);(5)為非負定對稱矩陣;(6);(7)。四、多維隨機向量的數字特徵54

若維隨機向量的協差陣存在,且每個分量的方差大於零,則稱隨機向量的相關陣為

其中四、多維隨機向量的數字特徵55若記為自協差陣對角線元素的平方根形成的對角矩陣,則自協差陣和相關陣的關係可表述為:四、多維隨機向量的數字特徵56

第二節多元正態分佈及其參數估計

本節基本內容:一、多元正態分佈密度函數二、多元正態分佈的數字特徵三、多元正態分佈的參數估計四、多維隨機向量的數字特徵

57用來刻畫多維隨機向量統計特性的常見的多元分佈有很多,除了多元正態分佈還有多元對數正態分佈、多項式分佈、多元超幾何分佈、多元分佈、多元分佈、多元指數分佈等。這裏主要介紹多元正態分佈,其原因是多元統計分析的主要方法是建立在多元正態分佈的假設之上的。儘管實際分析數據可能不會嚴格服從多元正態分佈的,但有三個原因使多元正態分佈在實際中有著廣泛的應用:一是,正態分佈在許多情況下確實能作為真實總體的一個近似;二是,根據中心極限定理,不論總體的分佈如何,許多統計量的分佈是近似正態分佈的;三是,很多檢驗統計量的分佈對正態分佈條件是穩健的,即原始資料對正態的偏離對檢驗結果影響不大。58若維隨機向量的概率密度函數為,(2.6)則稱服從維正態分佈,簡記為,其中是維向量,是階正定矩陣。一、多元正態分佈密度函數59多元正態隨機向量具有以下的性質:(1)若,其協差陣是對角陣,則的各分量是相互獨立的隨機變數。(2)多元正態分佈隨機向量的任何一個分量子集的分佈仍然服從正態分佈。(3)多元正態分佈隨機向量的任意線性變換仍然是服從多元正態分佈。若,令,為階方陣,則。一、多元正態分佈密度函數60若,則,,即恰好是多維隨機向量的均值向量,恰好是多維隨機向量的協差陣。其中,,二、多元正態分佈的數字特徵61在實際應用中,多元正態分佈中的均值向量和協差陣通常是未知的,需要由樣本資料來估計,而參數估計的方法很多,最常見的是極大似然估計法給出估計量:用樣本均值向量估計總體均值向量,用樣本協差陣估計總體協差陣。三、多元正態分佈的參數估計62一般情況下,從多元正態總體中按照隨機原則,抽取容量為的樣本,則樣本數據矩陣為三、多元正態分佈的參數估計63設每個樣品是相互獨立的,則利用極大似然估計可求出三、多元正態分佈的參數估計64矩陣是實對稱矩陣,因此只寫出上三角部分。事實上,按照最大似然估計的結果,是的無偏估計,但不是的無偏估計。為了得到無偏估計量,通常作出調整:令,

(2.7)則是的無偏估計。在一定得假設下,可以證明和還是和的“最小方差”無偏估計量,即和是和的有效估計。常稱為樣本均值,為樣本協差陣。三、多元正態分佈的參數估計65

第三節多元正態分佈的假設檢驗

本節基本內容:一、多元正態總體的三個重要抽樣分佈二、一個正態總體均值向量的假設檢驗三、兩個正態總體均值向量的檢驗四、多個正態總體均值向量的檢驗——多元方差分析五、正態總體的協方差陣檢驗

66

一元正態總體中,參數、的檢驗要設計到一個總體、兩個總體乃至多個總體的檢驗問題。用於檢驗、的抽樣分佈主要有分佈、分佈、分佈等,它們都是由來自正態總體的隨機樣本導出的檢驗統計量的分佈。推廣到多元正態總體,類似於一元假設檢驗情形,多元統計分析中也需要對各種均值向量和協差陣進行假設檢驗,涉及到三個重要的統計量:維希特(Wishart)統計量、霍特林(Hotelling)統計量、威爾克斯(Wilks)統計量。一、多元正態總體的三個重要抽樣分佈67假設檢驗的基本步驟均可歸納為四步:第一步,提出待檢驗的假設和。第二步,給出檢驗的統計量及其服從的分佈。第三步,給定檢驗水準,查統計量的分佈表,確定臨界值,從而得到拒絕域。第四步,根據樣本觀測值計算出統計量的值,看是否落入拒絕域中,以便對待判假設檢驗做出決策。一、多元正態總體的三個重要抽樣分佈68設總體服從,。現從中獲得樣本(),樣本均值向量為,要檢驗假設,(為已知向量)(1)總體協差陣為已知,且為正定時,可用檢驗統計量:當原假設成立時,統計量,給定檢驗水準,查分佈表使,可得臨二、一個正態總體均值向量的假設檢驗69界值,再由樣本值計算,若,則拒絕原假設,否則假設相容,不能拒絕原假設。(2)當總體協方差陣未知時,用的無偏估計量代替,則檢驗統計量為

當原假設成立時,統計量服從分佈,再利用分佈與分佈的關係,有

二、一個正態總體均值向量的假設檢驗70所以,給定檢驗水準,查分佈表使,可得臨界值,再由樣本值計算,若,則拒絕原假設,否則假設相容,不能拒絕原假設。二、一個正態總體均值向量的假設檢驗71設有總體(),從中獲得樣本,樣本均值向量為,另有一總體(),從中獲得樣本,樣本均值向量為,兩組樣本相互獨立,協差陣和為正定矩陣,且,。現在要檢驗假設,

(1)當協差陣相等,即,且未知時,可用檢驗統計量:

三、兩個正態總體均值向量的檢驗72其中,,當原假設成立時,統計量服從霍特林分佈,再利用霍特林分佈與分佈的關係,有

所以,給定檢驗水準,查分佈表可得出,再由樣本值計算,若,則拒絕原假設,否則相容,不能拒絕原假設。三、兩個正態總體均值向量的檢驗73(2)協差陣不相等,即,且為未知時,具體分兩種情況:第一種情況:時,令

(),,於是利用分佈與分佈的關係,可得檢驗統計量為:

第二種情況:時,不妨設時,令三、兩個正態總體均值向量的檢驗74

()

,於是利用分佈與分佈的關係,可得檢驗統計量為:

三、兩個正態總體均值向量的檢驗75設有個元正態總體,,…,,為正定矩陣,從每個總體中抽取獨立樣品個數分別為,,具體樣本觀測數據如下:

第一個總體:四、多個正態總體均值向量的檢驗——多元方差分析76第二個總體:第個總體:樣本的均值向量為(),要檢驗的假設為,不全相等四、多個正態總體均值向量的檢驗——多元方差分析77記,,,利用一元情況下方差分析的思想,令總離差陣為,組內離差陣為,組間離差陣為,那麼,各離差陣的計算公式為:

四、多個正態總體均值向量的檢驗——多元方差分析78則檢驗用的統計量是通過廣義似然比導出的統計量(這裏的廣義似然比統計量等價威爾克斯統計量)為:

給定檢驗水準,查威爾克斯分佈表,確定臨界值,然後作出統計判斷。當然,若沒有查威爾克斯分佈表的情況下,可近似用分佈或分佈來進行檢驗:設,令四、多個正態總體均值向量的檢驗——多元方差分析79,其中,,,

則近似服從分佈,近似服從分佈,這裏不一定是整數,可用與它接近的整數來作為分佈的自由度。

四、多個正態總體均值向量的檢驗——多元方差分析80

設,協差陣為正定矩陣,且為未知。從中獲得樣本,,為一個單位陣,是一個已知的正定矩陣,要檢驗假設:(1),檢驗所使用的似然比統計量為

其中,。五、正態總體的協方差陣檢驗81(2),因為為正定矩陣,所以存在()使得,令(),則因此,檢驗等價於檢驗,檢驗所使用的似然比統計量為:

其中,。五、正態總體的協方差陣檢驗82在實際應用中,由於分佈的計算比較困難,實際應用中,往往採用分佈的近似分佈分佈來近似,在原假設成立的情況下,當很大時,近似服從。五、正態總體的協方差陣檢驗83

設有個元正態總體,,…,,進一步假定()為正定矩陣,且為為未知。分別從各總體中取個樣本,,要檢驗的假設為,不全相等令,其中,

。五、正態總體的協方差陣檢驗84檢驗所用的似然比統計量為

在實際應用中,將改為,改為,得修正的統計量,記為,則的近似分佈為分佈。

五、正態總體的協方差陣檢驗第一節多元線性回歸分析本節基本內容:

一、模型和參數估計二、模型檢驗三、多重共線性

一、模型和參數估計(一)總體回歸模型其中:

因變數為隨機變數,引數為確定變數,是固定的但未知的參數,稱為總體回歸係數;稱為隨機誤差項,表示除了引數以外被忽略的或無法考慮的其他隨機的影響因素。線性:指可表述為未知參數的線性函數。對於一個實際問題,如果我們獲得組觀測數據:則線性回歸模型可表述為一、模型和參數估計一、模型和參數估計寫成矩陣形式為其中,為了估計模型,要求:,

一、模型和參數估計為了能對回歸模型進行假設檢驗,還需假定隨機誤差項服從正態分佈:

值得注意的是,對回歸模型的解釋,主要是對參數()的解釋,的含義為保持其他引數不變,當變動一個單位時,對因變數的平均影響程度。(二)參數估計一、模型和參數估計現實情況下,總體參數未知,一般需根據樣本資料建立樣本回歸模型,從而推斷總體模型,利用樣本資料,可以構建模型

其中,是對的估計。需要指出的是,不是像那樣是固定的數值,而是隨著樣本的不同,可以有不同取值,由於樣本是隨機的,也是隨機變數。可由最小二乘法估計得到。一、模型和參數估計最小二乘法:其原理是使殘差平方和達到最小,即達到最小。解形如下式的正規方程:一、模型和參數估計將其寫為矩陣形式:即經過一系列求解,可得:

一、模型和參數估計上式中的估計量稱為回歸參數的最小二乘估計,具有以下的統計特性:(1)線性性。由其運算式可以看出,估計量是()的線性函數。進一步地,()在獲得具體觀測之前是隨機變數,由此來講,估計量也是隨機變數。(2)無偏性。在假定(3.6)的情況下,估計量的期望分別為總體參數。也就是說,估計量是總體參數的無偏估計。一、模型和參數估計(3)最小方差性。在假定(3.6)的情況下,的協差陣為,

(

)的方差是乘以正規方程係數矩陣逆矩陣中相應對角線元素。可以證明最小二乘估計量線上性無偏估計中具有最小方差。(4)正態性。在隨機誤差項服從正態分佈的假定下,還可以進一步證明最小二乘法估計量服從正態分佈,即此時,最小二乘估計是一切無偏估計中方差最小的估計。特別地,有(

),其中,表示矩陣中第行第列的元素。二、模型檢驗通常來說,模型的設定只是基於定性分析作出的假設。這種假設是否符合實際,能否得到樣本數據的支持,還需要在求出線性回歸方程後,對回歸方程進行顯著性檢驗。多元線性回歸方程的顯著性檢驗與一元線性回歸方程的顯著性檢驗思想是一致的,但也有不同之處。這裏我們介紹兩種方法,一是回歸方程整體顯著性的檢驗,另一個是回歸係數顯著性的檢驗。同時,我們還介紹度量回歸擬合程度的可決係數,並討論可決係數與檢驗的聯繫。(一)回歸方程的顯著性檢驗回歸方程檢驗,檢驗回歸方程的回歸擬合效果是否顯著,實質是對回歸模型的整體線性關係的顯著性檢驗,即檢驗下列假設是否為真如果假設不能被拒絕,則表明隨機變數與解釋變數之間的關係由線性回歸模型來表述是不恰當的。該檢驗我們可以通過構建統計量來進行:二、模型檢驗二、模型檢驗當原假設成立時,可以利用該分佈對回歸方程的整體顯著性水準進行檢驗。(二)回歸係數的顯著性檢驗在多元回歸模型中,引數對因變數的影響是否顯著,主要體現為回歸係數是否與0存在差異,當某個引數回歸係數為0時,該引數在回歸方程中就不會產生實質影響效應。因此,檢驗轉化為回歸係數是否等於0的問題。二、模型檢驗因此,待檢驗的假設為注意:在檢驗中往往未知,一般採用無偏估計量由此,可構造t統計量其中當原假設成立時,構造的統計量服從自由度為的t分佈。二、模型檢驗(三)可決係數以及修正可決係數可決係數用以描述回歸方程對樣本觀測值的擬合程度。其計算公式為可決係數就是被回歸模型解釋的波動(回歸平方和)占因變數觀測值總波動(總離差平方和)的比重,其取值在的區間內。越接近1,表明回歸方程對樣本數據擬合程度越高,模型對預測越有意義;反之,越接近0,表明回歸方程擬合效果越差。二、模型檢驗為了擬合優度受模型中引數個數的影響,可採用自由度修正可決係數。修正可決係數公式為:分子是殘差項的樣本方差,分母是因變數的樣本方差,二者都考慮了自由度,剔除了受引數個數影響的問題。實際應用中,常常將與結合應用,以說明回歸效果的有效性。將上面兩式的結果結合,可得相互的關係為

二、模型檢驗還可進一步得到統計量與的關係為:需要指出,是測定因變數觀測值的總離差平方和由回歸模型解釋的部分所占比重。而檢驗是因變數和一組變數(

)之間是否有線性回歸關係的檢驗。三、多重共線性在總體模型中,我們曾假定引數為非隨機變數,且不存在完全的線性關係(即假定滿秩),否則,回歸模型無法求解。一般在實際應用中,只要變數選擇得當,不會出現引數之間完全的線性關係。但如果引數的觀測值之間表現出明顯的高度相關,近似地形成相互線性表述關係,這在實際問題,特別是經濟研究中經常出現。這一問題稱為多重共線性,是多元回歸分析中出現的特有問題。若出現嚴重的多重共線性問題,則前面的一系列統計方法就可能失效,導致錯誤的判定,使預測失誤。需要特別引起注意。三、多重共線性(一)多重共線性的影響多重共線性的存在會改變回歸係數。回歸係數並不反映方程中任何一個具體引數對因變數的影響,而只是方程中給定與其他相關的引數後一個“偏”的影響。多重共線性不降低模型的擬合能力,但使回歸平方和、剩餘平方和的含義變得模糊。參數估計量的方差隨著變數之間的樣本相關性增加而增大。三、多重共線性(二)多重共線性的識別相關係數識別法。初步識別,較高的相關係數意味著可能存在多重共線性。方差膨脹因數識別法。方差膨脹因數越接近於1,說明引數之間多重共線性越弱,反之則越嚴重。直觀判定法。①當模型中引入或剔除一個引數,或小幅改變一個觀測值時,回歸係數的估計值有較大的變化;②回歸係數估計值的符號與實際經驗判斷相違背;③F檢驗通過,而有的回歸係數的t檢驗未通過。三、多重共線性(三)多重共線性的消除增加樣本量剔除對共線性程度影響較大的引數逐步回歸法變數變換法如採用對數變換,差分變換有偏的估計方法如嶺回歸、主成分回歸下麵一節主要介紹逐步回歸分析。106

第二節引數選擇與逐步回歸分析

本節基本內容:

一、回歸模型的變數子集合選擇二、逐步回歸分析

在引數的選擇過程中,若遺漏對因變數有重要影響的引數,建立的回歸模型效果肯定不好。若回歸模型中包含太多的變數,且其中一些變數對因變數的影響不大,有些引數之間存在大量資訊的重疊(多重共線性問題),會影響模型精度。因此,引數的選擇無疑是建立回歸模型過程中一個極為重要的問題。下麵我們介紹一些回歸模型的引數選擇技術。一、回歸模型的變數子集合選擇一、回歸模型的變數子集合選擇設一個實際問題回歸建模中,有個備選引數,每個引數都有入選回歸方程和不入選回歸方程兩種情況。因變數關於這些引數的所有可能回歸方程有個,其中是指所有引數都不入選,回歸模型只包含

一個常數項的情形。我們的目的是在這些所有可能的回歸方程中,選擇一個

“最優”的。最優的標準要綜合考慮:從回歸模型的擬合角度看,殘差平方和越小越好,或者

說複相關係數越接近1越好;從回歸模型的簡潔性上看,回歸方程中包含引數個數

越小越好。一、回歸模型的變數子集合選擇應該說,上述的單個標準只能看作“最優”方程的某個方面,不能獨立作為變數選擇的準則。兼顧上述兩條標準,可以得到許多選擇變數子集合的準則:修正可決係數AIC準則Cp準則……一、回歸模型的變數子集合選擇所謂建立“最優”回歸方程,實際上就是引數的選擇問題。可採用以下的方法:從所有可能的引數組合中選擇最優。(工作量太大)逐步剔除法(Backward)。逐步引入法(Forward)。逐步回歸分析法(Stepwise)。逐步回歸分析法“有進有出”,綜合逐步引入和逐步剔除兩種方法特點,是一種自動地從大量可供選擇的變數中,選擇對建立回歸方程重要的變數的方法。下麵我們著重介紹這種方法。二、逐步回歸分析從一個引數出發,依據引數對因變數的影響顯著性大小,從大到小逐個引入回歸方程。同時,在逐個引數選入回歸方程的過程中,如果發現先前被引入的引數在其後由於某些引數的引入而失去其重要性時,可以從回歸方程中隨時予以剔除。(二)逐步回歸分析的基本原理二、逐步回歸分析每步都要進行顯著性檢驗,以便保證每次引入變數前回歸方程中只包括顯著性變數。這個過程反復進行,直到既無不顯著變數從回歸方程中剔除,又無顯著變數需要選入回歸方程時為止。二、逐步回歸分析(三)逐步回歸的基本步驟(1)考慮能否剔除變數的基本步驟。假設已經引入回歸方程的變數為()。①計算已在方程中的變數的偏回歸平方和()其中,表示包含括弧中這些下標對所應變量的回歸平方和,表示相應的殘差平方和。②尋找所有引入方程中偏回歸平方和達到最小的變數二、逐步回歸分析即相應變數是方程中對因變數影響最小的變數。③檢驗對因變數的影響是否顯著。對變數進行回歸係數的顯著性檢驗,即檢驗檢驗統計量為在原假設成立的情況下,。給定顯著性水準,查得臨界值為。若,表明顯著,不能剔除,轉入考慮能否引入新變數(步驟(2))。若,則表明不顯著,剔除。

二、逐步回歸分析重新建立因變數與其餘個引數的回歸方程,然後再重複上面步驟,檢驗方程中最不重要的變數是否可以剔除,直到方程中沒有變數可以剔除為止,轉入考慮能否引入新變數(步驟(2))。(2)考慮能否引入新變數的基本步驟。假定已經入選個變數,不在方程中的變數記為。①計算不在方程中的變數的偏回歸平方和():二、逐步回歸分析②尋找所有未在方程中的偏回歸平方和達到最大的變數:即不在方程中的變數是對因變數影響最大的變數。③檢驗變數對因變數的影響是否顯著。對變數作回歸係數的顯著性檢驗,即檢驗:檢驗統計量為在原假設成立的情況下,。給定顯著性水準,查得臨界值為。

二、逐步回歸分析若,表明是顯著的,則引入,並轉入到考慮能否剔除變數(步驟(1))。若,則逐步篩選變數過程結束。假設用逐步回歸法得到個變數,再建立因變數與這個變數的回歸方程,方法與一般回歸分析相同。這就是用逐步回歸法得到的“最優”回歸方程。118

第三節回歸分析應用實例

本節基本內容:

一、多元回歸分析應用實例二、逐步回歸分析應用實例

問題描述糧食產量一般指全社會的糧食產量,包括國有經濟經營的、集體統一經營的和農民家庭經營的糧食產量,還包括工礦企業辦的農場和其他生產單位的產量。糧食除包括稻穀、小麥、玉米、高粱、穀子及其他雜糧外,還包括薯類和豆類。我國歷年的糧食產量總體上呈現出穩步增長的趨勢,但由於受到播種面積、氣候自然條件、人力、物力等多方面的因素影響,我國每年的糧食產量都會出現一些波動。在綜合考慮對糧食產量起影響作用的多方面因素情況下,這裏擬對影響我國糧食產量的預測模型進行分析。一、多元回歸分析應用實例一、多元回歸分析應用實例選擇糧食作物播種面積、化肥施用量、受災面積、和農業勞動力人數四個變數作為對糧食產量起影響因素的引數,將糧食產量視為因變數。採用多元線性回歸分析擬合多因素影響條件下的糧食產量回歸模型。數據全部取自《中國統計年鑒2006》,具體見下原始數據表。數據一、多元回歸分析應用實例年份糧食總產量(萬噸)糧食作物播種面積(千公頃)化肥施用量(萬噸)受災面積(千公頃)農業勞動力數(萬人)198537910.80108845.001775.8044365.0030351.50198639151.00110933.001930.6047140.0030467.90198740298.00111268.001999.3042090.0030870.00198939408.00110123.002141.5050870.0031455.70198940754.90112204.672357.1046991.0032440.50199044624.30113465.872590.3038474.0033336.40199143529.30112313.602805.1055472.0034186.30199244265.80110559.702930.2051333.0034037.00199345648.80110508.703151.9048829.0033258.20199444510.10109543.703317.9055043.0032690.30199546661.80110060.403593.7045821.0032334.50199650453.50112547.923827.9046989.0032260.40199749417.10112912.103980.7053429.0032677.90199851229.53113787.404083.7050145.0032626.40199950838.58113160.984124.3249981.0032911.76200046217.52108462.544146.4154688.0032797.50200145263.67106080.034253.7652215.0032451.01200245705.75103890.834339.3947119.1031990.58200343069.5399410.374411.5654506.3031259.63200446946.95101606.034636.5837106.2630596.00200548402.19104278.384766.2238818.2329975.54一、多元回歸分析應用實例打開SPSS統計軟體,點擊介面下方的VariableView選項定義變數名和變數類型。如下圖所示。多元回歸分析在SPSS中的實現過程一、多元回歸分析應用實例點擊介面下方的DataView選項,錄入(或導入)數據一、多元回歸分析應用實例在菜單中點擊Analyze-Regression-LinearRegression因變數:糧食產量引數:糧食播種面積、化肥施用量、受災面積、農業從業人數。回歸方法:默認方式(同時進入,Method:Enter)

如圖所示。一、多元回歸分析應用實例單擊Statistics選項,作必要設置。如係數估計(Estimates)、模型擬合(Modelfit)、描述性統計(Descriptive)、共線性識別(Colinearitydiagnostics)等。如圖所示一、多元回歸分析應用實例點擊OK,得到輸出結果如下:糧食總產量糧食播種面積化肥施用量受災面積農業勞動力人數PearsonCorrelation糧食總產量1.000.089.793.040.317糧食播種面積.0891.000-.508.135.510化肥施用量.793-.5081.000.068.019受災面積.040.135.0681.000.527農業勞動力人數.317.510.019.5271.000Sig.(1-tailed)糧食總產量..351.000.431.081糧食播種面積.351..009.279.009化肥施用量.000.009..384.467受災面積.431.279.384..007農業勞動力人數.081.009.467.007.一、多元回歸分析應用實例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.963754.14555ModelSumofSquaresdfMeanSquareFSig.1Regression296300432.244474075108.061130.245.000

Residual9099768508

Total305400200.37820

四引數模型概述方差分析一、多元回歸分析應用實例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39956.3365865.333-6.812.000

糧食播種面積

.654.062

.67710.600.000.4572.189化肥施用量

4.609.2181.14621.167.000.6361.573受災面積

-.100.036-.143-2.756.014.6961.436農業勞動力人數

.082.208

.025.395.698.4632.162係數檢驗一、多元回歸分析應用實例當四個引數全部進入回歸的情況下,為0.970,修正可決係數為0.963,回歸模型擬合程度很高。進一步通過檢驗發現,統計量的取值為130.245,在給定顯著水準的情況下,應當拒絕原假設,說明回歸方程整體顯著。一、多元回歸分析應用實例通過進一步觀察,發現模型的一些回歸係數不能通過顯著性檢驗。以最小的兩個變數即受災面積和農業勞動力人數為例,來說明回歸係數的顯著與否。這兩個變數的

統計量取值分別為-2.756和0.395。當給定顯著性水

平,通過查分佈表得,比較發現,受災面積對模型的影響是顯著的(),

農業勞動力人數是不顯著的。一、多元回歸分析應用實例通過上述檢驗發現,模型中存在變數未通過檢驗,而模型整體是顯著的,據此可以懷疑模型存在多重共線性。然而,各個引數間的相關係數並不高,進一步地,方差膨脹因數顯示,模型中的多重共線性並不嚴重。因此,有理由認為農業勞動力人數對糧食產量的影響不顯著。為了驗證這一說法,剔除農業勞動力人數,再重複上述步驟進行回歸,模型擬合情況如下所示。一、多元回歸分析應用實例ModelRRSquareAdjustedRSquareStd.ErroroftheEstimate1.985.970.965735.19473保留三個字變數的模型概述Model

SumofSquaresdfMeanSquareFSig.1Regression296211508.500398737169.500182.674.000

Residual9188691.87817540511.287

Total305400200.37820

保留三個引數模型的方差分析一、多元回歸分析應用實例ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.CollinearityStatisticsBStd.ErrorBetaToleranceVIF1(Constant)-39377.8965537.247

-7.111.000

糧食播種面積.669.048.69213.889.000.7131.402化肥施用量4.639.1991.15323.305.000.7231.383受災面積-.093.030-.132-3.065.007.9561.046保留三個引數模型的係數檢驗一、多元回歸分析應用實例保留三個引數情況下模型概述表,反映了模型的擬合優度檢驗,為0.970,基本與四變數模型保持一致,說明模型對原始數據的擬合較好;修正可決係數為0.965,略高於四變數模型,則進一步支持了我們剔除農業勞動力人數的決策。對保留三個引數回歸模型的方差分析,檢驗結果顯示,說明模型整體顯著。對回歸係數顯著性檢驗,三個引數對模型的影響都是顯著的;方差膨脹因數進一步顯示,由於剔除的引數,模型的多重共線性得到進一步地改進。一、多元回歸分析應用實例按照上述判定,三變數模型是適當的,可以寫出回歸方程為邊際影響分析例如,保持其他因素不變的情況下,當化肥施用量增加1萬噸,則糧食產量可提高4.639萬噸。預測若已經知道2006年的糧食播種面積為105489千公頃、化肥施用量為4928萬噸、受災面積為41091千公頃,根據回歸方程,得到2006年的國內糧食產量預測值為50234萬噸。二、逐步回歸分析應用實例問題已知某中水泥在凝固時放出的熱量(卡/克)與水泥中下列四種化學成分有關:的成分(%,),的成分(%,),的成分(%,),的成分(%,)。現要對影響水泥在凝固時放熱的影響成分因素作分析。本例將通過逐步回歸分析法對多重線性回歸分析中的引數進行篩選。實際數據如下:二、逐步回歸分析應用實例樣品x1x2x3x4178.5726660274.312915523104.31156820487.61131847595.97526336109.211559227102.7371176872.51312244993.1254182210115.921474261183.8140233412113.31166912原始數據二、逐步回歸分析應用實例點擊介面下方的VariableView選項定義變數名和變數類型,錄入數據,如下圖所示。回歸分析在SPSS中的實現過程二、逐步回歸分析應用實例點擊Analyze→Regression→LinearRegression,操作形成下圖結果。注意:回歸方法選擇Stepwise,即採用逐步回歸自動對進入模型的多個引數進行篩選。二、逐步回歸分析應用實例單擊Statistics選項,選擇必要的描述性統計量,如係數估計值、係數置信區間、模型擬合、描述性統計、偏相關係數等。如下圖所示。二、逐步回歸分析應用實例單擊Options選項,選擇逐步回歸篩選引數的統計量臨界值,如下圖所示。二、逐步回歸分析應用實例ModelVariablesEnteredVariablesRemovedMethod1X4.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).2X1.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).3X2.Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).4.X4Stepwise(Criteria:F-to-enter>=3.840,F-to-remove<=2.710).逐步回歸過程中引入或剔除的變數143第一節聚類分析概述本節基本內容一、聚類分析的定義二、聚類分析的分類144一、聚類分析的定義

聚類分析是將樣品或變數進行分類的多元統計分析方法。其功能是建立一種分類方法,它將一批樣品或變數,按照它們在性質上的親疏、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论