




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章總論什麼是統計學?統計數據的類型社會經濟統計學的基本範疇統計中的幾個基本概念1.1什麼是統計學一、統計在經濟管理中的應用
精算、農業、考古;工業、語言學、勞動力計畫、文學;審計學、牙醫學、生態學、工程、賭博、金融、遺傳學;心理學、品質控制、社會學、分類學等.統計學提供了探索數據內在規律的一套方法。例如:人口新生嬰兒的性別比;投一擲硬幣和擲子;農作物的產量與肥料施肥量之間的關係等等。二、統計學和統計規律
統計學:是收集、分析、表述和解釋數據的科學。數據分析採用描述統計和推斷統計方法。收集數據整理數據分析數據解釋數據描述統計(descriptivestatistics):研究如何取得反映客觀現象的數據,並通過圖表形式對所收集的數據進行加工處理和顯示,進而通過綜合、概括與分析得出反映客觀現象的規律性特徵。包括統計數據的收集方法、數據的加工處理方法、數據的顯示方法、數據分佈特徵的概括與分析方法等。推斷統計(inferentialstatistics):主要研究如何根據樣本資訊來推斷總體的特徵。數據解釋是對分析的結果進行說明,說明結果為什麼是這個樣子,結果所隱含的事物的特徵是什麼,從數據中得出了哪些規律性的結論。三、統計學的特點數量性具體性總體性四、統計學的方法大量觀察法分組法綜合指標法統計推斷法1.2統計數據的類型一、按照採用的計量尺度不同分類數據(categoricaldata):對事物進行分類的結果,數據則表現為類別,是用文字來表述的。順序數據(rankdata):對事物進行分類的結果,但這些類別是有順序的。數值型數據(metricdata):是使用自然或度量衡單位對事物進行計量的結果,其結果表現為具體的數值。定性數據定量數據二、按照統計數據的收集方法觀測數據(observationaldata):通過調查或觀測而收集到的數據.------社會經濟現象實驗數據(experimentaldata):是在實驗中控制實驗對象而收集到的數據.------自然科學領域三、按照被描述的對象與時間的關係截面數據(cross-sectionaldata):是在相同或近似相同的時間上收集的數據,它描述的是現象在某一時刻的變化情況。時間序列數據(timeseriesdata):是在不同時間上收集到的數據,它所描述的是現象隨時間而變化的情況。財務資訊的數據集股票交易所行情錄報符號年銷售額/百萬美元每股價格/美元價格/盈餘比率AwardsoftwareChesapeakeEnergyCraigCorporationEdistoResourcesOTCNYSENYSEAMEXAWRDCHKCRGEDT15.7255.329.4254.611.50007.88017.0009.68822.512.77.56.01.3社會經濟統計學的基本範疇一、社會經濟統計活動與社會經濟統計學的產生與發展《商君書》記載,西元前300多年前,已有了全國人口調查登記制度和人口按年齡、按職業的分組資料。西元2年,已得出了全國人口調查的“戶一千二百二十三萬三千六十二,口五千九百五十九萬四千九百七十八”的總數,並詳列了各州郡數字。17世紀中葉,“統計”一詞已在《清文獻通考》中記載威廉.配第---《政治算術》---政治經濟學之父,統計學的創始人約翰.格朗特---《對死亡率的自然觀察和政治觀察》,第1張生命表17世紀的德國:海爾曼。康令---國勢學;高特弗裏德。阿亨瓦爾---《近代歐洲各國國勢學論》19世紀比利時人阿道夫。凱特勒----把概率論引入統計學。數量性、具體性、總體性、社會性統計設計統計調查統計整理統計分析與預測二、社會經濟統計活動的特點與方法社會經濟統計活動的組織系統和職能作用
國務院縣、市人民政府各局統計組織地區、行署、市人民政府各局統計組織省、自治區、直轄市各廳、局統計組織國務院各部門統計組織國民經濟核算協調委員會城市、農村社會經濟調查總隊和企業調查總隊城市、農村社會經濟調查隊和企業調查隊城市、農村社會經濟調查隊和企業調查隊城市、農村社會經濟調查隊和企業調查隊基層企事業單位統計組織國家統計局省、自治區、直轄市人民政府統計局地區、行署、市人民政府統計局縣、市人民政府統計局鄉、鎮人民政府(街道居委會)統計組織、人員1.4統計與社會經濟統計中的幾個基本概念總體(population):包含所研究的全部個體的集合。總體範圍的確定有時比較容易。當總體的範圍難以確定時,可以根據研究的目的來定義總體。(總體是一個隨機變數)樣本(sample):從總體中抽取的一部分元素的集合,構成樣本的元素的數目稱為樣本容量。參數(parameter):研究者要瞭解的總體的某種特徵值統計量(statistic):根據樣本數據計算出來的一個量變數(variable):說明現象某種特徵的概念。二、總體與總體單位總體:具有相同性質的個別事物組成一個總體,是根據一定目的要求所需研究事物的全體。總體具有以下性質:同質性大量性變異性總體單位:指組成總體的基本單位,是所要統計的各種數量特徵的承擔者。總體與總體單位具有相對性。研究目的決定了總體,也決定了總體單位。三、標誌、指標與指標體系標誌:說明總體單位數量特徵或屬性特徵的概念或名稱。品質標誌:表示事物質的特徵,一般用文字說明數量標誌:表示事物量的特徵,一般用數值說明指標:反映總體數量特徵的概念,包括它的概念和數值。按照反映總體的內容不同分為:數量指標:總量指標---企業總數、耕地面積、GDP品質指標:反映相對水準的指標---人口密度、勞動生產率、設備利用係數,用平均數或相對數表示,反映現象之間內在聯繫和對比關係。按照功能和作用不同,分為:描述指標:反映社會經濟條件的指標;反映生產經營過程和結果;反映社會物質文化生活狀況的指標評價指標:企業經濟活動方面—勞動生產率;國民經濟活動方面—固定資產交付使用率等;預警指標:國民生產總值增長率、就業率與失業率、物價總指數等。四、變數、變數值與變異變數:指總體單位的數量標誌或總體的統計指標,即數量標誌和指標。變數的數值表現就是變數值。變異:標誌或指標具體表現的差異或不同表現。品質標誌的變異通常用文字表述。數量標誌的變異用數值表示,稱為標誌值或變數值。品質標誌總體單位總體標誌數量標誌(變數)數量指標(變數)品質指標(變數)指標(變數)思考與練習什麼是統計學?怎樣理解統計學與統計數據的關係?統計數據可分為幾種類型?各有什麼特點?舉例說明總體、樣本、參數、統計量、變數幾個概念。社會經濟統計學的幾個基本概念的界定第2章統計調查與數據的搜集統計學第2章統計調查與數據的搜集§2.1統計調查概述§2.2數據的來源與誤差§2.3搜集數據的幾種方法§2.4統計調查方案學習目標統計調查概述數據的來源與誤差搜集數據的調查方法問卷設計搜集數據的實驗方法數據的品質要求§2.1統計調查概述一、統計調查的性質和要求統計調查:按照預定的目的和要求、工作程式和工作方法進行,採用調查表形式,有計畫有組織地、科學地搜集統計資料的工作。準確性、及時性、全面性、經濟性二、統計調查的基本概念原始資料與次級資料調查對象與調查單位統計調查誤差三、統計調查的分類按照組織方式:統計報表制度和專門調查按照調查單位範圍:全面調查和非全面調查按時間的連續性:經常性調查和一次性調查按搜集資料的具體方法:直接觀察法、採訪法、報告法四、常用的統計調查的方式與方法統計報表制度:統計調查方法中報告法的制度化,是國家和地方政府部門統計資料的主要來源。普查:是為某一特定目的而專門組織的一次性全面調查。重點調查:是一種非全面調查,它是在調查對象中選取一部分重點單位而進行的統計調查。典型調查:是在對調查對象進行全面分析基礎上,有意識地選取個別或少數有典型意義的或有代表性單位進行的調查。抽樣調查:也是一種非全面調查,是按照隨機原則從總體單位選取一部分調查單位進行觀察,用以推算全部總體的一種調查方式。§2.2
搜集數據的基本方法一、統計調查問卷的主要類型自填式問卷調查沒有調查員協助的情況下由被調查者自己完成調查問卷問卷遞送方法有:調查員分發、郵寄、網路、媒體要求調查問卷結構嚴謹,有清楚的說明弱點問卷的返回率比較低不適合結構複雜的問卷調查週期比較長數據搜集過程中出現的問題難於及時採取調改措施面訪式問卷調查調查員與被調查者面對面提問、被調查者回答的一種調查方式優點可提高調查的回答率可提高調查數據的品質能調節數據搜集所花費的時間弱點調查的成本較高調查過程的品質控制有一定難度電話式問卷調查您好!我是××調查公司的調查員…通過電話向被調查者實施調查特點速度快,能在短時間內完成調適合於樣本單位十分分散的情況局限如果被調查者沒有電話,調查將無法實施訪問的時間不能太長使用的問卷需要簡單被訪者不願意接受調查時,難以說服觀察式調查1. 就調查對象的行動和意識,調查人員邊觀察邊記錄以收集所需資訊2. 調查人員不是強行介入能夠在被調查者不察覺的情況下獲得資料如交通流量的調查各調查方法的比較自填式
面訪式電話式調查時間慢中等快捷調查費用低高低問卷難度要求容易可以複雜要求容易有形輔助物的使用中等利用充分利用無法利用調查過程控制簡單複雜容易調查員作用的發揮無法發揮充分發揮一般發揮回答率最低較高一般二、問卷設計的原則明確問卷設計的出發點明確阻礙問卷調查的因素明確問卷設計時應考慮的各種因素三、問卷的基本結構封面信:
說明調查者的身份\調查的內容\調查的目的\意義等.指導語:指導被調查者填寫問卷的一組說明。問題和備選答案:問題的數目和順序(20分鐘)問題:填空式、判斷式、多項選擇式、矩陣式、表格式答案:具有窮盡性和互斥性;根據研究的需要確定變數的測量層次開放式和封閉式編碼及其他資料:編碼:賦予每一個問題及其答案一個數字作為它的代碼§2.3統計調查方案的設計確定調查目的確定調查對象和調查範圍報告單位:提交或填報調查資料的單位確定調查專案和調查表調查專案:根據調查目的擬定具體調查內容,通常由一些能夠表明調查單位特徵的標誌組成。調查表分單一表和一覽表確定調查方法和調查時間:資料所屬時間和調查工作起止期限制定調查的組織實施計畫§2.3數據的來源與誤差一、數據的來源----數據的間接來源系統外部的數據統計部門和政府部門公佈的資料,如各類統計年鑒各類經濟資訊中心、資訊諮詢機構、專業調查機構等提供的數據各類專業期刊、報紙、書籍的資料各種會議,如博覽會、展銷會、交易會及專業性、學術性研討會上交流的有關資料從互聯網或圖書館查閱到的相關資料Internet中國統計年鑒2001中國人口統計年鑒中國市場統計年鑒世界發展報告世界經濟年檢工業普查數據中國統計出版社系統內部的數據
業務資料,如與業務經營活動有關的各種單據
記錄經營活動過程中的各種統計報表
各種財務,會計核算和分析資料等
中國統計年鑒2001中國人口統計年鑒中國市場統計年鑒世界發展報告世界經濟年檢工業普查數據中國統計出版社二手數據的特點---應優先考慮搜集二手資料搜集容易,採集成本低;作用廣泛:分析所要研究的問題;提供研究問題的背景;幫助研究者更好地定義問題;檢驗和回答某些疑問和假設;尋找研究問題的思路和途徑
二手數據的評估數據是誰搜集的?可信度評估為什麼目的而搜集的?數據是怎樣搜集的?什麼時候搜集的?
調查數據通過調查方法獲得的數據通常是對社會現象而言通常取自有限總體實驗數據通過實驗方法得到的數據通常是對自然現象而言
也被廣泛運用到社會科學中如心理學、教育學、社會學、經濟學、管理學等
二、數據的直接來源---(原始數據)實驗組和對照組將研究對象分為兩組:實驗組和對照組實驗組和隨機組的產生應遵循隨機原則,而且應該匹配匹配指對實驗單位的背景材料進行分析比較,將情況類似的每對單位分別隨機地分配到實驗組和對照組實驗中的若干問題人的意願研究的對象是人的時候,在劃分實驗組和對照組時的隨機原則將面臨挑戰心理問題人們對被研究非常敏感,這使得他們更加注意自我,從而走到事物的另一個極端
道德問題當某種實驗涉及道德問題時,人們會處於進退兩難的尷尬境地
實驗中的統計實驗設計本身就是一個統計問題確定進行實驗所需要的單位的個數,以保證實驗可以達到統計顯著的結果將統計的思想融入到實驗設計中,使實驗設計符合統計分析的標準對實驗數據進行分析時,統計可以提供最恰當的分析方法三、抽樣方法概率抽樣---(probabilitysampling)也稱隨機抽樣,特點:按一定的概率以隨機原則抽取樣本抽取樣本時使每個單位都有一定的機會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的當用樣本對總體目標量進行估計時,要考慮到每個樣本單位被抽中的概率簡單隨機抽樣---(simplerandomsampling)從總體N個單位中隨機地抽取n個單位作為樣本,每個單位入抽樣本的概率是相等的最基本的抽樣方法,是其他抽樣方法的基礎特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統計量對目標量進行估計比較方便局限性當N很大時,不易構造抽樣框抽出的單位很分散,給實施調查增加了困難沒有利用其他輔助資訊以提高估計的效率分層抽樣----(stratifiedsampling)將抽樣單位按某種特徵或某種規則劃分為不同的層,然後從不同的層中獨立、隨機地抽取樣本優點保證樣本的結構與總體的結構比較相近,從而提高估計的精度組織實施調查方便既可以對總體參數進行估計,也可以對各層的目標量進行估計整群抽樣----(clustersampling)將總體中若干個單位合併為組(群),抽樣時直接抽取群,然後對中選群中的所有單位全部實施調查特點抽樣時只需群的抽樣框,可簡化工作量調查的地點相對集中,節省調查費用,方便調查的實施缺點是估計的精度較差系統抽樣----(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規定的範圍內隨機地抽取一個單位作為初始單位,然後按事先規定好的規則確定其他樣本單位先從數字1到k之間隨機抽取一個數字r作為初始單位,以後依次取r+k,r+2k…等單位優點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難多階段抽樣----(multi-stagesampling)先抽取群,但並不是調查群內的所有單位,而是再進行一步抽樣,從選中的群中抽取出若干個單位進行調查群是初級抽樣單位,第二階段抽取的是最終抽樣單位。將該方法推廣,使抽樣的段數增多,就稱為多階段抽樣具有整群抽樣的優點,保證樣本相對集中,節約調查費用需要包含所有低階段抽樣單位的抽樣框;同時由於實行了再抽樣,使調查單位在更廣泛的範圍內展開在大規模的抽樣調查中,經常被採用的方法
二、非概率抽樣---(non-probabilitysampling)相對於概率抽樣而言抽取樣本時不是依據隨機原則,而是根據研究目的對數據的要求,採用某種方式從總體中抽出部分單位對其實施調查有方便抽樣、判斷抽樣、自願樣本、滾雪球抽樣、配額抽樣等方式方便抽樣調查過程中由調查員依據方便的原則,自行確定入抽樣本的單位調查員在街頭、公園、商店等公共場所進行攔截調查廠家在出售產品櫃檯前對路過顧客進行的調查優點:容易實施,調查的成本低缺點:樣本單位的確定帶有隨意性,樣本無法代表有明確定義的總體,調查結果不宜推斷總體判斷抽樣研究人員根據經驗、判斷和對研究對象的瞭解,有目的選擇一些單位作為樣本有重點抽樣,典型抽樣,代表抽樣等方式判斷抽樣是主觀的,樣本選擇的好壞取決於調研者的判斷、經驗、專業程度和創造性抽樣成本比較低,容易操作樣本是人為確定的,沒有依據隨機的原則,調查結果不能用於對推斷總體自願樣本被調查者自願參加,成為樣本中的一分子,向調查人員提供有關資訊例如,參與報刊上和互聯網上刊登的調查問卷活動,向某類節目撥打熱線電話等,都屬於自願樣本自願樣本與抽樣的隨機性無關樣本是有偏的不能依據樣本的資訊推斷總體滾血球抽樣先選擇一組調查單位,對其實施調查之後,再請他們提供另外一些屬於研究總體的調查對象,調查人員根據所提供的線索,進行此後的調查。這個過程持續下去,就會形成滾雪球效應適合於對稀少群體和特定群體研究優點:容易找到那些屬於特定群體的被調查者,調查的成本也比較低配額抽樣先將體中的所有單位按一定的標誌(變數)分為若干類,然後在每個類中採用方便抽樣或判斷抽樣的方式選取樣本單位操作簡單,可以保證總體中不同類別的單位都能包括在所抽的樣本之中,使得樣本的結構和總體的結構類似抽取具體樣本單位時,不是依據隨機原則,屬於非概率抽樣概率抽樣與非概率抽樣的比較概率抽樣依據隨機原則抽選樣本樣本統計量的理論分佈存在可根據調查的結果推斷總體非概率抽樣不是依據隨機原則抽選樣本樣本統計量的分佈是不確定的無法使用樣本的結果推斷總體三、數據的誤差抽樣誤差---(samplingerror)由於抽樣的隨機性所帶來的誤差所有樣本可能的結果與總體真值之間的平均性差異影響抽樣誤差的大小的因素樣本量的大小總體的變異性非抽樣誤差---(non-samplingerror)相對抽樣誤差而言除抽樣誤差之外的,由於其他原因造成的樣本觀察結果與總體真值之間的差異存在於所有的調查之中概率抽樣,非概率抽樣,全面性調查有抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制調查員的挑選調查員的培訓督導員的調查專業水準調查過程控制調查結果進行檢驗、評估現場調查人員進行獎懲的制度統計數據的品質要求1.精
度:最低的抽樣誤差或隨機誤差2.准確性:最小的非抽樣誤差或偏差3.關聯性:滿足用戶決策、管理和研究的需要4.及時性:在最短的時間裏取得並公佈數據5.一致性:保持時間序列的可比性6.最低成本:以最經濟的方式取得數據思考題什麼是統計調查?一個完整的統計調查方案應該包括哪些基本內容?設計統計調查問卷應主要考慮哪幾個方面?常用的統計調查方式主要有哪些?各有何應用?什麼是二手資料?應注意什麼問題?什麼情況下適合採用非概率抽樣?如何控制調查中的回答誤差?第3章統計數據整理與顯示§3.1
統計整理概述§3.2
分類和順序數據的整理與顯示§3.3
數值型數據的整理與顯示§3.4統計表學習目標瞭解數據預處理的內容和目的掌握分類和順序數據的整理與顯示方法掌握數值型數據的整理與顯示方法用Excel作頻數分佈表和形圖合理使用統計表§3.1統計整理概述一、統計整理的概念和程式統計整理:根據統計研究目的,對搜集到的資料進行科學加工,使之系統化、條理化的工作過程。是實現從個體單位標誌值過渡到總體數量特徵值的必經階段。程式:統計整理方案、統計資料審核、統計分組與匯總、編制統計表、積累和保管統計資料匯總的方法:手工匯總和電腦匯總手工匯總:劃記法、過錄法、折疊法、卡片法電腦匯總:編制程式、數據編碼、數據錄入、數據運算、數據的儲存和列印二、統計分組統計分組的原則:正確選擇分組標誌正確劃分各組界限統計分組的種類及其方法按分組標誌性質:品質標誌分組和數量標誌分組按分組標誌多少:簡單分組、並列分組、複合分組二、數據的預處理數據的審核檢查數據中的錯誤數據的篩選找出符合條件的數據數據排序昇冪和降序尋找數據的基本特徵(一)數據審核—原始數據(rawdata)
審核的內容完整性審核檢查應調查的單位或個體是否有遺漏所有的調查專案或指標是否填寫齊全準確性審核檢查數據是否真實反映客觀實際,內容是否符合實際檢查數據是否有錯誤,計算是否正確等數據審核—原始數據(rawdata)
審核數據準確性的方法邏輯檢查從定性角度,審核數據是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象主要用於對分類和順序據的審核計算檢查檢查調查表中的各項數據在計算結果和計算方法上有無錯誤主要用於對數值型數據的審核適用性審核弄清楚數據的來源、數據的口徑以及有關的背景材料確定數據是否符合自己分析研究的需要時效性審核盡可能使用最新的數據確認是否必要做進一步的加工整理數據審核—二手數據(secondhanddata)(二)數據篩選與排序(datafilter
)當數據中的錯誤不能予以糾正,或者有些數據不符合調查要求而又無法彌補時,需要對數據進行篩選數據篩選的內容包括將某些不符合要求的數據或有明顯錯誤的數據予以剔除將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔除數據篩選(datafilter)
用Excel進行數據篩選8名學生的考試成績數據
數據排序(datarank)按一定順序將數據排列,以發現一些明顯的特徵或趨勢,找到解決問題的線索排序有助於對數據檢查糾錯,以及為重新歸類或分組等提供依據在某些場合,排序本身就是分析的目的之一排序可借助於電腦完成數據排序(方法)分類數據的排序字母型數據,有昇冪降序之分,習慣用昇冪漢字型數據,可按漢字首位拼音字母或按筆劃排序,其中也有筆劃多少的昇冪降序之分數值型數據的排序遞增排序:設一組數據為x1,x2,…,xn,遞增排序後可表示為:x(1)<x(2)<…<x(n)遞減排序:可表示為:x(1)>x(2)>…>x(n)§3.2分類和順序數據的整理與顯示一.分類數據的整理與顯示二.順序數據的整理與顯示數據的整理與顯示(基本問題)要弄清所面對的數據類型,因為不同類型的數據,所採取的處理方式和方法是不同的對分類數據和順序數據主要是做分類整理對數值型數據則主要是做分組整理適合於低層次數據的整理和顯示方法也適合於高層次的數據;但適合於高層次數據的整理和顯示方法並不適合於低層次的數據分類數據的整理與圖示分類數據的整理(基本過程)1.列出各類別
2.
計算各類別的頻數3.
製作頻數分佈表4.
用圖形顯示數據分類頻數比例百分比比率ABCDE分類數據的整理
(可計算的統計量)頻數(frequency):落在各類別中的數據個數比例(proportion):某一類別數據占全部數據的比值百分比(percentage):將對比的基數作為100而計算的比值比率(ratio):不同類別數值的比值分類數據整理—頻數分佈表
(例題分析)【例】一家市場調查公司為研究不同品牌飲料的市場佔有率,對隨機抽取的一家超市進行了調查。調查員在某天對50名顧客購買飲料的品牌進行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次。右邊就是記錄的原始數據綠色健康飲品用Excel製作頻數分佈表分類數據的圖示—條形圖(barChart)
用寬度相同的條形的高度或長短來表示各類別數據的圖形有單式條形圖、複式條形圖等形式主要用於反映分類數據的頻數分佈繪製時,各類別可以放在縱軸,稱為條形圖,也可以放在橫軸,稱為柱形圖分類數據的圖示—條形圖
(例題分析)分類數據的圖示—餅圖(pieChart)也稱圓形圖,是用圓形及圓內扇形的角度來表示數值大小的圖形主要用於表示總體或樣本中各組成部分所占的比例,對於研究結構性問題十分有用繪製圓形圖時,總體中各部分所占的百分比用園內的各個扇形角度表示,這些扇形的中心角度,是按各部分數據百分比占3600的相應比例確定的分類數據的圖示—餅圖
(例題分析)順序數據的整理與圖示順序數據的整理(可計算的指標)1.累積頻數(cumulativefrequencies):各類別頻數的逐級累加累積頻率(cumulativepercentages):各類別頻率(百分比)的逐級累加
順序數據的頻數分佈表
(例題分析)【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調查300戶,其中一個問題是:“您對您家庭目前的住房狀況是否滿意?1.非常不滿意;2.不滿意;3.一般;4.滿意;5.非常滿意。甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合計300100.0————順序數據的頻數分佈表
(例題分析)乙城市家庭對住房狀況評價的頻數分佈回答類別乙城市戶數(戶)百分比(%)向上累積向下累積戶數(戶)百分比(%)戶數(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合計300100.0————順序數據的圖示—累計頻數分佈圖
(例題分析)243001322252700100200300400
非常不滿意
不滿意
一般
滿意
非常滿意累積戶數(戶)(a)向上累積27616830300750100200300400
非常不滿意
不滿意
一般
滿意
非常滿意累積戶數(戶)(b)向上累積甲城市家庭對住房狀況評價的累積頻數分佈環形圖
(annularchart)環形圖中間有一個“空洞”,總體中的每一部分數據用環中的一段表示環形圖與圓形圖類似,但又有區別圓形圖只能顯示一個總體各部分所占的比例環形圖則可以同時繪製多個總體的數據系列,每一個總體的數據系列為一個環環形圖可用於結構比較研究環形圖主要用於展示分類和順序數據環形圖
(例題分析)8%36%31%15%7%33%26%21%13%10%
非常不滿意
不滿意
一般
滿意
非常滿意
甲乙兩城市家庭對住房狀況的評價§3.3數值型數據的整理與顯示一.數據分組二.數值型數據的圖示分組方法分組方法等距分組異距分組單變數值分組組距分組單變數值分組
(要點)1.
將一個變數值作為一組2.
適合於離散變數3.
適合於變數值較少的情況
組距分組
(要點)將變數值的一個區間作為一組適合於連續變數適合於變數值較多的情況需要遵循“不重不漏”的原則可採用等距分組,也可採用不等距分組~~~~~組距分組
(步驟)確定組數:組數的確定應以能夠顯示數據的分佈特徵和規律為目的。在實際分組時,可以按Sturges
提出的經驗公式來確定組數K確定組距:組距(ClassWidth)是一個組的上限與下限之差,可根據全部數據的最大值和最小值及所分的組數來確定,即
組距=(最大值-最小值)÷組數
統計出各組的頻數並整理成頻數分佈表組距分組
(幾個概念)1.
下限(lowlimit):一個組的最小值2.
上限(upperlimit):一個組的最大值3.
組距(classwidth)
:上限與下限之差4.
組中值(classmidpoint)
:下限與上限之間的中點值下限值+上限值2組中值=頻數分佈表的編制
(例題分析)【例】某電腦公司2002年前四個月各天的銷售量數據(單位:臺)。試對數據進行分組。
頻數分佈表的編制
(步驟)確定組數:根據
Sturges
提出的經驗公式得組數K為:確定各組的組距:
組距=(237-141)÷10=9.6
10用Excel製作頻數分佈表
等距分組表
(上下組限重疊)等距分組表
(上下組限間斷)等距分組表
(使用開口組)組距分組與不等距分組
(在表現頻數分佈上的差異)等距分組各組頻數的分佈不受組距大小的影響可直接根據絕對頻數來觀察頻數分佈的特徵不等距分組各組頻數的分佈受組距大小不同的影響各組絕對頻數的多少不能反映頻數分佈的實際狀況需要用頻數密度(頻數密度=頻數/組距)反映頻數分佈的實際狀況數值型數據的圖示Excel
分組數據—直方圖和折線圖分組數據—直方圖
(histogram)用矩形的寬度和高度來表示頻數分佈的圖形,實際上是用矩形的面積來表示各組的頻數分佈在直角坐標中,用橫軸表示數據分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖直方圖下的總面積等於1分組數據的圖示
(直方圖的繪製)140150210直方圖下的面積之和等於1某電腦公司銷售量分佈的直方圖我一眼就看出來了,銷售量在170~180之間的天數最多!190200180160170頻數(天)25201510530220230240分組數據—直方圖
(直方圖與條形圖的區別)條形圖是用條形的長度(橫置時)表示各類別頻數的多少,其寬度(表示類別)則是固定的直方圖是用面積表示各組頻數的多少,矩形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其高度與寬度均有意義直方圖的各矩形通常是連續排列,條形圖則是分開排列條形圖主要用於展示分類數據,直方圖則主要用於展示數值型數據分組數據—折線圖
(frequencypolygon)折線圖也稱頻數多邊形圖是在直方圖的基礎上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數一半的位置)連接到橫軸,最後一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數分佈是一致的分組數據的圖示
(折線圖的繪製)折線圖與直方圖下的面積相等!140150210某電腦公司銷售量分佈的折線圖190200180160170220230240頻數(天)25201510530數值型數據的圖示STATISTICA
未分組數據—莖葉圖和箱線圖未分組數據—莖葉圖
(stem-and-leafdisplay)用於顯示未分組的原始數據的分佈由“莖”和“葉”兩部分構成,其圖形是由數字組成的以該組數據的高位數值作樹莖,低位數字作樹葉樹葉上只保留一位數字對於n(20
n
300)個數據,莖葉圖最大行數不超過
L=[10×lg(n)]
6.
莖葉圖類似於橫置的直方圖,但又有區別直方圖可觀察一組數據的分佈狀況,但沒有給出具體的數值莖葉圖既能給出數據的分佈狀況,又能給出每一個原始數值,保留了原始數據的資訊未分組數據—莖葉圖
(例題分析)未分組數據—莖葉圖
(擴展的莖葉圖)未分組數據—箱線圖
(boxplot)用於顯示未分組的原始數據的分佈箱線圖由一組數據的5個特徵值繪製而成,它由一個箱子和兩條線段組成其繪製方法是:首先找出一組數據的5個特徵值,即最大值、最小值、中位數Me
和兩個四分位數(下四分位數QL和上四分位數QU)連接兩個四分(位)數畫出箱子,再將兩個極值點與箱子相連接未分組數據—單批數據箱線圖
(箱線圖的構成)中位數4681012QUQLX最大值X最小值簡單箱線圖未分組數據—單批數據箱線圖
(例題分析)最小值141最大值237中位數182下四分位數170.25上四分位數197140150160170180190200210220230240某電腦公司銷售量數據的箱線圖分佈的形狀與箱線圖
對稱分佈QL中位數
QU左偏分佈QL中位數QU右偏分佈QL
中位數
QU不同分佈的箱線圖未分組數據—多批數據箱線圖
(例題分析)【例】
從某大學經濟管理專業二年級學生中隨機抽取11人,對8門主要課程的考試成績進行調查,所得結果如表。試繪製各科考試成績的批比較箱線圖,並分析各科考試成績的分佈特徵11名學生各科的考試成績數據課程名稱學生編號1234567891011英語經濟數學西方經濟學市場行銷學財務管理基礎會計學統計學電腦應用基礎76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數據—多批數據箱線圖
(例題分析)8門課程考試成績的箱線圖11名學生8門課程考試成績的箱線圖Min-Max25%-75%Medianvalue455565758595105學生1學生2學生3學生4學生5學生6學生7學生8學生9學生10學生11未分組數據—多批數據箱線圖
(例題分析)數值型數據的圖示
時間序列數據—線圖Excel時間序列數據—線圖
(lineplot)
繪製線圖時應注意以下幾點時間一般繪在橫軸,指標數據繪在縱軸圖形的長寬比例要適當,其長寬比例大致為10:7一般情況下,縱軸數據下端應從“0”開始,以便於比較。數據與“0”之間的間距過大時,可以採取折斷的符號將縱軸折斷時間序列數據—線圖
(例題分析)【例】已知1991~2000年我國城鄉居民家庭的人均收入數據如表。試繪製線圖¥
$
1991~2000年城鄉居民家庭人均收入年份城鎮居民農村居民19911992199319941995199619971998199920001700.62026.62577.43496.24283.04838.95160.35425.15854.06280.0708.6784.0921.61221.01577.71926.12091.12162.02210.32254.4時間序列數據—線圖
(例題分析)數值型數據的圖示
多變量數據—雷達圖Excel顯示多個變數的圖示方法在顯示或對比各變數的數值總和時十分有用假定各變數的取值具有相同的正負號,總的絕對值與圖形所圍成的區域成正比可用於研究多個樣本之間的相似程度多變量數據—雷達圖
(radarchart)
設有n組樣本S1,S2,…Sn,每個樣本測得P個變數X1,X2,Xp,要繪製這P個變數的雷達圖,其具體做法是多變量數據—雷達圖
(雷達圖的製作)
先做一個圓,然後將圓P等分,得到P個點,令這P個點分別對應P個變數,在將這P個點與圓心連線,得到P個幅射狀的半徑,這P個半徑分別作為P個變數的坐標軸,每個變數值的大小由半徑上的點到圓心的距離表示再將同一樣本的值在P個座標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖多變量數據—雷達圖
(例題分析)【例】2000年我國城鄉居民家庭平均每人各項生活消費支出構成數據如表。試繪製雷達圖。今天的主食是麵包2000年城鄉居民家庭平均每人生活消費支出構成(%)項目城鎮居民農村居民食品衣著家庭設備用品及服務醫療保健交通通訊娛樂教育文化服務居住雜項商品與服務39.1810.018.796.367.9012.5610.015.1749.305.754.525.245.5811.1815.473.14多變量數據—雷達圖
(例題分析)數據類型及圖示
(小結)頻數分佈的類型頻數分佈的類型對稱分佈右偏分佈左偏分佈正J型分佈反J型分佈U型分佈幾種常見的頻數分佈§3.4統計表一.統計表的構成二.統計表的設計統計表的結構1999~2000年城鎮居民家庭抽樣調查資料專案單位1999年2000年
調查戶數平均每戶家庭人口平均每戶就業人口平均每戶就業面平均一就業者負擔人數平均每人全部年收入#可支配收入平均每人消費性支出戶人人%元元元元
400443.141.7756.431.775888.775854.024615.91
4222.03.131.6853.671.866316.816279.984998.00資料來源:《中國統計年鑒2001》,中國統計出版社,2001,第305頁。注:本表為城市和縣城的城鎮居民家庭抽樣調查材料。
行標題列標題數字資料表頭附加合理安排統計表的結構總標題內容應滿足3W
要求數據計量單位相同時,可放在表的右上角標明,不同時應放在每個指標後或單列出一列標明表中的上下兩條橫線一般用粗線,其他線用細線通常情況下,統計表的左右兩邊不封口表中的數據一般是右對齊,有小數點時應以小數點對齊,而且小數點的位數應統一對於沒有數字的表格單元,一般用“—”表示必要時可在表的下方加上注釋統計表的設計統計表的設計
(比較與選用)統計表的設計
(比較與選用)統計表的設計
(比較與選用)本章小結數據預處理的內容和目的分類和順序數據的整理與顯示方法數值型數據的整理與顯示方法合理使用統計表用Excel作頻數分佈表和圖形第4章綜合指標分析法(數據分佈特徵的測度)第一節綜合指標概述一、綜合指標的種類總量指標:反映社會經濟現象總體總量和規模的綜合指標相對指標:兩個有聯繫的統計指標相比較的結果,反映現象總體的結構和比例。平均指標:反映總體各單位某一數量標誌一般水準綜合指標變異指標:從總體各單位標誌值的差異程度和離散程度反映總體各單位的分佈特徵,包括極差、平均差、標準差和變異係數等二、總量指標的計算與應用總量指標的作用反映一個國家國情、國力,反映一個地區或一個單位經濟實力的基本指標;經濟管理中制定政策和計畫,進行宏觀經濟調控和企業經濟核算與分析的基礎。總量指標的分類按反映總體的內容:總量單位總量和總體標誌總量按反映總體的時間狀況:時期指標和時點指標按計量單位:實物指標、價值指標和勞動量指標總量指標的計算總量指標的計算注意現象的同類性必須明確每項總量指標的統計涵義必須做到計量單位的一致性總量指標的計量單位:實物單位:自然單位、度量衡單位、雙重或多重單位、複合單位貨幣單位勞動單位4.我國國民經濟的主要總量指標社會總產品:指一個國家或地區在一定時期內全部生產活動的總成果,包括兩大部門產品之總和:社會總產值和服務總值。增加值:企業或部門在一定時期內從事生產經營活動所增加價值,等於總產值減去中間投入後的餘額。國內生產總值:是一個國家或地區所有常住單位在一定時期內生產活動的最終成果。(生產法、收入法、支出法)增加值=固定資產折舊+勞動者報酬+生產稅淨額+營業盈餘國內生產總值=最終消費+資本形成總額+淨出口GNP=GDP+生產序號金額使用序號金額一、總產出1178645一、總支出8178645二、中間投入2110760二、中間使用9110760三、國內生產總值1.固定資產折舊2.勞動者報酬3.生產稅盈餘4.營業盈餘3456767885950437337746713577三\國內生產總值1.最終消費
(1)居民消費
(2)政府消費2.資本形成總額
(1)固定資本形成總額
(2)存貨增加3.出口4.進口5.統計誤差101112131415161718196788540004321527852268672333635311588614872注:該表參見<國民經濟核算基礎>,中國統計出版社(2001.7)三、相對指標的計算和應用相對指標的作用和表現形式反映總體的結構、比例、速度和密度等內部特徵百分數、係數(倍數)、千分數、成數等相對指標的種類和計算方法1.計畫完成相對指標=實際完成水準計畫任務水準某企業生產某產品,本年度計畫單位成本降低6%,實際降低7.6%,則成本降低率計畫完成相對數是?計畫執行進度=累計完成數
全期計畫數企業全年計畫總產值截止到第三季度的累計實際完成產值截止到第三季度對全年計畫執行進度(1)(2)(3)甲乙丙6000400010004590298068076.574.568.0合計11000825075.0計畫完成度=5年計畫末年實際達到的水準
5年計畫規定的末年水準某產品計畫規定第5年產量56萬噸,實際第5年產量63萬噸,則5年計畫完成度為112.5%,問提前多少時間完成計畫?
月份123456789101112合計第4年3.53.543.843.844555449.6第5年44455556666763
4*X+51+6(31-X)3131
2.結構相對指標=總體部分數值總體全部數值3.比例相對指標4.比較相對指標5.動態相對指標=報告期水準
基期水準6.強度相對指標2001年末我國總人口為127627萬人,則人口密度為?某城市人口200萬人,有零售商業機構1000個,則商業網點密度的正指標商業網點密度的逆指標四、平均指標五、標誌變動度第二節數據分佈特徵的測度集中趨勢的測度離散程度的測度偏態與峰態的測度學習目標1. 集中趨勢各測度值的計算方法2. 集中趨勢各測度值的特點及應用場合3. 離散程度各測度值的計算方法4. 離散程度各測度值的特點及應用場合偏態與峰態的測度方法用Excel計算描述統計量並進行分析數據分佈的特徵集中趨勢
(位置)偏態和峰態(形狀)離中趨勢
(分散程度)數據分佈特徵的測度數據特徵的測度分佈的形狀集中趨勢離散程度眾數中位數均值離散係數方差和標準差峰態四分位差異眾比率偏態集中趨勢的測度一.分類數據:眾數二.順序數據:中位數和分位數三.數值型數據:均值四.眾數、中位數和均值的比較集中趨勢
(Centraltendency)一組數據向其中心值靠近的傾向和程度測度集中趨勢就是尋找數據水準的代表值或中心值不同類型的數據用不同的集中趨勢測度值低層次數據的測度值適用於高層次的測量數據,但高層次數據的測度值並不適用於低層次的測量數據分類數據----眾數(mode)出現次數最多的變數值不受極端值的影響一組數據可能沒有眾數或有幾個眾數主要用於分類數據,也可用於順序數據和數值型數據眾數
(不唯一性)無眾數
原始數據:10591268一個眾數
原始數據:65
9855多於一個眾數
原始數據:252828
364242分類數據的眾數
(例題分析)不同品牌飲料的頻數分佈
飲料品牌頻數比例百分比(%)可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計501100解:這裏的變數為“飲料品牌”,這是個分類變數,不同類型的飲料就是變數值在所調查的50人中,購買可口可樂的人數最多,為15人,占總被調查人數的30%,因此眾數為“可口可樂”這一品牌,即
Mo=可口可樂順序數據的眾數
(例題分析)解:這裏的數據為順序數據。變數為“回答類別”甲城市中對住房表示不滿意的戶數最多,為108戶,因此眾數為“不滿意”這一類別,即
Mo=不滿意甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)百分比(%)
非常不滿意
不滿意
一般
滿意
非常滿意24108934530836311510合計300100.0順序數據:中位數和分位數中位數
(median)排序後處於中間位置上的值Me50%50%不受極端值的影響主要用於順序數據,也可用數值型數據,但不能用於分類數據各變數值與中位數的離差絕對值之和最小,即中位數
(位置的確定)原始數據:順序數據:順序數據的中位數
(例題分析)解:中位數的位置為300/2=150
從累計頻數看,中位數在“一般”這一組別中。因此
Me=一般甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)累計頻數
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—數值型數據的中位數
(9個數據的算例)【例】:9個家庭的人均月收入數據原始數據:
15007507801080850960200012501630排
序:
750780850960
1080
1250150016302000位置:1234
5
6789中位數
1080
數值型數據的中位數
(10個數據的算例)【例】:10個家庭的人均月收入數據排
序:
660
75078085096010801250150016302000位置:1234
5678910
四分位數
(quartile)排序後處於25%和75%位置上的值不受極端值的影響主要用於順序數據,也可用於數值型數據,但不能用於分類數據QLQMQU25%25%25%25%四分位數
(位置的確定)原始數據:順序數據:順序數據的四分位數
(例題分析)解:QL位置=(300)/4=75QU位置=(3×300)/4
=225
從累計頻數看,QL在“不滿意”這一組別中;QU在“一般”這一組別中。因此
QL
=不滿意
QU
=一般甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)累計頻數
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—數值型數據的四分位數
(9個數據的算例)【例】:9個家庭的人均月收入數據原始數據:
15007507801080850960200012501630排
序:
75078085096010801250150016302000位置:123456
7
8
9
數值型數據的四分位數
(10個數據的算例)【例】:10個家庭的人均月收入數據排
序:
660
75078085096010801250150016302000位置:1234
5678
9
10
數值型數據:均值
(mean)集中趨勢的最常用測度值一組數據的均衡點所在體現了數據的必然性特徵易受極端值的影響用於數值型數據,不能用於分類數據和順序數據簡單均值與加權均值
(simplemean/weightedmean)設一組數據為:x1,x2,…,xn各組的組中值為:M1,M2,…,Mk
相應的頻數為:f1,f2,…,fk簡單均值加權均值已改至此!!某電腦公司銷售量數據分組表按銷售量分組組中值(Mi)頻數(fi)Mi
fi
140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計—12022200加權均值
(例題分析)加權均值
(權數對均值的影響)
甲乙兩組各有10名學生,他們的考試成績及其分佈數據如下
甲組:
考試成績(x): 020100
人數分佈(f):118
乙組:考試成績(x): 020100
人數分佈(f):811均值
(數學性質)1. 各變數值與均值的離差之和等於零
2.各變數值與均值的離差平方和最小某企業工人日產量的算術平均數簡捷演算法按日產量分組工人人數f組中值X
X-X010X-X0f1060以下60-7070-8080-9090-100100-110110以上10195036271485565758595105115-3-2-10123-30-38-500272824164-39調和平均數
(harmonicmean)均值的另一種表現形式易受極端值的影響計算公式為原來只是計算時使用了不同的數據!調和平均數
(例題分析)某日三種蔬菜的批發成交數據蔬菜名稱批發價格(元)
Mi成交額(元)Mifi成交量(公斤)fi甲乙丙1.200.500.801800012500640015000250008000合計—3690048000【例】某蔬菜批發市場三種蔬菜的日成交數據如表,計算三種蔬菜該日的平均批發價格已知某商品在三個集市貿易市場上的平均價格及銷售量資料如下:市場平均價格(元/千克)X銷售量(千克)f銷售額(元)Xf
(m)MX甲乙丙2.002.502.40300002000025000600005000060000合計----75000170000由相對數計算平均數時調和平均數的應用工廠計畫完成度(%)X計畫產值(萬元)fXf實際產值(萬元)mMX甲乙丙9510511512001280020001140134402300合計----1600016880幾何平均數
(geometricmean)
n個變數值乘積的
n次方根適用於對比率數據的平均主要用於計算平均增長率計算公式為5.可看作是均值的一種變形幾何平均數
(例題分析)【例】某水泥生產企業1999年的水泥產量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率。年平均增長率=114.91%-1=14.91%幾何平均數
(例題分析)【例】一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率算術平均:
幾何平均:眾數、中位數和均值的關係左偏分佈均值
中位數
眾數對稱分佈
均值=中位數=
眾數右偏分佈眾數
中位數均值眾數、中位數和均值的特點和應用眾數不受極端值影響具有不唯一性數據分佈偏斜程度較大時應用中位數不受極端值影響數據分佈偏斜程度較大時應用均值易受極端值影響數學性質優良數據對稱分佈或接近對稱分佈時應用數據類型與集中趨勢測度值數據類型和所適用的集中趨勢測度值數據類型分類數據順序數據間隔數據比率數據適用的測度值※眾數※中位數※均值※均值—四分位數眾數調和平均數—眾數中位數幾何平均數——四分位數
中位數———四分位數———眾數§4.3離散程度的測度分類數據:異眾比率順序數據:四分位差數值型數據:方差及標準差相對位置的測量:標準分數相對離散程度:離散係數數據的特徵和測度
(本節位置)數據的特徵和測度分佈的形狀離散程度集中趨勢眾數中位數均值離散係數方差和標準差峰度四分位差異眾比率偏態離中趨勢數據分佈的另一個重要特徵反映各變數值遠離其中心值的程度(離散程度)從另一個側面說明了集中趨勢測度值的代表程度不同類型的數據有不同的離散程度測度值異眾比率
(variationratio)1. 對分類數據離散程度的測度2. 非眾數組的頻數占總頻數的比率3. 計算公式為
4.用於衡量眾數的代表性異眾比率
(例題分析)解:
在所調查的50人當中,購買其他品牌飲料的人數占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好不同品牌飲料的頻數分佈
飲料品牌頻數比例百分比(%)
可口可樂
旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計501100四分位差
(quartiledeviation)對順序數據離散程度的測度也稱為內距或四分間距上四分位數與下四分位數之差
QD
=QU–QL反映了中間50%數據的離散程度不受極端值的影響用於衡量中位數的代表性四分位差
(例題分析)解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5
已知
QL=不滿意=2
QU=
一般=
3四分位差:
QD
=QU
=
QL
=3–2
=1甲城市家庭對住房狀況評價的頻數分佈回答類別甲城市戶數(戶)累計頻數
非常不滿意
不滿意
一般
滿意
非常滿意2410893453024132225270300合計300—極差(全距)
(range)一組數據的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數據的分佈7891078910
R
=max(xi)-min(xi)計算公式為平均差
(meandeviation)各變數值與其均值離差絕對值的平均數能全面反映一組數據的離散程度數學性質較差,實際中應用較少計算公式為未分組數據組距分組數據平均差
(例題分析)某電腦公司銷售量數據平均差計算表按銷售量分組組中值(Mi)頻數(fi)140—150150—160160—170170—180180—190190—200200—210210—220220—230230—24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—2040平均差
(例題分析)
含義:每一天的銷售量平均數相比,平均相差17臺方差和標準差
\(varianceandstandarddeviation)數據離散程度的最常用測度值反映了各變數值與均值的平均差異根據總體數據計算的,稱為總體方差或標準差;根據樣本數據計算的,稱為樣本方差或標準差4681012
x=8.3樣本方差和標準差
(simplevarianceandstandarddeviation)未分組數據:組距分組數據:未分組數據:組距分組數據:方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!樣本方差
自由度(degreeoffreedom)一組數據中可以自由取值的數據的個數當樣本數據的個數為
n
時,若樣本均值
x
確定後,只有n-1個數據可以自由取值,其中必有一個數據則不能自由取值例如,樣本有3個數值,即x1=2,x2=4,x3=9,則
x=5。當
x
=5
確定後,x1,x2和x3有兩個數據可以自由取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 纳米材料吸附锂离子-洞察与解读
- 湖北2025自考行政管理行政法与行政诉讼法一易错题专练
- 金融量化考试试题及答案
- 贵州2025自考电子商务与现代物流简答题专练
- 云南2025自考区域国别学比较政治学主观题专练
- 江苏2025自考人力资源管理人员素质测评理论与方法客观题专练
- 广东2025自考电子商务网络经济与企业管理主观题专练
- 城市韧性评估模型与智能城市规划的融合发展
- 城市更新中的信息化技术与智能管理
- 大冶中考地理题库及答案
- 新闻文体的翻译课件
- 学业质量标准
- 判断中药质量变异现象及防治
- 有机化合物的分类
- 胃癌的影像学诊断
- 新疆维吾尔自治区国家级公益林管护办法
- JJF 1915-2021倾角仪校准规范
- GB/T 15382-2021气瓶阀通用技术要求
- 零星工程维修合同
- 传染病布氏菌病 课件
- 初始过程能力研究报告-PPK
评论
0/150
提交评论