对於统计学的看法与小故事范例_第1页
对於统计学的看法与小故事范例_第2页
对於统计学的看法与小故事范例_第3页
对於统计学的看法与小故事范例_第4页
对於统计学的看法与小故事范例_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1班級:閩廣3班級:閩廣3學號:A4522594姓名:林敏指導老師:陶聖屏對於統計學的看法與小故事範例

對於統計學的看法與小故事範例 2目錄1、我對於統計學的初步認識⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯32、小故事之一⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯43、小故事之二⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯64、小故事之三⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯75、小故事之四⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯86、小故事之五⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯97、學習心得⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11 3我對於統計學的初步認識統計學是在資料分析的基礎上,自17世紀中葉產生並逐步發展起來的一門學科。它是研究如何測定、收集、整理、歸納和分析反映資料資料,以便給出正確訊息的科學。谷歌給出的解釋太書面太拗口太籠統不好記憶與理解。在我看來,統計學如字面所說,是一門有關“統計”的學科,是一種讓問題更快找到答案的輔助方法,運用的好可以輕鬆的事半功倍。當然這只是我初步的淺薄認識。目前統計廣泛地應用在各門學科,從自然科學、社會科學到人文學科,甚至被用來工商業及政府的情報決策之上。並且與資訊、計算等領域密切結合,是資料科學(DataScience)中的重要主軸之一。而關於統計學的歷史,我從網絡資料上了解到統計手法最早可以追溯至公元前5世紀。最早的統計著作來自公元9世紀的《密碼破譯》,由阿拉伯人肯迪編著。在書中,肯迪詳細記錄了如何使用統計資料和頻率分析進行密碼破譯。根據沙烏地阿拉伯工程師易卜拉欣·阿凱笛(IbrahimAl-Kadi)的說法,統計學和密碼學分析便如此一同誕生了。統計方法則包括實驗法、觀察法和實驗觀察法。統計研究中的共同目標是分析因果關係,具體來講就是從預估資料變化中得出結論,或是研究自變量與因變量之間的關係。方法概括起來很簡單,運用起來卻很靈活,書本知識的更好掌握需要更多的實踐。老師給我們上課理論知識會貫徹在實踐中來說,讓我們受益匪淺。統計學的範疇和延伸學科都很廣,在這裏就不一一舉例了。條形統計圖是最容易使用、最容易理解的圖表了,它可以用手或電腦繪製而成。[13]不巧的是,許多人忽視其中的偏差、誤差,因為他們不留意。因此,雖然圖表品質低劣,但人們常常願意去相信。統計資料時常被濫用,對結果的解釋時常有利於演講者。[10]對統計的懷疑與誤導可被稱為:「世上有三種謊言:謊言,該死的謊言,統計數字」。許多對統計的濫用可能出於無意,也可能出於故意。老師在上課時特意強調了這個問題,統計學運用的好,得出的研究成果讓人受益匪淺;但倘若有心引誘,亂出題,採取不嚴謹的態度,樣本的可靠性可以被偏差破壞,得出的結果也將會南轅北轍。统计学是一个枯燥的专业,我们要和大量的数据打交道,堆积如山的各式表格看了都让人害怕,更别说还要去整理和分析这一堆堆冷冰冰的数字了,不过,统计学又是一个有趣的专业,毕竟它是和生活紧密联系在一起的。 PAGE5統計學在與戰爭的故事(之一)二戰前期德國勢頭很猛,英國從敦刻爾克撤回到本島,德國每天不定期的對英國狂轟亂炸,後來英國空軍發展起來,雙方空戰不斷。為了能夠提高飛機的防護能力,英國的飛機設計師們決定給飛機增加護甲,但是設計師們並不清楚應該在什麼地方增加護甲,於是請來了統計學家。統計學家將每架中彈之後仍然安全返航的飛機的中彈部位描繪在一張圖上,然後將所PAGE4NUMPAGES11有中彈飛機的圖都疊放在一起,這樣就形成了濃密不同的彈孔分佈。工作完成了,然後統計學家說沒有彈孔的地方就是應該增加護甲的地方,因為這個部位中彈的飛機都沒能倖免於難。關於德國坦克,我們知道德國的坦克戰在二戰前期占了很多便宜,直到後來,蘇聯的坦克才能和德國坦克一拼高下,坦克作為德軍的主要戰力是盟軍非常希望獲得的重要情報,有很多盟軍特務的任務就是竊取德軍坦克總量情報,然而根據戰後所獲得的數據,真正對可靠的情報不是來源於盟軍特務,而是統計學家。統計學家做了什麼事情呢?這和德軍制造坦克的慣例有關,德軍坦克在出廠之後按生產的先後順序編號,1,2...N,正式因為這個傳統德軍送給了盟軍統計學家需要的數據。盟軍在戰爭中繳獲了德軍的一些坦克並且獲取了這些坦克的編號,現在統計學家需要在這些編號的基礎上估計N,也就是德軍的坦克總量。這其實均勻分佈邊界的估計,好吧公式是(1+1/繳獲德軍坦克的總量)*所有繳獲坦克中的最大編號。統計學在戰爭裏面的運用也讓我意識到了統計學的強大之處,通過統計存活的飛機上的彈孔,從而來分析被擊毀的飛機是因為哪個部分護甲不好而被擊落!很明顯,那些空白的部位就是需要加強護甲的地方,這兩個主要的地方就是機頭和機尾。但其實第一個故事我曾經有了解過,那個統計設計是後來美國為了大規模轟炸德國所設計的,因為英國的轟炸規模是有限的,而且是集中在民用建築上的。第二個故事也是蠻神奇,我終於知道為什麼我們中國解放軍的編號會那麼的複雜,什麼92315部隊、62962部隊,並不是真的有那麼多的部隊,而是出於資訊安全的考慮,才考慮那麼編號,畢竟德國坦克的前車之鑒放在那呢。上面兩則都是是一個統計試驗的例子,設計一個好的統計試驗還是很實用的。

但現在我的工作中會得到大量數據,總是感覺能有設計一些統計試驗揭示背後的什麼規律,但是就是想不出來。我現在一個不僅不知道怎麼設計試驗,而且連能得到什麼都不知道。但我相信這些數據一定是有用的,等以後的統計的繼續學習或許能解開。 PAGE7一次失敗的統計實驗(之二)霍桑效应(HawthorneEffect)或称霍索恩效应,起源于1924年至1933年间的一系列实验研究,在西方電器公司(WesternElectric)位於伊利諾州的霍桑工廠(HawthorneWorks),霍桑一词是美国西部电气公司座落在芝加哥的一间工厂的名称,是一座进行实验研究的工厂,進行心理學實驗,研究工作環境改變對生產率的影響。研究人員嘗試增強照明,觀察它是否有助於提高流水線工人的生產率。研究人員首先檢測了工廠的生產率,爾後改變車間的照明強度,觀察結果。結果是生產率在實驗環境下的確提升了。实验最开始研究的是工作条件与生产效率之间的关系,包括外部环境影响条件(如照明强度、湿度)以及心理影响因素(如休息间隔、团队压力、工作时间、管理者的领导力)。然而,該實驗因其流程誤差在今天飽受批評,特別是實驗缺乏參照組和雙盲。霍桑效應僅從觀測來得出結論。所谓“霍桑效应”,就是指那些意识到自己正在被别人观察的个人具有改变自己行为的倾向。該實驗中生產率的提升不是因為照明強度的改變,而是因為工人們發覺他們被圍觀了。就霍桑试验本身来看,当这六个女工被抽出来成为一组的时候,她们就意识到了自己是特殊的群体,是试验的对象,是这些专家一直关心的对象,这种受注意的感觉使得她们加倍努力工作,以证明自己是优秀的,是值得关注的。所以生產效率的提高只是因為霍桑效應,而不是與實驗有關的其他影響因素。這是一次失敗的統計實驗過程,因為沒有採取正確的方法而做誤判。從中我們可以學到,統計學是一門嚴謹的學科,我們在學習和實驗的過程中同樣也要採取嚴謹務實的態度來策劃執行一項實驗。否則結果會因為之前的一些誤差或錯誤導向而出現偏差乃至嚴重的錯誤。這是我們承受不起的。方法的運用和實驗的過程乃至各種變量都要經過細細的考量,要能保證最後出來的統計結果的最大精確度。統計與生活中的紅綠燈(之三)美國紐約是眾所周知的大都市,人車之多如過江之鯽,如何在每一街道上使汽車暢通無阻是一件非常不容易但是非常重要的事情.如果只過幾條街就需要開上一個多小時的話,那還得了,這個城市不就癱瘓了嗎

這一個難題也可以使用統計的方法來解決,也就是用它來控制紅綠燈,使這條街上在車子最少的時候出現紅燈,而另外一條街,卻在車子最多的時候出現綠燈,以利通行.經過一再的改進研究,如今以達到令人滿意的程度,車子一上路如第一個碰到的是紅燈,則再碰紅燈的機會就很小了!故事雖小,卻告訴我們統計與生活是息息相關的。我們應當能充分認識統計在生活中扮演的角色,並以統計的觀點來看待生活中的事務。可以說生活的每一個細節都是經過統計的原理來產生的結果。我們應該好好把握此次學習統計學的機會,將統計學應用到日常生活中去。 8拉普拉斯和《天體力學》(之四)有一個著名的故事:拉普拉斯把他寫的《天體力學》獻給拿破崙。《天體力學》是一本極具影響力的書,描述了如何根據地球上的觀測數據,來計算行星與彗星的位置。拿破崙看後說:“拉普拉斯先生,你寫了這本關於宇宙系統的書,卻根本沒有提到他的創造者——上帝”。據傳說,拉普拉斯回答道:“我不需要這個假設條件”。

拉普拉斯的《天體力學》雖不需要上帝,但它需要另一種東西,叫誤差函數。從地球上觀測行星與彗星的位置與預測值

並不完全吻合,拉普拉斯將其原因歸結為觀測誤差,包括隨機誤差和人為誤差,並都放入誤差函數中。當時的科學家都認為,隨著測量越來越精確,最後一定不再需要這項誤差函數。誰知,到19世紀末,隨著測量越來越精確,反而越來越測不准了。最終人們發現,這些誤差一方面是由於測量技術問題,另一方面是由於被測量的客體本身具有隨機性。機械式的宇宙觀開始動搖,一些企圖尋找生物學定律和社會學定律的努力也徒勞無功,甚至有些傳統學科領域,如物理學和化學當時所用的那些定律,也被認為僅僅是粗略的逼近。科學家從理論上和實踐上都充分證實了嚴格決定論對描述客觀現象的不適應性和不可歸結性。布朗運動、混沌動力學、量子力學、耗散結構都證明了經典決定論已逐漸向統計決定論轉移。人們的科學觀念發生了新的變化。自然和社會中不規則、不連續、不穩定、非平衡的領域不斷擴大,其中充滿了湧現、轉化、意外和機遇。科學探索也達到了這樣的境界:科學家對客觀事物的描述和預測的精度已不能通過改進操作技巧,提高測量的精密度加以改善,他們發現根本沒有可能發現嚴格的因果依賴性,可以找到的只是統計的因果規律。

這個故事告訴我們,統計的用處是很大的,儘管統計學的客觀基礎問題還在爭論不休,但統計已改變了世界,已成為科學與管理的工作母機,現在,誰也離不開統計了。統計也成為現代人基本素質的構成要素,成為我們世界觀的一個組成部分。所以我們應該重視統計學的學習,並在日後的生活中將其運用起來成為我們得心應手的工具。 PAGE9數據會說謊(之五)2008

年,在權威雜誌《英國皇家學會學報》上發表了一篇文章:《You

are

what

your

mother

eats:

evidence

for

maternal

preconception

diet

influencing

foetal

sex

in

humans》。研究人員就打算回答上面的問題。他們通過對

740

名女性進行分組研究,考察她們孕前、早孕期、中晚孕期的飲食情況對於胎兒性別的影響。研究人員對

133

種食物進行問卷調查研究,結果發現,懷孕前早飯吃更多燕麥的女性,更容易生男孩!而除了燕麥,調查的其他食物都和男女性別沒有明顯關聯。

這篇文章一發表,馬上引起廣泛關注。如此高的關注度,自然逃不過學術界的質疑。2009

年,同樣在《英國皇家學會學報》上,一篇針鋒相對的質疑文章發表出來:《Cereal-induced

gender

selection?

Most

likely

a

multiple

testing

false

positive》。提出質疑的,是三位統計學家:Stanley

Young,Heejung

Bang

Kutluk

Oktay。他們撇開實驗設計中的數據獲取的問題,比如回憶偏倚、測量誤差、精確測量的困難性等等,直接針對前一篇文章的統計學方法提出質疑。他們在對前一篇文章中提供的原始數據進行重新統計之後發現,那些數據其實全部沒有相關性,而所得出的“吃燕麥生男孩”的結論,其實只是一個偶然事件。

也就是說,之前研究的那

133

種食物,對於生男生女的影響都是隨機分佈的;但是在那一次研究的時候,恰好發現那一批研究對象吃了燕麥更容易生男孩,這純粹屬於偶然事件。那篇文章把一個偶然事件當做結論報導出來了。

問題就在統計方法上。2008

年那篇文章的統計方法用的還是

p

值,但是,Stanley

Young

他們指出,在做多重檢驗(multiple

testing)的時候,使用

p

值是不正確的,而應該用校正後的

p

值(ajusted

p-value),也就是要考察一個錯誤發現率(False

Discovery

Rate,FDR)。

我們在做統計研究的時候是有一定的“容錯率”的,而這種小概率事件在一次試驗中實際發生的機會其實微乎其微,於是我們認為結果是可信的。但是,當我們研究的因素多起來,對這些因素同時進行統計分析的時候,本來一個因素

1%

的出錯機會就被放大了。本來的小概率,當遇上更大的基數時,小概率事件就發生了!所以,就出現了上面提到的,雖然那

133

種食物的影響其實都是隨機的,但是當對他們進行研究時,竟然出現了一個“有意義”的結論。

這個故事中我明白,我們做的每一個判斷都是有可能出錯的,但是,我們希望經過我們的努力,使我們的判斷出錯的概率盡可能小。這還讓我想到大數據。現在是一個逢人必說大數據的時代,而且大數據確實給我們的觀念帶來巨大的衝擊。但是,大數據不牛逼,分析數據獲得資訊才更重要。因為有瑕疵的分析方法,就有可能會得出前面提到的“吃燕麥生男孩”的結論。

1988

年,Russell

Ackoff

提出了

DIKW

金字塔。這個金字塔的最底層是數據,而塔尖則是智慧。在從數據通往智慧的路上,是資訊和知識。所以,我們這個世界上不缺乏數據,缺乏的是通過合適的方法從數據中獲取資訊,進而從資訊中提煉知識,上升到智慧的能力。其實數據不會說謊,它們只是一些毫無意義的數字而已;但是當你對這些數字進行解讀,從獲取到分析,這個過程就可能出現問題,即使你的每個步驟都是合乎邏輯的。 PAGE11我的學習心得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论