34個讓你豁然開朗的統計學小故事 | 維持健康的好方法 - 2024年11月
34個讓你豁然開朗的統計學小故事
全美最幽默的斜槓統計學家!最打破框架的統計學入門!
別再誤會統計學!
☆幽默插圖與詼諧口吻,讓枯燥的統計學變得可愛又可口!
★丟掉繁瑣的數字計算,化繁為簡的說明統計重要觀念!
☆附有問題討論與解答,速效學習卻不馬虎喔!
Hey!怎麼還抱著笨重的統計學教課書?為什麼統計學讓你不快樂?
其實,學統計也可以很有趣、很生活但又很實在喔!
1.為什麼我條件不錯,卻單身到現在?
2.我應該嘗試醫生建議的新療法嗎?
3.為什麼會一直變胖,是不是漢堡吃太多?
4.總統大選的民調,有準嗎?
把你的人生困惑,統統交給不可思議的統計學吧!
本書採用詼諧的口吻書寫,打破統計學書總是艱澀的印象,巧妙的將統計學的各個重要觀念,以生活化的舉例切入,透過一個個小故事,讓觀念變得更親切好懂,輕鬆就能融會貫通。不僅有助於快速了解統計學的整體概念和基本原理,還能經由書中的精采多元的例子,見識統計學的神通廣大!獻給所有在統計學書堆中感到沮喪與懷疑的初學者,告訴你,統計學一點都不難,還能幫助你把世界看得更清晰!
好評推薦
♚哥倫比亞大學統計學教授強力推薦
「好懂、好讀又平易近人,讓我愛上這本書!」──安德魯‧格爾曼(Andrew Gelman)
♛亞馬遜書店讀者五顆星狂熱推薦♛
超愛作者講解統計學概念的方式,少數讓我想一讀再讀的好書!--Luke Duan
好棒的統計書,講解的「非常」好懂!尤其是對外行來說。--Logan Mitchell
無論你在使用、學習或教授統計學,你都應該來讀這本書。--Ercüment Yerlikaya
我很享受這本書,書中的舉例對了解和學習大有幫助--Kindle Customer
通常我是不給評價的,但這本讓我真的忍不住,這本書真的非常適合初學者,和那些除了學習統計研究方法之外,更想知道「為什麼」這麼做的人--Akinjeji Adewale
(僅節錄,人數眾多)
作者簡介
安德魯.維克斯(Andrew Vickers)
牛津大學臨床醫學博士,任職於美國紐約紀念斯隆.凱特琳癌症中心的生物統計與流行病學部門,專職研究方法。他活躍於許多癌症研究領域,包括外科手術結果、分子標記以及臨床試驗。他也進行統計方法的原創研究,特別是預測模型評鑑這方面。在寫這本書時。以他為主要作者或共同作者的科學論文,已經超過二百篇。
維克斯博士在統計教學這方面有著強烈的興趣。他是紀念斯隆.凱特琳癌症中心生物統計課程的課程領導者,並且在康乃爾醫學院教醫學系學生生物統計。維克斯博士目前與其家人定居於紐約市布魯克林區。
譯者簡介
杜炳倫
杜炳倫(M.Ed., University of Idaho)為資深教師,美國愛達荷大學課程與教學碩士,美國田納西大學諾克斯維爾校區(University of Tennessee, Knoxville)應用教育心理學博士班。赴美留學期間,有幸於田納西大學校長講授獎學者暨美國教育研究協會主席—史凱樂.哈克博士(Dr. Schuyler Huck)門下學習。曾榮獲田納西大學教育‧健康‧人類科學學院,特拉維斯.霍克(Travis Hawk)學術傑出獎。其英文著作「百分位數與百分等級(Percentile and Percentile Rank)」被收錄於美國聖哲(Sage)出版商所發行的《測量與統計百科全書》(Encyclopedia of Measurement and Statistics)。中文著作有《上學的代價》,其長銷譯作《解讀統計與研究》,拯救了無數研究所學生,並且廣為兩岸四地各大學圖書館所收藏。經營的統計教學網站,資源豐富,無惑不解。平時喜好從事有益於身心健康的各項活動。
譯者網站:mypaper.pchome.com.tw/readingstatistic
序言:如何閱讀本書?
1 我告訴朋友,我的工作比他想像中的更有趣:統計學是什麼?
數據的描述
2 當比爾蓋茲走進一間小餐館:平均數與中位數
3 當比爾蓋茲再次回到小餐館:標準差與四分位距
4 偏斜的射門與誤判
5 你不可能擁有2.6個小孩:不同類型的數據
6 為何你的高中數學老師是對的:如何畫一張圖
數據的分配
7 梯盤棋與血清血紅素水平:常態分配的見解
8 如果常態分配如此常見,為何我的數據從來就不是?
9 但我喜歡那件毛衣:什麼程度的合身才算是「足夠」的合身?
研究結果的變動:信賴區間
10 長頭髮:中年大叔的標準誤差
11 怎麼避開雨天婚禮:變動與信賴區間
12 統計領帶,為什麼你不應該戴一條:進一步探討信賴區間
假設檢定
13 選一條騎車回家的路:p-值為我們做了什麼
14 乾牙刷的機率:p-值到底是什麼?
15 麥可喬丹將不會接受這個虛無假設:如何詮釋高p-值?
16 運動與生意之間的差別:t-檢定與威寇森檢定
17 與朋友們聚會:樣本數、精確度以及統計檢定力
迴歸與決策
18 何時拜訪芝加哥:關於線性與邏輯氏迴歸
19 我的助理今天是短髮造型:關於迴歸與混淆
20 我不理會孩子的咳嗽,我太太驚慌失措:關於特異性與敏感性
21 避開大特價:幫助你做決定的統計
一些常見的統計學錯誤,以及它們教我們什麼東西
22 比約翰湯米多一個:四個統計學錯誤,容易被忽略卻都很重要
23 剷除無用的p-值:一個統計檢定應該只回答一個科學問題
24 如何拍攝電視節目:不提供有意義數值的統計分析
25 93歲,體重700磅,美國佛羅里達州的超級老爹山姆:在迴歸分析裡兩個常見的錯誤
26 迴歸單身的麥克:一位條件不錯的朋友仍然單身的統計學解釋
27 OJ‧辛普森,莎莉‧克拉克,喬治與我:關於條件機率
28 男孩遇見女孩,女孩拒絕男孩,男孩開始多重檢定
29不曾發生在我身上的一些事情:你為什麼不應該比較p-值
30 如何贏得馬拉松比賽:測量隨時間發生的事物時要避免錯誤
31 劣質統計學與培根三明治之間的差異:統計有所謂的「使用規則」嗎?
32 檢視你的垃圾桶:從錯誤中學習
33 有意義的數值:連結數學與科學
34統計學與人們息息相關,即使你看不見眼淚
討論區答案
參考資料
索引
序
如何閱讀本書?
樂於從事別人似乎恨之入骨的事情,感覺真的很怪。我從一堆數字當中,梳理出有助於人們過得健康長壽的知識。然而,如果我告訴朋友們,統計學是我的熱愛,他們會奇怪地看著我,好像我有溝通障礙才會當個統計學宅男。
我認為,統計學被教授的方式,尤其是統計學教科書,使得大部分人們認為學習統計是一種虐待。統計學教科書很厚又很無聊,而且很貴。因此,我跟編輯建議我要寫一本很薄又很無聊又很貴的書。他考慮了一下,但最終決定我必須要有更好的點子。所以我是這樣想的:典型的統計學教科書(1)告訴你怎麼跑統計,而非如何了解它,(2)充斥著公式,以及(3)一點也不有趣。我想,是否我可以寫一些聚焦於(1)如何了解統計,(2)避免公式,以及(3)有趣的東西。
於是,我想到了要用說故事的方式,來寫這本書。聖經的第十誡有提到,「你不應該貪圖鄰居的房子、妻子、驢或牛。」但沒人會這樣對話。取而代之,人們會說「隔壁的草地比較綠。」假設你不知道「隔壁的草地比較綠」來自於一個古老的有關羊吃草的故事,故事是這樣的,羊兒們每天快樂地在自家草地吃著綠草。有一天牠們心血來潮,抬頭張望了一下,發現隔壁橋下靠近溪水的草地比較綠,於是就跑過去吃那邊的草。吃著吃著,牠們又抬頭張望了一下,覺得還是原來吃草的草地比較綠。於是,牠們就這樣來來回回地過橋吃草,總覺得隔壁的草地比較綠。我最後一次聽見這個故事是我還在幼稚園的時候,但我現在仍然記得它以及它的意義。十誡說的道理一點也沒錯,但很難記住,因為它只告訴你應該要做什麼,而非它的意義。我的意思是,說故事能幫助你了解事情的意義,所以終其一生都很難忘記。
本書各章就像故事一樣,讀起來簡短又有趣。本書的另一個特色──討論區,稍微嚴肅了一點。討論的題目非常多樣化,通常會有一個值得深思的問題,其他的題目可視為調劑學習之用。像是,討論關於數學常數e的起源。
如果你有一些統計基礎,大可隨意瀏覽本書。否則,你應該從頭讀到尾。前十二章涉及一些最基本的概念。例如:平均、變異、分配以及信賴區間。接著有幾章論及假設檢定與p-值。最後討論迴歸分析──這也是我在工作上最常使用的統計方法,以及決策──這通常是統計學應該扮演的角色,但卻往往不是。本書的最後三分之一內容,從「比約翰湯米多一個」這一章開始,專注於討論各種統計錯誤,因為我認為科學就是嘗試錯誤的學習。在教學時,我會給提出蠢答案的學生獎勵分數,因為我們往往能從這些回答上面學到東西。以p-值而言,只有在你看過其被誤用的方式以及思考為何會犯下這樣的錯誤之後,你才能夠真正了解p-值的意涵。最後這幾章,能真正地充實你的統計知識。
本書的能與不能
誠懇地希望,在讀完本書之後,你將能夠掌握許多統計的關鍵概念。我也希望你將能夠避免那些常犯的統計錯誤。
因為我並沒有在本書呈現任何統計公式,所以你並不能夠確實進行計算與分析。如果你想要為你的研究或課堂作業進行統計分析,你必須查閱有公式和分析步驟的傳統統計教科書。此外,本書也並不能如傳統教科書一般,有專文索引能提供你查閱忘記的東西。所以,如果你的目的是跑統計分析,本書不應該是你唯一購買的書籍(即使它很適合你買來贈送給親戚、朋友、同事、鄰居以及路人甲)。另一方面,如果你是那種不想親自進行任何統計計算與分析的人(這世界大多數人都是),但必須了解與詮釋你遇到的統計──這部分人比你想像的要多,那麼本書也許正是你所需要的。
研究設計的部分在哪裡
我是個設計導向的統計學者。舉例來說,缺失值在醫學研究裡是個大問題。統計學家已經提出許許多多處理缺失值的複雜統計技術。我個人的貢獻在於提出一個非常簡易的降低缺失值的方法,也就是在一開始時,電訪在家的病人並只問兩個問題以代替冗長的問卷。依照這個方法,我們把缺失值的百分比從25%降低至6%,那麼複雜的缺失值處理技術就顯得多餘了。
因此,你也許會訝異在本書中並沒有研究設計的段落。簡言之,這是因為我不認為研究設計可以獨立於統計之外並另闢章節。有專門的兩章分別介紹迴歸分析與威寇森(Wilcoxon)檢定,這是因為理論上,你可以分別操作它們。然而,你並不會認為,在進行迴歸分析或是威寇森檢定時,可以完全不考慮你在分析的研究設計。據此,我沒有特別寫一章討論研究設計。相反的,關於研究設計的評論已然交織於本書內容當中。
關於本書的故事與數據
當我開始寫作的時候,編輯告訴我說:「安德魯,我要你寫出一本,到目前為止,最有趣的統計教科書。」所以我是這麼想的:「太棒了,那麼我只需要寫下一則笑話就完成啦!」
的確,事情並不會如此簡單,但也並不是那麼遙不可及。從任何一點來看,本書的故事與數據都有助於你學習統計。這有時意謂著,簡化與修飾有益於理解。在一些案例裡,我模擬數據(統計術語「模擬」就是憑空捏造的意思)。我這麼做是因為我手上的數據過於複雜,可能會讓讀者無法專注於理解統計概念。此外,你也會對一直看見前列腺癌厭煩──這是我目前主要的研究工作。
因此,接下來的故事與數據並不會100%貼近事實。我並不認為這會有所誤導,但請不要用本書去診斷瑞典男性血球數(參看〈梯盤棋與血清血紅蛋白水平:常態分配的見解〉),前列腺癌(參看〈何時拜訪芝加哥:關於線性與邏吉斯迴歸〉),非洲裔美國人叫一輛計程車要多久時間(參看〈永遠不會發生在我身上的一些事情:你為什麼不應該比較p-值〉),或是我朋友麥克(參看〈迴歸單身的麥克:一位條件不錯的朋友仍然單身的統計解釋〉)。或甚至是否「恐嚇從善」計畫,有助於少年犯避免往後的犯罪生涯(參看〈乾牙刷的機率:p-值到底是什麼?〉):我說它並不奏效,但是不要照單全收我的話,你自己去查查看(www.cochrane.org)。畢竟本書之目的是在闡述統計,而非制定什麼打擊犯罪政策。
我確實為這本書分析數據並且毫無迴避地呈現我發現的結果。你應該能夠複製我的分析。大部分的原始數據在網路上都找得到,但是如果你找不到,請讓我知道,我將看看該如何幫助你。附帶一提,我使用費雪精確檢定。分析本書大部分的類目式數據。
我想要答謝普由(Pew)研究中心(www.pewresearch.org)發布其對美國大眾所做有趣調查的原始數據。對跨宗教婚姻所持態度的數據,修改自2006年北愛爾蘭生活與時代調查(www.ark.ac.uk)。美國1996年犯罪統計採自於www.statcrunch.com,這是對教學很有用的數據來源(但是,需要訂閱才能使用)。針灸與頭痛數據可下載自www.trialsjournal.com/content/7/1/15(你也可以讀到一些我關於數據分享的想法)。前列腺癌數據(和瑞典男性血球數)來自於我和我的同事漢斯.莉亞(Hans Lilja)所進行的一系列研究。在醫學數據庫「PubMed」(http://www.ncbi.nlm.nih.gov/sites/entrez),使用關鍵字「Vickers Lilja」搜尋,可以找到更多的數據。產假的數據來自於珍妮.戈尼克(JanetGornick)的研究(參看Families That Work: Policies for Reconciling Parenthood and Employment. New York: Russell Sage Foundation, 2003)。
譯者序
現今,統計教學已然蔚為顯學。諷刺的是,不是因為這門學科很有趣,而是因為很難懂。老師們對於統計課程的有效教學,往往一籌莫展;學生們對於統計課程的莫名恐懼,每每澆熄了其想要做研究的熱情。統計是一種科學方法。如果一個國家的統計教育處於奄奄一息的地步,那麼這個國家的科學發展就會受阻,影響可謂深遠。
既然要有效教學,就要從教學法著手。行為學派的教學法,強調胡蘿蔔與棍子。以統計教學而言,這根棍子打下去可不得了,因為統計學科的標準化紙筆測驗,很可能讓你得到難堪的分數,從此恨之入骨。認知學派強調輸入與輸出。老師使出洪荒之力,在黑板上寫下一堆統計公式,企圖把十年功力如醍醐灌頂般地傳授給學生,然而個個消化不良,殊不知輸入與輸出只存在於電腦世界。這些都對統計教學造成了傷害。
要學好一件事,首先必須不能討厭它;要學好統計,首先要去除對統計的厭惡感。因此,基礎統計學課程的教學目標,反而不是汲汲營營於認知與技能方面的東西,而是要把學習情緒當作是最先要處理的課題。感謝一些統計學家注意到這方面的重要性,一些不那麼生硬的教科書應運而生,如同本書。
本書作者有豐富的實務經驗,結合了許多趣聞,以深入淺出的方式把統計觀念介紹給讀者。我把這本書定位在統計學輔助用書,如果是正式的統計學課程,建議搭配一本有系統性內容的基礎統計學教科書。然而,請不要誤會「輔助」二字為「不重要」,這本書所探討的內容極為重要,很多地方都是基礎的衍生,甚至有一般統計學教科書所達不到的深度。如果同學們進行小組合作學習,探索討論區問題的可能答案,那麼透過這樣的訓練,漸漸地,你會發現,你的研究報告讀起來很有深度且具有個人風格,而不是只有統計數值的堆砌。
由於作者背景的關係,書中案例偏向於醫療領域。然而,統計觀念是跨學科領域的,牛牽到北京還是隻牛;t-檢定不論用在教育學、心理學或社會學,都還是t-檢定。書中所探討的統計分析,只有一小部分是醫療領域常用的技術。這也不打緊,因為多一點點的醫療知識,其實對個人身心健康很有幫助,尤其在現今醫病關係緊張的年代。
統計學有許多很繞口的名詞。有時候,完全相反的名稱卻是代表同一件事。例如,本書所提及的單變量迴歸(univariate regression),指的就是二變量迴歸(bivariate regression)。前者以獨變項作為計算單位,所以只有一個獨變項;後者是二變量相關分析(bivariate correlation analysis)的進化版,也是只有一個獨變項。有時候,多變項迴歸(multivariable regression)指的就是多重迴歸(mutiple regression)。如果你學習統計時發現類似的情況,請不要惱怒,因為甚至有專文探討到底名字要怎麼取。這件事實告訴我們,只要懂得其分析結構,讀者們大可以繞過這些似乎是來自於外星球的語言,逕自取名為自家寵物的名字。
本書原價約42塊美金,換算成新台幣之後,約是一位研究所學生十天的飯錢,這實在是不小的負擔。有鑑於中文類的統計學教科書選擇性不多,引進此種風格的原文書實屬必要。「引進」的模式有一個好處,就是讓知識產權降價,造福廣大的中文讀者,這也是我翻譯統計學教科書的主要目的。這種模式,從我的第一本譯作已被兩岸四地各類型大學圖書館收藏的情況看來,已然發酵。
最後,不論你是在書店隨手翻閱到本書,或是在統計課的建議閱讀書單上看見本書,甚或是在圖書館的書架上不小心瞄到本書,我都要說聲恭喜,因為你將以極低的代價,得到幾乎是原汁原味的東西。願展讀愉快!
杜炳倫
台北
第19章 我的助理今天是短髮造型:關於回歸與混淆 漫畫英文 胖子:唉!又多了2公斤,是因為垃圾食物的關係嗎?或是因為不運動才使我一直吃垃圾食物和一直增肥呢? 瘦子:看來我們需要進行多變項回歸分析。 妙趣橫生的對話 對一位感冒的人,我說事情發生了變化;對一位突然沒了鬍子的朋友,我說你刮鬍子了;對一位突然變短髮的同事,我說你剪頭髮了。令人傷心的是,大部分的時間裡,我沒有什麼令人有趣的事情可說。 另一方面,頭髮案例的確告訴我們,關於回歸的一些事情。讓我們想像,幾百人排成一列,然後你去猜測他們上個星期是不是剛剪了頭髮。某些情況很容易判斷(例如:某位老兄本來長髮披肩)。總的來說,你會認為短頭髮是最近才剪的。整體上,你的猜測不會剛好那麼準:你不會知道,中間長度的頭髮,是不是最近才把長髮剪短或是留長。 我之所以知道我的助理剪了頭髮,是因為我天天看著他留著一頭長髮。所以,星期二的長髮是星期三長髮的一個有力的預測因子。這告訴我們,如果這個世界不符合某種預測,而你認為這是個有力的預測,那麼某事發生的機率就會增加。現在記住,回歸是關於預測:我們試著預測一個依變項y(像是馬拉松時間),依據的是一個或更多的x(像是訓練強度)。所以,回歸對於「某事發生」(像是剪頭髮)的預測是有助益的。 說客為漢堡、薯條以及奶昔辯護 速食通常含有大量的脂肪(像是乳酪漢堡)與糖分(像是奶昔),而據我所知,食用大量的脂肪與糖分會導致肥胖。我有一組2000位美國人回答飲食與運動習慣的數據,將近三分之二的研究參與者,至少偶爾吃速食,而他們的肥胖率比不吃速食的研究參與者要高(21% vs.15%;p<0.01)。然而,在我開始要思考我手上的研究發現時,有位美國垃圾食物協會說客代表拜訪我。這位代表宣稱,漢堡與肥胖無關,只是因為又窮又沒受過什麼教育的人們,傾向於吃垃圾食物,而這些群體一般都不努力鍛鍊身體且有著糟糕的飲食習慣。