書摘｜《The Art of Statistics》數字不會自己說話：我們如何替資料賦予意義？

為何統計學是一門藝術，而非僅僅是數學

在當代資料驅動的世界中，數字似乎無所不在，但正如資料專家 Nate Silver 所言：「數字自身無法言說，是我們賦予其意義。」這句話精準地捕捉了 David Spiegelhalter 在其著作《The Art of Statistics》中的核心論點。作者認為，統計學並非一門僅限於抽象數學公式的學科，而是一門旨在解決現實世界問題的實用科學。它是一門引導我們從資料中學習、理解世界複雜性的藝術。

為了將這門藝術付諸實踐，本書圍繞一個核心框架展開：PPDAC 問題解決循環（Problem, Plan, Data, Analysis, Conclusion）。這個循環將統計實踐從單純的技術操作，提升為一趟完整的探索之旅：

問題 (Problem)：一切始於一個清晰、具體的問題。
計畫 (Plan)：設計一個嚴謹的方法來回答這個問題，包括如何測量和收集資料。
資料 (Data)：執行計畫，收集並清理資料。
分析 (Analysis)：探索資料中的模式，建立模型並進行檢驗。
結論 (Conclusion)：解釋分析結果，溝通發現，並提出新的問題。

這個框架將統計學轉化為一門探索與溝通的藝術，它要求我們不僅要懂技術，更要具備好奇心、批判性思維和清晰的溝通能力。

本書以英國家庭醫生 Harold Shipman 的連環謀殺案作為開篇。Shipman 在超過二十年的時間裡謀殺了至少 215 名病人，起初未被察覺。他最終的失誤是偽造了一位受害者的遺囑，企圖將財產留給自己，這引起了身為律師的受害者女兒的懷疑。Shipman 素來以熱衷早期科技聞名，但諷刺的是，正是這份「科技頭腦」成為他罪證的關鍵：法醫分析他的電腦後發現，他曾回溯性地修改病歷，讓受害者看起來病得更重，但他不夠精明，沒意識到他所做的每一次修改都被系統加上了時間戳記——這正是「資料揭示隱藏意義」的絕佳例證。

當統計學家介入調查時，資料開始揭示更驚人的模式。透過簡單的資料視覺化，例如將受害者的死亡時間繪製成圖表，一個令人不寒而慄的模式浮現出來：Shipman 的病人絕大多數在下午離世，這與其他醫生的病人死亡時間分佈截然不同。這個「一目了然」的發現，源於對資料的初步探索，它不僅展示了資料分析的威力，也引導調查人員提出了更深入的問題，最終揭露了罪行。

Shipman 的案例生動地證明，統計學的核心在於從混亂的現實中提取有意義的信號。而要做到這一點，我們必須先學會如何描述與理解我們所擁有的資料。

第一部分：資料描述與理解的基礎

在進行任何有意義的分析之前，我們必須面對將現實世界轉化為資料的基礎挑戰，並學會如何有效地總結與溝通這些資料。這不僅是技術前提，更是確保結論可靠性的基石。

將世界轉化為資料的挑戰

統計分析的第一步，是將我們的日常經驗轉化為可量化的資料，而這一步充滿了定義與測量的挑戰。例如，我們如何定義一棵「樹」？是任何帶有木質莖的植物嗎？官方定義可能要求其在特定高度的直徑達到某一標準。同樣地，「幸福感」或「失業」這類更為抽象的概念，其定義在不同時間、不同機構之間可能存在巨大差異。英國對「失業」的定義在 1979 年至 1996 年間就更改了至少 31 次。

這些定義看似微不足道，卻對後續所有結論產生根本性影響。資料的品質、定義的精確性，決定了我們分析的地基是否穩固。

溝通資料：比例與風險的呈現

資料的呈現方式會極大地影響公眾的感知。以英國兒童心臟手術的存活率為例，「98% 的存活率」聽起來令人安心，而「2% 的死亡率」則顯得更為沉重。這就是正面框架與負面框架的區別。

更重要的是區分絕對風險與相對風險。國際癌症研究機構 (IARC) 曾報告，每天吃培根會使罹患腸癌的風險增加 18%。這個「18%」是相對風險，聽起來相當嚇人。然而，從絕對風險的角度看，不吃培根的人一生中罹患腸癌的機率約為 6%，而每天吃培根的人則會上升到約 7%。換句話說，在 100 個每天吃培根的人中，僅僅是增加了一個病例。同樣的資料，不同的呈現方式，給人的印象天差地別。負責任的資料溝通，應當提供絕對風險，讓公眾對風險有更準確的認識。

總結大量資料：從平均值到分佈

當面對大量資料時，我們常用「平均值」來進行總結。然而，「平均值」有三種不同的衡量方式：

平均數 (Mean)：所有數值相加後除以個數。
中位數 (Median)：將所有數值排序後位於中間的那個數。
眾數 (Mode)：出現頻率最高的數值。

在猜測罐中雷根糖數量的例子中，由於存在一些極端的高估值，平均數會被這些極端值拉高，從而偏離大多數人的猜測。而在這種情況下，中位數更能代表「群眾的智慧」。

當資料分佈不對稱時，即存在偏態分佈 (Skewed Distribution)，平均數尤其具有誤導性。例如，英國國民性態度與生活方式調查 (Natsal) 顯示，人們一生中性伴侶的數量呈現出嚴重的右偏態分佈——大多數人伴侶數量較少，而少數人則非常多。在這種情況下，男性的平均性伴侶數（14.3）遠高於中位數（8），顯然不能代表「普通人」的經驗。

從樣本到母體：歸納推論的過程

我們分析的資料通常只是一個樣本 (Sample)，而我們的目標是了解一個更大的母體 (Population)。從資料到結論的過程，是一個充滿挑戰的歸納推論鏈：

原始資料 → 樣本真相 → 研究母體 → 目標母體

以 Natsal 調查為例，這個過程中的每一步都可能出現偏差：

從原始資料到樣本真相：存在測量誤差。人們可能因記憶不清、社會期許或定義不同而提供不準確的性伴侶數量。調查資料顯示男性報告的伴侶數高於女性，但這引發了懷疑，因為在一個封閉的群體中，男女報告的異性伴侶平均數在數學上必須是相同的。
從樣本真相到研究母體：存在抽樣偏誤。即使是隨機抽樣，如果某些群體（如性生活不活躍者）的回應率較低，樣本就無法完全代表那些可能被抽中的人（研究母體）。
從研究母體到目標母體：存在代表性不足的問題。Natsal 的抽樣框架基於家庭，這意味著它排除了居住在機構（如監獄、軍隊）中的人，因此其結論無法完全推廣到英國的全體成年人口（目標母體）。

理解這些潛在的偏差，是做出謙遜而可靠推論的關鍵。在掌握了描述性資料的挑戰後，我們將面臨一個更為核心的統計學難題：如何區分相關性與因果關係。

第二部分：核心挑戰 — 從相關到因果

「相關不等於因果」是統計學中最核心且最常被誤解的原則。僅僅因為兩件事物同時發生，並不意味著其中一件導致了另一件。本部分將深入探討，我們如何才能在觀察性資料的重重陷阱中，嚴謹地推斷出因果關係。

建立因果關係的黃金標準：隨機對照試驗 (RCT)

判斷一項干預措施是否有效的最可靠方法是隨機對照試驗 (Randomized Controlled Trial, RCT)。以評估史他汀（statin）類藥物能否預防心臟病的「心臟保護研究」為例，RCT 的設計遵循了幾個關鍵原則：

對照組 (Control Group)：一組病人服用史他汀，另一組服用外觀相同的安慰劑（糖丸）。
隨機分配 (Randomization)：病人被隨機分配到治療組或對照組，確保兩組在所有已知和未知的背景因素上都是可比的。
盲性 (Blinding)：病人和執行研究的醫護人員都不知道誰在哪一組（雙盲），以避免安慰劑效應和觀察者偏誤。

這項規模龐大的研究最終證明，服用史他汀的組別心臟病發作率顯著降低。RCT 透過實驗的手段，創造了一個可以進行公平比較的環境，從而隔離出干預措施的真實效果，是建立因果關係的黃金標準。

當無法隨機分配時：觀察性研究的策略與陷阱

然而，在許多情況下，進行隨機試驗是不可能或不道德的（例如，我們不能隨機讓人們吸煙）。這時，我們只能依賴觀察性研究，但這類研究充滿了陷阱。

以「為何年長男性耳朵大？」這個看似無厘頭的問題為例，觀察資料顯示年齡與耳朵長度確實存在正相關。但這是因為耳朵會隨年齡增長，還是說過去出生的人耳朵本來就比較大？或者是耳朵小的人壽命較短？觀察性研究難以區分這些可能性。以下是幾個常見的陷阱：

干擾因子 (Confounder)：一個與我們關心的變數和結果都有關的「隱藏」變數。例如，研究發現不飲酒的人死亡率高於適度飲酒者，這並不意味著不飲酒有害健康。一個可能的干擾因子是許多人因健康狀況不佳而停止飲酒，是「健康狀況不佳」這個因素同時影響了飲酒行為與死亡率。
逆因果關係 (Reverse Causation)：因果方向與我們設想的相反。例如，媒體曾報導住在高檔超市韋特羅斯（Waitrose）附近會讓你的房產增值，但這個相關性幾乎可以肯定是反映了韋特羅斯在富裕地區開店的策略。因此，實際的因果鏈與聲稱的正好相反。
辛普森悖論 (Simpson’s Paradox)：當資料分組分析時呈現一種趨勢，但合併後卻呈現相反趨勢。例如，1996 年劍橋大學的招生資料顯示，總體上男性的錄取率（24%）略高於女性（23%）。但當分開看每個科系時，女性在所有五個科系的錄取率都高於男性。悖論的原因在於，女性更傾向於申請競爭激烈的科系（如醫學），這些科系的整體錄取率較低，從而拉低了女性的總體錄取率。

在理解了資料關係的複雜性後，下一步是學習如何使用數學模型來形式化這些關係，以便進行更精確的理解與預測。

第三部分：建立世界的模型 — 從理解到預測

統計模型是簡化版的現實世界，它幫助我們從複雜的資料中提取信號。本部分將探討統計模型的兩種主要用途：一是透過迴歸模型來理解變數之間的關係（科學目標），二是透過預測演算法來進行分類與預測（技術目標）。

用迴歸模型理解關係

線性迴歸 (Linear Regression) 的思想最早由 Francis Galton 在研究父子身高資料時提出。他發現，雖然身高具有遺傳性，但極端身高的父親，其兒子的身高傾向於不那麼極端，而是更接近於群體的平均身高。例如，非常高的父親，其兒子雖然也高，但通常會比父親矮一些。Galton 最初將此現象稱為「迴歸到平庸」(Regression to Mediocrity)，現在則通稱為「迴歸到平均值」(Regression to the Mean)。

這個現象在生活中無處不在。例如，在發生多起事故的路口安裝超速攝影機後，事故率通常會下降。這固然有攝影機的功勞，但部分原因也是因為該路口之前的事故率可能正處於一個隨機的「壞運氣」高峰，之後自然會「迴歸」到其長期的平均水平。迴歸到平均值提醒我們，在評估干預措施的效果時要保持謹慎，避免將隨機波動誤認為是干預的真實效果。

用演算法進行預測與分類

當目標從「理解」轉向「預測」時，我們便進入了機器學習和預測演算法的領域。本書以鐵達尼號乘客生還預測為核心案例，介紹了幾個基本概念：

訓練集 (Training Set) 與測試集 (Test Set)：我們將資料分為兩部分。用訓練集來建立模型（例如一個分類樹），然後用模型從未見過的測試集來評估其預測性能。這是防止模型「作弊」的關鍵步驟。
過度擬合 (Over-fitting)：如果模型過於複雜，它可能會過度學習訓練資料中的隨機「雜訊」，而非底層的「信號」。一個過度擬合的模型在訓練集上表現完美，但在測試集上卻表現糟糕，因為它的通用性很差。
性能評估指標：如何判斷一個演算法的好壞？
- 準確率 (Accuracy)：最直觀的指標，即模型正確分類的比例。
- Brier 分數 (Brier Score)：當模型輸出的是機率時，Brier 分數是一個更佳的評估指標。它同時衡量了模型的辨識能力（能否區分不同結果）和校準度（輸出的機率是否可信）。舉一個虛構的例子來理解 Brier 分數：假設一個天氣預報系統在週一給出 10% 的下雨機率，而當天沒下雨（結果為 0），則平方誤差為 (0 – 0.1)² = 0.01。週二預測 20%，也沒下雨，平方誤差為 (0 – 0.2)² = 0.04。週三預測 50%，結果下雨了（結果為 1），平方誤差為 (1 – 0.5)² = 0.25。將一週內每天的平方誤差加總後取平均，就得到 Brier 分數。這個分數越低，表示預測的機率越準確。

書中對比了簡單的分類樹和更複雜的邏輯斯迴歸等模型。簡單模型（如圖中的分類樹）的優點是可解釋性強，我們能清楚地看到決策的規則。而複雜模型可能準確率更高，但往往像一個「黑盒子」，難以理解其內部運作。在模型複雜性與可解釋性之間做出權衡，是資料科學實踐中的一個重要課題。

所有模型和預測都伴隨著不確定性，因此，下一部分將專門探討如何量化和溝通這種不確定性。

第四部分：不確定性的語言

量化不確定性是現代統計學的基石。任何基於樣本資料的估計，如果沒有伴隨一個對其精確度的衡量，都是不完整的。本部分將從直觀的電腦模擬方法出發，逐步過渡到機率論——這門描述不確定性的通用語言。

量化不確定性：估計值與信賴區間

當新聞報導英國失業率下降 3,000 人時，這個數字看似精確，但它實際上是基於抽樣調查的點估計 (Point Estimate)。由於抽樣的隨機性，這個估計值本身也存在不確定性。因此，一個負責任的報告必須提供一個誤差範圍 (Margin of Error)，例如 ±77,000 人。這個範圍，即信賴區間 (Confidence Interval)，告訴我們真實的失業人數變化可能在一個相當大的區間內（從下降 80,000 到上升 74,000）。

傳統上，計算信賴區間需要複雜的數學公式。然而，一種名為拔靴法 (Bootstrapping) 的現代計算方法，提供了一種極其直觀的替代方案。其思想非常簡單：我們將原始樣本視為一個微縮版的「母體」，然後從這個樣本中有放回地反覆抽取新的「拔靴樣本」。每抽取一個新樣本，我們就計算一次統計量（如平均值）。重複這個過程數千次後，我們就能得到該統計量的一個分佈，並從這個分佈中直接讀出 95% 信賴區間。拔靴法的美妙之處在於它完全依賴電腦模擬，而無需高深的數學理論。

機率：處理變異性與無知的數學

機率論為處理不確定性提供了數學框架，但其抽象規則常常令人困惑。本書提倡使用預期頻率樹 (Expected Frequency Tree) 將問題變得直觀。

擲兩次硬幣：想像我們擲 100 次。預計 50 次第一次是正面，50 次是反面。在這 50 次正面中，預計 25 次第二次是正面。這樣，我們很容易得出擲出兩次正面的機率是 25/100，即 1/4。
乳癌篩檢：假設 1% 的女性患有乳癌，乳房攝影的準確率為 90%。想像對 1,000 名女性進行篩檢：
- 10 人患有乳癌，其中 9 人檢測呈陽性。
- 990 人未患乳癌，但其中 99 人（10%）會被錯誤地檢測為陽性。
- 總共有 108 人檢測呈陽性，但其中只有 9 人真正患病。因此，即使檢測結果為陽性，實際患癌的機率也只有 9/108 ≈ 8%。

這種方法清晰地揭示了條件機率中的常見謬誤，如檢察官謬誤 (Prosecutor’s Fallacy)，即混淆了「在無辜的情況下，證據出現的機率」與「在有證據的情況下，被告無辜的機率」。

連結機率與統計：中央極限定理

中央極限定理 (Central Limit Theorem) 是統計學中最美妙且最強大的定理之一。它指出：無論原始資料的母體分佈是什麼形狀（哪怕是嚴重偏態），只要樣本量足夠大，其樣本平均值的分佈都會趨近於一個常態分佈（即鐘形曲線）。

這一定理的威力在於，它允許我們在不知道母體真實分佈的情況下，對樣本平均值的行為做出可靠的預測。以英國各區腸癌死亡率的漏斗圖 (Funnel Plot) 為例，這個例子源於一則聳動的 BBC 頭條新聞：「英國腸癌死亡率存在三倍差異」。一位名叫 Paul Barden 的部落客利用公開資料進行了調查。他繪製的漏斗圖中，每個點代表一個地區的死亡率。由於人口較少的地區樣本量小，其死亡率的隨機波動會更大，因此在圖上分佈得更寬；而人口較多的地區則更接近全國平均水平。漏斗圖利用中央極限定理繪製出預期的變異範圍（漏斗形狀的曲線），幫助我們區分哪些地區的死亡率異常是真實的健康問題，哪些僅僅是小樣本導致的隨機波動。Barden 的分析表明，大部分的地區差異都在預期的隨機波動範圍內，從而有效地戳破了媒體的誇大報導，這是一個關於資料素養如何賦予公民力量的精彩故事。

在掌握了描述不確定性的工具後，我們便可以進入更高級的統計推論，即如何利用這些工具來正式地提出和檢驗科學主張。

第五部分：提出主張與從證據中學習

如何從資料中得出科學結論？本部分將對比統計推論的兩種主要思想流派：傳統的虛無假設顯著性檢定 (Null Hypothesis Significance Testing, NHST) 和日益受到重視的貝氏推論 (Bayesian Inference)。它們從不同的哲學角度出發，為我們提供了從證據中學習的框架。

宣稱發現：虛無假設顯著性檢定 (NHST)

NHST 是 20 世紀科學研究的標準方法，其核心邏輯如下：

設立虛無假設 (Null Hypothesis, H₀)：這是一個持懷疑態度的假設，通常代表「沒有效果」或「沒有差異」。例如，假設某種新藥無效。
計算 P 值 (P-value)：假設虛無假設為真，P 值是在此前提下，觀測到當前資料或更極端資料的機率。
判斷統計顯著性 (Statistical Significance)：如果 P 值非常小（傳統上小於 0.05），我們就認為觀測到的資料與虛無假設極不相符，於是拒絕虛無假設，宣稱這是一個「統計上顯著」的發現。

以 Harold Shipman 案的監控分析為例，虛無假設是「Shipman 醫生的病人死亡率與其他醫生沒有差異」。分析顯示，Shipman 的病人死亡率遠超預期，計算出的 P 值極小，因此我們可以拒絕虛無假設，得出他的死亡率確實異常的結論。

然而，NHST 也存在風險。當我們同時進行大量檢定時，例如監控全國所有醫生的死亡率，多重檢定 (Multiple Testing) 的問題就會出現。即使所有醫生都是無辜的，純粹由於隨機性，也總會有幾個醫生的 P 值會偶然小於 0.05，導致「偽陽性」的發現。這就像在成千上萬的死魚中，總能找到幾個腦部活動呈現「顯著」信號一樣。

另一種學習方式：貝氏定理

貝氏推論提供了一種更符合直覺的學習方式。它將從證據中學習的過程形式化為一個信念更新的過程。讓我們用運動禁藥檢測的例子，透過預期頻率樹來直觀地理解。假設 1000 名運動員中，有 20 人使用禁藥，980 人沒有。藥檢的準確率為 95%（即 95% 的用藥者呈陽性，5% 的未用藥者也呈陽性）。

想像這 1000 名運動員：
- 在 20 名用藥者中，19 人（95%）檢測呈陽性。
- 在 980 名未用藥者中，49 人（5%）會被錯誤地檢測為陽性。
因此，我們預期總共會有 19 + 49 = 68 個陽性結果。
在這 68 個陽性結果中，只有 19 人是真正用藥的。所以，即使一名運動員的藥檢呈陽性，他真正使用禁藥的機率也只有 19/68，約 28%。

這個直觀的結論，可以透過貝氏定理的公式來表達：

後驗信念 ∝ 先驗信念 × 概似比

先驗信念 (Prior Belief)：在看到新證據之前，我們對假設的信心。在此例中，運動員用藥的先驗賠率 (Odds) 是 20:980，即 1:49。
概似比 (Likelihood Ratio)：新證據對假設的支持強度。它是「假設為真時觀測到證據的機率」與「假設為假時觀測到證據的機率」之比。陽性藥檢的概似比是 0.95 / 0.05 = 19。
後驗信念 (Posterior Belief)：更新後的信心。後驗賠率 = 先驗賠率 × 概似比 = (1/49) × 19 = 19/49。這意味著，檢測呈陽性後，用藥的賠率是 19:49，轉換成機率就是 19 / (19+49) ≈ 28%。

概似比在更新信念中扮演核心角色，一個更引人入勝的例子是理查三世骸骨的鑑定。考古學家在萊斯特的一個停車場發現一具骸骨，懷疑是理查三世。每一項新證據——放射性碳定年、脊椎側彎的特徵、與親戚後代的 DNA 比對——都被賦予一個概似比，用來逐步更新骸骨是理查三世的信念。這種方法允許我們直接計算假設為真的機率，這與 NHST 只能拒絕虛無假設的邏輯有著根本的哲學差異。

無論採用何種推論方法，統計實踐都充滿了潛在的陷阱。下一部分將探討統計學可能出錯的方式以及如何防範。

第六部分：負責任的統計學家 — 陷阱與最佳實踐

統計學的力量越大，被誤用和濫用的風險也越高。本部分將探討當前科學界面臨的「再現性危機」，分析其背後的統計學根源，並提供一套實用的指南，幫助我們評估統計主張的可靠性，成為一個負責任的資料使用者。

為何統計結果會出錯：「再現性危機」的根源

近年來，許多心理學、醫學等領域的著名研究被發現無法被獨立重現，這就是所謂的「再現性危機」。其背後的原因複雜，貫穿於 PPDAC 循環的各個階段，但其中一些統計學上的根源尤其值得關注：

可疑的研究實踐 (Questionable Research Practices, QRPs)：這些是處於誠實錯誤與學術欺詐之間的灰色地帶。
- P-hacking：研究者不斷嘗試不同的分析方法、排除某些資料點、或增加新的觀測，直到 P 值小於 0.05，然後只報告這個「顯著」的結果。
- HARKing (Hypothesizing After the Results are Known)：先觀察資料，發現一個看似有趣的關聯，然後反過來偽裝成這是最初就想驗證的假說。心理學家 Uri Simonsohn 曾以一項諷刺性研究精彩地揭示了 HARKing 的荒謬：他「證明」了聽披頭四的歌曲《When I’m Sixty-Four》會讓人變年輕。他透過不斷調整分析方法和比較對象（例如，只比較聽這首歌和聽另一首特定歌曲的受試者，並調整了協變量），最終得到了一個統計上顯著的結果。這將探索性發現包裝成了驗證性發現，極大地誇大了證據的強度。
資訊傳播鏈的扭曲：一個統計發現在從研究者傳播到公眾的過程中，會被層層誇大和簡化。研究者可能在論文摘要中強調最引人注目的發現，大學新聞辦公室為了吸引媒體報導會進一步誇大其詞，而媒體記者和編輯為了製造聳動的標題，則可能將一個微弱的關聯報導為確定的因果關係。

如何做得更好：邁向更可靠的科學與溝通

為了應對這些挑戰，科學界正在推動一系列改革，以提升研究的透明度和可靠性：

預先註冊研究方案 (Pre-registration)：在收集資料之前，研究者公開提交他們的研究假說、資料收集計畫和分析策略。這有效地約束了 P-hacking 和 HARKing 的空間。
區分探索性與驗證性研究：明確聲明一項研究是旨在產生新假說的「探索性」研究，還是旨在嚴格檢驗既有假說的「驗證性」研究。兩者的證據強度完全不同。

對於普通讀者而言，培養批判性思維至關重要。作者總結了一套實用的工具，幫助我們在面對統計主張時保持警覺。

關於數字的可靠性：

研究的嚴謹性如何？（例如，是否預先註冊？是否隨機對照？）
統計不確定性有多大？（樣本量、信賴區間、統計顯著性）
使用的摘要是否恰當？（平均數 vs. 中位數、絕對風險 vs. 相對風險）

關於來源的可靠性： 4. 資訊來源是否可靠？（是否存在利益衝突？） 5. 故事是否被刻意「包裝」？（注意框架效應、情感訴求、誤導性圖表） 6. 我沒有被告知什麼？（是否有選擇性報告？「櫻桃採摘」？）

關於詮釋的可靠性： 7. 這個主張與其他已知知識是否相符？（提供背景脈絡和比較） 8. 主張的解釋是什麼？（相關 vs. 因果、迴歸謬誤、干擾因子） 9. 這個故事與我有多大關聯？（是否能從研究對象推廣到我身上？） 10. 所謂的「效應」是否重要？（統計顯著性不等於實際重要性）

結論：統計實踐的十項簡單準則

本書從頭至尾強調，統計學不僅僅是一套計算工具，它是一門需要在整個問題解決循環中進行嚴謹思考的藝術。作者在最後總結了有效統計實踐的十條簡單規則，為我們的資料探索之旅提供了寶貴的指南。

統計方法應使資料能夠回答科學問題。
信號總是伴隨著雜訊。
提前計畫，真正地提前計畫。
關注資料品質。
統計分析不僅僅是一系列計算。
保持簡單。
提供對變異性的評估。
檢查你的假設。
如果可能，進行複製！
讓你的分析可重現。

最終，統計學的藝術在於將嚴謹的科學方法與靈活的判斷力相結合。它鼓勵我們以批判性且充滿好奇心的態度面對資料，不輕信表面的數字，而是深入探索其背後的意義，從而更好地理解我們所處的這個複雜而充滿不確定性的世界。

書摘｜《The Art of Statistics》數字不會自己說話：我們如何替資料賦予意義？

為何統計學是一門藝術，而非僅僅是數學

第一部分：資料描述與理解的基礎

將世界轉化為資料的挑戰

溝通資料：比例與風險的呈現

總結大量資料：從平均值到分佈

從樣本到母體：歸納推論的過程

第二部分：核心挑戰 — 從相關到因果

建立因果關係的黃金標準：隨機對照試驗 (RCT)

當無法隨機分配時：觀察性研究的策略與陷阱

第三部分：建立世界的模型 — 從理解到預測

用迴歸模型理解關係

用演算法進行預測與分類

第四部分：不確定性的語言

量化不確定性：估計值與信賴區間

機率：處理變異性與無知的數學

連結機率與統計：中央極限定理

第五部分：提出主張與從證據中學習

宣稱發現：虛無假設顯著性檢定 (NHST)

另一種學習方式：貝氏定理

第六部分：負責任的統計學家 — 陷阱與最佳實踐

為何統計結果會出錯：「再現性危機」的根源

如何做得更好：邁向更可靠的科學與溝通

結論：統計實踐的十項簡單準則

留言

發佈留言取消回覆

書摘｜《The Art of Statistics》數字不會自己說話：我們如何替資料賦予意義？

為何統計學是一門藝術，而非僅僅是數學

第一部分：資料描述與理解的基礎

將世界轉化為資料的挑戰

溝通資料：比例與風險的呈現

總結大量資料：從平均值到分佈

從樣本到母體：歸納推論的過程

第二部分：核心挑戰 — 從相關到因果

建立因果關係的黃金標準：隨機對照試驗 (RCT)

當無法隨機分配時：觀察性研究的策略與陷阱

第三部分：建立世界的模型 — 從理解到預測

用迴歸模型理解關係

用演算法進行預測與分類

第四部分：不確定性的語言

量化不確定性：估計值與信賴區間

機率：處理變異性與無知的數學

連結機率與統計：中央極限定理

第五部分：提出主張與從證據中學習

宣稱發現：虛無假設顯著性檢定 (NHST)

另一種學習方式：貝氏定理

第六部分：負責任的統計學家 — 陷阱與最佳實踐

為何統計結果會出錯：「再現性危機」的根源

如何做得更好：邁向更可靠的科學與溝通

結論：統計實踐的十項簡單準則

留言

發佈留言 取消回覆

發佈留言取消回覆