書評--機率思考:大數據時代,不犯錯的決斷武器
資料探勘是近年來的熱門話題,除了書店開始出現大量有關的書,跟大數據沾上邊的公司也漲過一輪,但大量的資料是否真的能讓我們發現寶貴的真相?抑或者我們只是被可笑的巧合愚弄,這本機率思考可說是最佳的銀針,一一檢測出潛藏在大數據的砒霜。 首先,我們要知道人們為甚麼常被愚弄?事實上,這是人類演化過程中的自然結果。在《快思慢想》中,作者將人的思維模式分成二種系統,系統1,它很情緒化,依賴直覺,見多識廣又很會聯想,擅長編故事,系統1能迅速對眼前的情況做出反應。但它很容易上當,以為親眼所見就是事情的全貌,任由損失厭惡和樂觀偏見之類的錯覺引導我們做出錯誤的選擇,另一方面,系統二,它動作比較慢、擅長邏輯分析,系統1無力解決的問題,都丟給系統二處理。而人們在日常生活做判斷時,多會使用系統一,使人們多被眼前的假象愚弄。 貝氏定理 舉例來說,當你年紀輕輕被檢查出有癌症時,先不用對結果感到絕望,因為你很有可能被所謂的偽陽性反應給騙了。這點高中就教過的貝氏定理則清楚地解答了這個問題。已乳癌為例,美國60幾歲婦女的盛行率約為5%,而乳癌X光檢測則能找出80%的乳癌病患,然而這並不代表其被檢驗出陽性反應的人就有80%的機率是患有乳癌。事實上,依貝氏定理計算,一個被檢測出陽性反應的人真正罹患癌症的機率僅僅只有17%。 人類事實上生存在一個多數為非常態分配組成的世界 另一個人們常被愚弄的思考模式是人們天生以為世上的事物皆屬常態分配,這事實上非常正常,舉凡是身高、體重抑或是智商,皆符合常態分配,人的祖先在生活中所遇之事多符合常態分配,我們的大腦的職學也習慣以常態分配的方式最為思考依據。然而,我們現在是時尚生活在一個充滿人造事物的環境中,我們習以為常的常態反而變得稀有,我們現在生活所見的分配較接近柯西分配及冪次分配,這兩種分配的特色皆在於其在非極端事件發生前即皆接近常態分配,然而再次分配下,發生極端事件的機率卻比常態分配高上許多。 看到這,大家可能會想,這到底有什麼大不了的?事實上,常態分配的假設曾是2008年的金融海嘯的成因之一。大家或許以為貪婪的金融家是一切災難的原因,但事實上這只對了一半。過去金融機構的風險計量模型多已常態分配的假設所建構(事實上現在台灣的金融機構仍有多家採用這假設),然而,這會使我們低估極端事件的發生機率,以此常態分配假設所算出的金融海嘯發生機率勢必需要幾...