資料來源: https://www.books.com.tw/products/0010598105 大數據時代來臨,巨量的資訊在現今的每分每秒都在產生,然而,人類真的能藉由巨量的資訊做出更好的決策嗎?事實上,這點仍是未知數。本書作者提出詳細指出運用數據做預測會面臨到的困境及限制,這點不管是在資料科學以及投資交易領域皆有深刻的影響。 資訊並非全部皆有意義,資訊往往是重要訊號及雜訊混雜而成,而我們的大腦及電腦就很擅長在雜訊中尋找模式,並誤以為他是重要資訊,預測之所以困難,其中一個原因就是難以辨別自己用來預測的訊號是否為雜訊。然而,模型的限制不只在於其篩選資訊的方法,也來自其模型如何依資訊預測。 過度適配(overfitting)是資料科學家跟交易員的惡夢,他指的是模型過度挑何其學習資料,導致預測能力下降。過度適配可以讓我們的模型在書面上看起來比較好,但在現實世界表現較糟。通常越複雜的模型就越可能產生這個問題,越多的解釋變數或許能讓統計結果變好,但他們最終可能只是在解釋雜訊,更令人害怕的是人們會為這些產出冠上聽起來很有說服力的理論,使錯誤更難被調整。 好的預測應該要像黑色的那條之直線,藍色線就是過度適配 資料來源:維基 預測困難的原因除了資料及模型外,人類的心理缺陷也常是預測失準的原因。我們常會混淆不熟悉的東西以及不可能的東西,不熟悉的東西是未知而不自知,而非全然不可能。有些東西不是全然不可能,而是人們擅長忽視它。就如同2008年的次級房貸風暴,金融業忽視房價逐漸下跌的跡象,只以過去歷史資料,來推論未來房價不會下跌,並濫發房貸抵押證券。最後,事實證明,人們試圖忽略之事,並非不可能。 我們都應該承認,任何的預測皆具有不確定性。謹慎的資料分析及機率思考可幫助我們接近真相,同時我們也必須時刻懷疑自身的假設是否存在盲點。或許我們一生都無法做出真正完美的預測,但就如同蘇格拉底一生追求真理一般,我們雖無法到達真理,但我們竭盡全力接近真理的境界。 延伸閱讀:《機率思考》、《隨機騙局》、《反脆弱》、《勝算:賭的科學與決策智慧》