蘇冠賓
…影星尼可拉凱吉每年演出電影的數目,可以預測當年在游泳池溺斃者數量!
…美國花在科學上的經費愈多,當年就會有愈多自殺死亡的人數!
…每個人吃奶油的量愈少,當年緬因州的離婚率就愈低!
不單只是一般外行人,即使是研究人員,也常把兩事件的「強烈相關性 correlation」誤為「因果關係 causal effect」。最近在 Spurious Correlations 網站上介紹了十幾個很誇張的例子,例如「影星尼可拉凱吉每年演出電影的數目,可以預測當年在游泳池溺斃者數量」,就是的血淋淋教訓。
在生命科學上,如果要說明「因果關係」,應該要有三大基本証據:(1)Prospective controlled study 控制變因的前瞻性研究、(2)Randomized controlled study 隨機分配的控制組研究、(3)Mechanistic experiments for construct validity 符合生物機制的基礎研究。
很多人誤用「因果關係」來解釋「大數據」或「強烈的相關性」之結果,他們甚至宣稱那是「控制變因的前瞻性研究」。然而,資料庫中的「從2001年追蹤到2010年」,並不是真正的「前瞻性研究」(例如在 Spurious Correlations 的那些血淋淋的例子,全都是「追蹤十年」的研究);利用統計方法把干擾因子做控制,也不是真正的控制變因;而在資料庫當中配對年齡性別的控制組,更不是隨機分配設計中的控制組。大數據的讀者,應該要明白所謂的「追蹤、控制」,只是讓大數據分析更令人安心一些;結果是為了未來研究的方向聚焦一些,但絕對不能用來做為因果關係的証明。
台灣學者利用健保資料庫發表大量的學術論文,對於提高台灣學術界的能見度有很大的貢獻,然而,嚴謹的作者會都提醒我們,不應該用因果關係來解讀。以「使用A藥物」和「Z病風險增高」的相關性為例,藥物A用在B1到B5的五種病,B病又有C飲食特徵、D生活形態、E共患的疾病…,我們就分不出是A、B、C、D、或E和Z有直接的關係;又,吃藥物A的人可能F倍於常人去看醫生、G倍於常人被檢查出Z病,這時吃藥物A反而變成提高(早)診治Z病的有利因素。 健保資料庫發表的論文,很容易都可以找到更多類似的干擾或交互作用的因素,而這些因素都不是僅靠統計方法就可以完全控制校正的。
台灣學者利用健保資料庫發表大量的學術論文,對於提高台灣學術界的能見度有很大的貢獻,然而,嚴謹的作者會都提醒我們,不應該用因果關係來解讀。以「使用A藥物」和「Z病風險增高」的相關性為例,藥物A用在B1到B5的五種病,B病又有C飲食特徵、D生活形態、E共患的疾病…,我們就分不出是A、B、C、D、或E和Z有直接的關係;又,吃藥物A的人可能F倍於常人去看醫生、G倍於常人被檢查出Z病,這時吃藥物A反而變成提高(早)診治Z病的有利因素。 健保資料庫發表的論文,很容易都可以找到更多類似的干擾或交互作用的因素,而這些因素都不是僅靠統計方法就可以完全控制校正的。
研究結果為了吸引讀者注意,有時會利用悚動的標題來吸引讀者注意,或在結論上言過其詞,如果不傷大雅,例如「多穿皮鞋者不易得心臟病」的結論,或許不會造成太大的傷害,如果搶上八掛報的頭條也無妨,畢竟站在主編的立場,如果作者文章沒有爆點,也較引發不了讀者的興趣。然而,如果會造成嚴重結果,例如只用健保資料的數據,就在媒體宣布「安眠藥增98%腦癌風險」,造成服用安眠藥病患恐慌或停藥,那麼就會產生巨大的傷害。
相關文章:
- 「強烈的相關性」成為「致命的假科學」http://cobolsu.blogspot.tw/2015/09/insane-correlation.html
- 對於用台灣健保資料庫發表「A may be associated with the risk of Z」論文的看法http://cobolsu.blogspot.tw/2014/02/a-may-be-associated-with-risk-of-b.html
- 「安眠藥增98%腦癌風險」是錯的(蘋果評論全文) http://cobolsu.blogspot.tw/2015/04/98.html
- 國外學者質疑量產論文是台灣之恥? http://cobolsu.blogspot.tw/2016/03/blog-post.html
Fisher投資踩坑筆記 · ·
ReplyDelete#倖存者偏差 在投資資訊的應用
對總經趨勢有興趣的主動投資新手一定要閱讀這篇,可以保命。
倖存者偏差(survivorship bias),是一種邏輯謬誤。只關注"倖存"的資訊,忽略那些沒有倖存的(可能因為無法觀察到),從而得到錯誤的認識。
倖存者偏差最有名的案例是二次世界大戰期間,美國統計學家沃德教授(Abraham Wald)被授命研究《如何降低飛機被擊中的機率》的命題。
沃德教授研究發現:飛回來的飛機中機翼的彈孔最多,飛行員座艙和機尾則最少。
依照當時的航空技術,機器的裝甲為避免過重只能局部強化,軍方指揮官認為既然機翼最容易中彈,當然應該加強機翼的防護,而沃德教授則建議應該增加飛行員座艙和機尾的防護。
沃德教授認為指揮官的判斷就是犯了「倖存者偏差」這個邏輯歸因的錯誤。
從統計觀點來看,被多次擊中機翼的轟炸機,依然能夠安全返航,而在飛行員座艙和機尾的位置彈孔最少。那並非真的不會中彈,而是一旦中彈,根本就回不來了。
後來事實證明教授的建議是正確的,聯軍轟炸機被擊落的比例顯著降低。
(以上資訊來自維基百科)
--------------------我是分隔線----------------------
在許多總經數據研究中, 很多報告曾舉出例子經濟衰退前都必然有某些事件, 概率為100%。
很多人對此類回測奉為聖經, 但對於此類數據, 建議最好自己回測過一遍, 並且拉長時間範圍。
很多時候, 真正重要的資訊是那些沒被表現出來的數據, 有如那些沒有飛回來的飛機。
最近的就是殖利率倒掛, 自1970年以來, 7次衰退前, 都有殖利率倒掛此一現象的出現。
於是人們便認為殖利率倒掛就預告經濟即將衰退。
也有媒體宣稱: 殖利率倒掛收斂時就是景氣衰退發生時。
但媒體通常不會告訴您,
經濟衰退前都有殖利率倒掛此一現象, 100%。
但殖利率倒掛一共發生過11次, 預言了其中的7次衰退。
殖利率倒掛與經濟衰退並非出現一次倒掛就衰退一次。
所以也就沒有"殖利率倒掛收斂時就是景氣衰退發生時"這種事。
殖利率倒掛其實是表示經濟過熱, 未來看淡, 然而還有多少好日子, 沒人知道。
在高通膨時期經常出現,預告準度低, 低通膨時期出現次數較少,預告準度高。
我曾經跟一朋友爭論, 主動投資究竟是要自己做研究?還是只看別人的研究就可以?我也看別人的研究, 但我有興趣的資訊會去複驗, 真相往往就能水落石出,
通常跟原先的認知有落差。
--------------------我是分隔線----------------------
以前我曾在一個強大的國度工作生活多年,最大收穫就是從某個神奇的團體學到一件事: 如果要操縱一個人的行為, 只需要操縱其資訊即可。
試想: 如果要一個人自己從一個房間跑出去? 是不是只需要他相信發生了火災?
操縱一個人只需要封閉其多元資訊管道, 並千口一詞, 自然能讓他相信一切謊言。
在前東家上班時, 上司喜歡看數據漂亮的報告, 他也從不去第一線, 只看報告,然而真實情況遠遠並非如此。
於是上司會不斷地退回報告, 我在絞盡腦汁, 3天不睡覺後, 想出一個方法, 只要調整資料呈現角度與標準, 就能夠把不漂亮的數據變得漂亮, 而且沒有說謊, 只是看待數據的角度不一樣而已。
例如某產品一年內的良率在90%~50%波動, 我可以選取其中數據最漂亮的一週呈現, 那週數據良率為90%, 然後把時間以最小字標註在右下角。
要不就是呈現A產品(自家生產)跟B產品(別家生產)的一年內良率平均都是90%, 但是卻是維修後良率, 而業界通行標準是"維修前良率", 俗稱"直通率"。
我沒有數據造假, 我只是沒展現真正有鑑別度的資訊, 而且也標示出來了,你沒看出問題, 那是看報告的人的能力不足。
後來我更看出一個問題, 上司從頭到尾都沒有下令讓我數據造假, 他只是不斷退回報告, 操弄數據的人是我, 但是他的用意就是讓我繳出一份他滿意的報告,他好去跟上面交差。不操弄數據根本做不到, 他心知肚明。於是這個鍋, 得我來背。
投資領域各樣資訊很多都有類似問題, 回測時間太短, 沒有用通用標準等等....
新手很容易被這類似是而非的資訊誤導, 進而做出錯誤決策。
電腦科學中有句話叫 :『Garbage in, garbage out』說明了如果將錯誤的、無意義的資料輸入系統,系統自然也一定會輸出錯誤、無意義的結果。
做主動投資, 資訊鑑別能力非常重要, 公司高層在法說會上的說法也未必全是事實。
建議主動投資者多關注各種認知謬誤,提升決策品質。
不要相信各種未驗證過的單一資訊, 即使是專家, 大師提供的資訊。
兼聽則明, 偏信則暗。相信方法, 不要相信所謂專家或網紅,至少需要複驗。
#垃圾進垃圾出
#資訊操弄
#投資判斷