19/09/2015

「強烈的相關性」成為「致命的假科學」


蘇冠賓

…影星尼可拉凱吉每年演出電影的數目,可以預測當年在游泳池溺斃者數量!
…美國花在科學上的經費愈多,當年就會有愈多自殺死亡的人數!
…每個人吃奶油的量愈少,當年緬因州的離婚率就愈低!

不單只是一般外行人,即使是研究人員,也常把兩事件的「強烈相關性 correlation」誤為「因果關係 causal effect」。最近在 Spurious Correlations 網站上介紹了十幾個很誇張的例子,例如「影星尼可拉凱吉每年演出電影的數目,可以預測當年在游泳池溺斃者數量」,就是的血淋淋教訓。
在生命科學上,如果要說明「因果關係」,應該要有三大基本証據:(1)Prospective controlled study 控制變因的前瞻性研究、(2)Randomized controlled study 隨機分配的控制組研究、(3)Mechanistic experiments for construct validity 符合生物機制的基礎研究。
很多人用「因果關係」來解釋「大數據」或「強烈的相關性」之結果,他們甚至宣稱那是「控制變因的前瞻性研究」。然而,資料庫中的「從2001年追蹤到2010年」,並不是真正的「前瞻性研究」(例如在 Spurious Correlations 的那血淋淋的例子,全都是「追蹤十年」的研究);利用統計方法把干擾因子做控制也不是真正的控制變因;而在資料庫當中配對年齡性別的控制組,更不是隨機分配設計中的控制組。大數據的讀者,應該要明白所謂的「追蹤、控制」,只是讓大數據分析更令人安心一些;結果是為了未來研究的方向聚焦一些,但絕對不能用來做為因果關係的証明。

台灣學者利用健保資料庫發表大量的學術論文,對於提高台灣學術界的能見度有很大的貢獻,然而,嚴謹的作者會都提醒我們,不應該用因果關係來解讀。以「使用A藥物」和「Z病風險增高」的相關性為例,藥物A用在B1到B5的五種病,B病又有C飲食特徵、D生活形態、E共患的疾病…,我們就分不出是A、B、C、D、或E和Z有直接的關係;又,吃藥物A的人可能F倍於常人去看醫生、G倍於常人被檢查出Z病,這時吃藥物A反而變成提高(早)診治Z病的有利因素。 健保資料庫發表的論文,很容易都可以找到更多類似的干擾或交互作用的因素,而這些因素都不是僅靠統計方法就可以完全控制校正的

研究結果為了吸引讀者注意,有時會利用悚動的標題來吸引讀者注意,或在結論上言過其詞,如果不傷大雅,例如「多穿皮鞋者不易得心臟病」的結論,或許不會造成太大的傷害,如果搶上八掛報的頭條也無妨,畢竟站在主編的立場,如果作者文章沒有爆點,也較引發不了讀者的興趣。然而,如果會造成嚴重結果,例如只用健保資料的數據,就在媒體宣布「安眠藥增98%腦癌風險」,造成服用安眠藥病患恐慌或停藥,那麼就會產生巨大的傷害。





相關文章:

  1. 「強烈的相關性」成為「致命的假科學」http://cobolsu.blogspot.tw/2015/09/insane-correlation.html
  2. 對於用台灣健保資料庫發表「A may be associated with the risk of Z」論文的看法http://cobolsu.blogspot.tw/2014/02/a-may-be-associated-with-risk-of-b.html
  3. 「安眠藥增98%腦癌風險」是錯的(蘋果評論全文) http://cobolsu.blogspot.tw/2015/04/98.html 
  4. 國外學者質疑量產論文是台灣之恥? http://cobolsu.blogspot.tw/2016/03/blog-post.html




Post a Comment