蘇冠賓
蘋果日報頭版的標題「安眠藥增98%腦癌風險」很有爆炸性,但不幸的是,這個結論是錯誤的!簡單來說,這篇論文是利用健保資料庫的「大資料」來做的分析,所以絕對不能用來推斷因果關係!
台灣學者利用健保資料庫發表大量的學術論文,對於提高台灣學術界的能見度有很大的貢獻,然而,嚴謹的作者會都提醒我們,不應該用因果關係來解讀。以「使用A藥物」和「Z病風險增高」的相關性為例,藥物A用在B1到B5的五種病,B病又有C飲食特徵、D生活形態、E共患的疾病…,我們就分不出是A、B、C、D、或E和Z有直接的關係;又,吃藥物A的人可能F倍於常人去看醫生、G倍於常人被檢查出Z病,這時吃藥物A反而變成提高(早)診治Z病的有利因素。
健保資料庫發表的論文,很容易都可以找到更多類似的干擾或交互作用的因素,而這些因素都不是僅靠統計方法就可以完全控制校正的。
很多人宣稱他們的大數據是「控制變因的前瞻性研究」。然而,資料庫中的「從2001年追蹤到2010年」,並不是真正的「前瞻性研究」(例如 Spurious Correlations 中的案例);利用統計方法把干擾因子做控制,也不是真正的控制變因;而在資料庫當中配對年齡性別的控制組,更不是隨機分配設計中的控制組。總之,「強烈的相關性」的研究,千萬不要成為「荒謬致命的假科學」。
很多人宣稱他們的大數據是「控制變因的前瞻性研究」。然而,資料庫中的「從2001年追蹤到2010年」,並不是真正的「前瞻性研究」(例如 Spurious Correlations 中的案例);利用統計方法把干擾因子做控制,也不是真正的控制變因;而在資料庫當中配對年齡性別的控制組,更不是隨機分配設計中的控制組。總之,「強烈的相關性」的研究,千萬不要成為「荒謬致命的假科學」。
這類論文為了吸引讀者注意,有時在標題或結論上言過其詞。其實期刊和媒體的一樣,也會利用悚動的標題來吸引讀者注意,但是理性客觀的讀者會有良好的批評性。站在主編的立場,如果作者沒有膽量多做一些詮釋,文章沒有爆點,也就較引發不了讀者的興趣,「吸引力」在科學性期刊的標準雖然較嚴謹,但仍是通則。所以,看八卦週刊要懷疑,看科學期刊也要理性批判。
然而,如果能理性解讀、不被誤導,這類研究除了可以提高台灣學術界的能見度,也可以當做深入研究的前哨,研究團隊若能繼續利用細胞或動物模型的基礎研究去探索機轉,並用前瞻性研究去証實他們報告的現象,當然就會有真正的科學價值。
有人擔憂這種論文會讓媒體刻意誤導,造成民眾用藥的恐慌,因此排斥貶低此類論文。其實,科學的精神之一,就是對同一個結果(現象),包容所有可能的合理的解釋。發表文章的技巧,也會把合理的解釋包裝成較有可看性(有時需勇於挑戰尺度,並客觀帶過其他甚至相反的解釋)。資訊充斥,實証正正反反是常態,保有對現象的好奇和存疑,才能包容「爭議性」、挑戰「必然性」。能夠對於同一個研究結果有正反兩面的批判,基本上應該是可喜的。
我想,病人的看到報紙的恐慌,就只好留給照護他們身心健康的好醫師去安定了。
後註1:2015/5/1日的蘋果日報有刊登出來,如果沒有太多時間跟病人說明,可以印出來給病人閱讀,就算讀者沒有完全了解研究推論的謬誤,光看標題應該就有安撫的效果。 http://www.appledaily.com.tw/realtimenews/article/forum/20150501/602313/
後註2:作者後來在 YouTube的補充說明(https://youtu.be/hf4AuVevhoE),比起蘋果日報的誇大渲染,有比較保守的說法,相當有學者的風範,令人敬佩。然而,在蘋果頭版大肆宣傳,若有五百萬人看到新聞,那麼上YouTube澄清僅五百人瀏覽就不成比例了,這個案例可以做為科學家或專家受訪時的警惕。
後註2:作者後來在 YouTube的補充說明(https://youtu.be/hf4AuVevhoE),比起蘋果日報的誇大渲染,有比較保守的說法,相當有學者的風範,令人敬佩。然而,在蘋果頭版大肆宣傳,若有五百萬人看到新聞,那麼上YouTube澄清僅五百人瀏覽就不成比例了,這個案例可以做為科學家或專家受訪時的警惕。
後註3:2016年國外學者投書到醫學期刊,指出台灣教授用「健保資料庫」量產論文,並質疑這些論文的學術價值,引發爭議。
相關文章:
相關文章:
- 強烈的相關性成為「致命的假科學」http://cobolsu.blogspot.tw/2015/09/insane-correlation.html
- 對於用台灣健保資料庫發表「A may be associated with the risk of Z」論文的看法http://cobolsu.blogspot.tw/2014/02/a-may-be-associated-with-risk-of-b.html
- 安眠藥增98%腦癌風險是錯的(蘋果評論全文) http://cobolsu.blogspot.tw/2015/04/98.html
- 國外學者質疑量產論文是台灣之恥? http://cobolsu.blogspot.tw/2016/03/blog-post.html
https://youtu.be/hf4AuVevhoE
ReplyDelete作者後來在 YouTube的補充說明(https://youtu.be/hf4AuVevhoE),比起蘋果日報的誇大渲染,有比較保守的說法,相當有學者的風範,令人敬佩。但仍然沒有提醒誤做因果解讀,即:「健保資料庫研究,並沒有「前瞻性地控制變因」,也「沒有隨機分配安眠藥使用和不使用族群」,雖能做為未來設計前瞻性或機轉研究的參考,但不應該用因果關係來解讀」。
ReplyDelete健保資料庫中,Hypnotics會用在經診斷或未經診斷的K族群,這群K族群如果不吃hypnotics,原本會有16個會得腦癌,結果因為吃了hypnotics而改善K病,使K病族群罹癌症減半,從10萬16個變成8個會得癌症,結果,事實是hypnotics而減半K病族群罹癌症的風險,而非大資料分析後「安眠藥增98%腦癌風險(10萬中4個變成8個)」的詮釋。由於健保資料庫沒有辦法隨機分配K病族群,也不能控制K病這項病因,所以不能做因果推論。
上蘋果頭版有五百萬人看到新聞,但上YouTube澄清僅五百人瀏覽,這個案例可以做為科學家或專家受訪時的警惕。
朱敬一院士 大數據瞎掰症候群
ReplyDeletehttp://www.businesstoday.com.tw/article-content-99205-115527
Shiow-Wen Yang
ReplyDelete4月30日 · 編輯紀錄 ·
https://www.facebook.com/sophieysw/posts/10152675196535194?fref=nf&pnref=story
來說幾句關於最近發表出來關於BZD和cancer的文章。(Is Long-term Use of Benzodiazepine a Risk for Cancer? Iqbal et al., Medicine, Volume 94(6), February 2015, p e483)
第一,作者並沒有將cancer診斷前的一段時間,比方說6個月的BZD使用去除掉(或是至少3個月前的安眠藥使用不能列入exposure),這會產生reverse causality的狀況。1)沒有理由可以強烈懷疑6個月的BZD使用會造成cancer。2)某些cancer在診斷之前即已經存在一段時間,並且產生症狀,這些症狀可能會造成失眠,並使患者為失眠就醫並開始使用安眠藥。在文章內的幾種癌症中,幾個和BZD有關連性的cancer,都有可能是這樣的狀況產生的,如brain cancer、esophageal cancer、pancreatic cancer、bladder cancer、prostate cancer等等都有可能因為癌症本身的其他症狀造成失眠,因而就診而開立安眠藥的情形,然後在一段時間後被診斷出來有癌症。因此當我們仍把診斷前的安眠藥使用也考慮進來,會造成在即使事實上安眠藥和癌症無關,但因為分析方式上的錯誤而產生安眠藥與癌症的相關性。
也可以由附件的幾個圖表來發現這樣的狀況:
在附件的圖中(Figure S2),也可以發現在cases的部份,在很靠近診斷前的幾個月dispenses升高。
附件的table S2中,使用不同種的BZD在不同的使用時間長短的risk並沒有呈現明顯dose-response的狀況,即61-90天的cancer risk和超過2年以上的使用的caner risk並未看出來有明顯的差異。(不過就純理論上而言,一個致癌因子開始出現並且累積到癌症出現也許可能是超過10年以上的,所以要在上述的時間內看到大的risk變化也不是件容易的事情。)
在附件table S4中defined daily dose非常多種的BZD反而呈現了低的daily dose有較高的cancer risk。這和作者提出的結論是相反的,大部份應該要高劑量呈現高的risk。(或是某種劑量以上,呈現高的risk) (難道要和病人說,要吃安眠藥劑量就吃大一點,不然吃低的劑量,得癌的風險反而比較高嗎?)(但用文中的defined daily dose來做為exposure measure的方式是否合理還有待考慮,比方說只吃二個月BZD的defined daily dose為1和吃2年BZD的defined daily dose為1的風險是否一樣?)
第二,作者提出的幾個認為比較安全的BZD,都是臨床上比較不常使用的藥(除了diazepam,但這個是老藥,在新個案上比較不會開立,所以和癌症比較不會發生關連,這有部份也可能反應作者錯誤的結論)。在table 2上可以發現作者說的幾個比較安全的藥cases和controls的數量都小。p-value未達significant level或是confidence interval包含null hypothesis,只能說是無法推翻null hypothesis,也許是events和sample sizes不夠的原因,但絕無法依此用來說明這些藥物是安全的。(作者要再加強一下統計部份)
第三,雖然propensity score經常用來處理confounding by indication的狀況,但作者的propensity score到底放進了哪些covariates來建立model,無法從文章裡得知,也無從評估confounders的處理狀況如何。(另外作者說"Since the chance for cancer can be confounded by competing risk, therefore we also identified comorbidities that may be associated with mortality based on diagnostic codes from outpatient datasets prior to the outcome of interest.",這段看不懂作者的rationale在哪裡,改天有空再來研究。他們的exposure是BZD,outcome是caner,看不太懂為什麼這些有可能會造成死亡的疾病會是confounders)
第四,作者似乎是從第一次開始使用安眠藥或是第一次門診就診當成survival analysis的T0,而且這個cohort是由他們原本選的cases及controls所組成,然後由這個cohort去組成survival analysis的exposure及comparison group;並且exposure group的定義是有開立2個月以上的安眠藥即算入exposure group,安眠藥本身並非當成time-dependent variable來處理。(這個model並不合理,除非我們假設只要一吃安眠藥,這個安眠藥的影響性就一直存在,即使不繼續吃,還是存在效應。)
就上所述,這個survival analysis的cohort不是原本健保資料庫的2百萬抽樣檔而是由cases及controls來的。(這篇文章以1:6 ratio matched by propensity-score, sex, age, calendar year來選cases及controls。) 這是錯誤的分析方式,作者搞混了。survival analysis是比較類似cohort study的分析方式,只是加上時間和censored的因子。而不是選了cases及controls,然後再來分析exposure的影響性。比方說,通常用的狀況是一群人(未經預後狀況的sampling)給與了不同的治療,然後再來看預後狀況如何,而不是選了一群治療失敗的人及一群治療成功的人,然後去跑survival analysis看之前的治療選項有沒有差。
第五,相信作者除了呈現在文章內的癌症,應該還是有分析其它的癌症,但未出現在文章內,文章呈現的p-value沒有做multiple comparisons的adjustment。這種情況下,p-value的意義完全不大,只能說sample size是夠大的。(就像很多人私底下不知道試了多少的分析-不論是big data、 genomics、proteomics等等的研究 ,然後發現哪一個有意義,就發表哪一個,這個不叫做有意義) (但說了這些,想了幾天之後,覺得還是要幫作者群說一些優點的部份。這份文件method section寫得很清楚,所以才有辦法讓看的人知道做了哪些步驟,評估這些分析方式是否合理。附件的資料也很完整。這些詳細的記載非常重要。)
Fisher投資踩坑筆記 · ·
ReplyDelete#倖存者偏差 在投資資訊的應用
對總經趨勢有興趣的主動投資新手一定要閱讀這篇,可以保命。
倖存者偏差(survivorship bias),是一種邏輯謬誤。只關注"倖存"的資訊,忽略那些沒有倖存的(可能因為無法觀察到),從而得到錯誤的認識。
倖存者偏差最有名的案例是二次世界大戰期間,美國統計學家沃德教授(Abraham Wald)被授命研究《如何降低飛機被擊中的機率》的命題。
沃德教授研究發現:飛回來的飛機中機翼的彈孔最多,飛行員座艙和機尾則最少。
依照當時的航空技術,機器的裝甲為避免過重只能局部強化,軍方指揮官認為既然機翼最容易中彈,當然應該加強機翼的防護,而沃德教授則建議應該增加飛行員座艙和機尾的防護。
沃德教授認為指揮官的判斷就是犯了「倖存者偏差」這個邏輯歸因的錯誤。
從統計觀點來看,被多次擊中機翼的轟炸機,依然能夠安全返航,而在飛行員座艙和機尾的位置彈孔最少。那並非真的不會中彈,而是一旦中彈,根本就回不來了。
後來事實證明教授的建議是正確的,聯軍轟炸機被擊落的比例顯著降低。
(以上資訊來自維基百科)
--------------------我是分隔線----------------------
在許多總經數據研究中, 很多報告曾舉出例子經濟衰退前都必然有某些事件, 概率為100%。
很多人對此類回測奉為聖經, 但對於此類數據, 建議最好自己回測過一遍, 並且拉長時間範圍。
很多時候, 真正重要的資訊是那些沒被表現出來的數據, 有如那些沒有飛回來的飛機。
最近的就是殖利率倒掛, 自1970年以來, 7次衰退前, 都有殖利率倒掛此一現象的出現。
於是人們便認為殖利率倒掛就預告經濟即將衰退。
也有媒體宣稱: 殖利率倒掛收斂時就是景氣衰退發生時。
但媒體通常不會告訴您,
經濟衰退前都有殖利率倒掛此一現象, 100%。
但殖利率倒掛一共發生過11次, 預言了其中的7次衰退。
殖利率倒掛與經濟衰退並非出現一次倒掛就衰退一次。
所以也就沒有"殖利率倒掛收斂時就是景氣衰退發生時"這種事。
殖利率倒掛其實是表示經濟過熱, 未來看淡, 然而還有多少好日子, 沒人知道。
在高通膨時期經常出現,預告準度低, 低通膨時期出現次數較少,預告準度高。
我曾經跟一朋友爭論, 主動投資究竟是要自己做研究?還是只看別人的研究就可以?我也看別人的研究, 但我有興趣的資訊會去複驗, 真相往往就能水落石出,
通常跟原先的認知有落差。
--------------------我是分隔線----------------------
以前我曾在一個強大的國度工作生活多年,最大收穫就是從某個神奇的團體學到一件事: 如果要操縱一個人的行為, 只需要操縱其資訊即可。
試想: 如果要一個人自己從一個房間跑出去? 是不是只需要他相信發生了火災?
操縱一個人只需要封閉其多元資訊管道, 並千口一詞, 自然能讓他相信一切謊言。
在前東家上班時, 上司喜歡看數據漂亮的報告, 他也從不去第一線, 只看報告,然而真實情況遠遠並非如此。
於是上司會不斷地退回報告, 我在絞盡腦汁, 3天不睡覺後, 想出一個方法, 只要調整資料呈現角度與標準, 就能夠把不漂亮的數據變得漂亮, 而且沒有說謊, 只是看待數據的角度不一樣而已。
例如某產品一年內的良率在90%~50%波動, 我可以選取其中數據最漂亮的一週呈現, 那週數據良率為90%, 然後把時間以最小字標註在右下角。
要不就是呈現A產品(自家生產)跟B產品(別家生產)的一年內良率平均都是90%, 但是卻是維修後良率, 而業界通行標準是"維修前良率", 俗稱"直通率"。
我沒有數據造假, 我只是沒展現真正有鑑別度的資訊, 而且也標示出來了,你沒看出問題, 那是看報告的人的能力不足。
後來我更看出一個問題, 上司從頭到尾都沒有下令讓我數據造假, 他只是不斷退回報告, 操弄數據的人是我, 但是他的用意就是讓我繳出一份他滿意的報告,他好去跟上面交差。不操弄數據根本做不到, 他心知肚明。於是這個鍋, 得我來背。
投資領域各樣資訊很多都有類似問題, 回測時間太短, 沒有用通用標準等等....
新手很容易被這類似是而非的資訊誤導, 進而做出錯誤決策。
電腦科學中有句話叫 :『Garbage in, garbage out』說明了如果將錯誤的、無意義的資料輸入系統,系統自然也一定會輸出錯誤、無意義的結果。
做主動投資, 資訊鑑別能力非常重要, 公司高層在法說會上的說法也未必全是事實。
建議主動投資者多關注各種認知謬誤,提升決策品質。
不要相信各種未驗證過的單一資訊, 即使是專家, 大師提供的資訊。
兼聽則明, 偏信則暗。相信方法, 不要相信所謂專家或網紅,至少需要複驗。
#垃圾進垃圾出
#資訊操弄
#投資判斷