導(dǎo)讀
衡量統(tǒng)計真實性的“黃金標準”——P值,并非眾多科學(xué)家想象的那樣可靠。
簡介
2010年某個瞬間,馬特·莫德爾(Matt Motyl)離享受科學(xué)榮譽僅有一步之遙。那時,他發(fā)現(xiàn)政治極端主義者看到的世界是確實是非黑即白的。
實驗結(jié)果“非常清楚”。莫德爾這樣回憶道。他是夏洛茨維爾市弗吉尼亞大學(xué)的心理學(xué)博士生。他所做的一項涉及近2000人的研究中的數(shù)據(jù)似乎表明,與左翼或右翼人士相比,政治中立派能更準確地辨別不同色度的灰色。他說:“實驗的假設(shè)很有趣,而且數(shù)據(jù)也能夠有力支持實驗假設(shè)?!庇脕砗饬拷y(tǒng)計顯著性的常用指標是P值。該實驗中的P值為0.01,通常人們會認為這說明實驗結(jié)果“非常顯著”。莫德爾十分有把握能把自己的論文發(fā)表在高影響因子的刊物上。
但是,現(xiàn)實無情地粉碎了幻想。由于擔(dān)心實驗結(jié)果陷入再現(xiàn)性爭論,莫德爾和他的導(dǎo)師布萊恩?諾塞克(Brian Nosek)決定重復(fù)實驗。添加了新的數(shù)據(jù)之后,P值變成了0.59,這個數(shù)字遠未達到學(xué)界一般能接受的顯著性水平0.05。莫德爾觀察到的心理學(xué)效應(yīng)沒有了,他年少成名的夢也被打碎了。
其實,不是莫德爾的數(shù)據(jù)或分析出了什么問題,而是P值這個指標出了問題。從本質(zhì)上講,這個指標出人意料的不穩(wěn)定,它并不是大多數(shù)科學(xué)家想象的那樣可靠和客觀?!癙值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。”伊利諾伊州芝加哥市羅斯福大學(xué)的經(jīng)濟學(xué)家斯蒂芬?茲利亞克(Stephen Ziliak)這樣說,他經(jīng)常批評統(tǒng)計學(xué)的應(yīng)用方式。
出于對實驗可重復(fù)性的擔(dān)憂,P值的問題讓很多科學(xué)家特別發(fā)愁。2005年,加州斯坦福大學(xué)的流行病學(xué)家約翰?埃迪尼斯(John Ioanniadis)指出,大多數(shù)公開發(fā)表的科學(xué)發(fā)現(xiàn)都是有問題的。此后,一連串備受矚目的、有可重復(fù)性問題的研究迫使科學(xué)家重新思考該如何評估研究結(jié)果。
與此同時,統(tǒng)計學(xué)家也在尋找更好的分析數(shù)據(jù)的方法,以避免科學(xué)家錯失重要信息,或在假陽性結(jié)果上浪費精力?!爱?dāng)你的統(tǒng)計思想發(fā)生改變之后,突然,重要的東西也完全變了?!彼固垢4髮W(xué)物理學(xué)家、統(tǒng)計學(xué)家史蒂文·古德曼(Steven Goodman)說:“規(guī)則并不是天注定的,它是由我們所采用的統(tǒng)計方法決定的?!?/span>
對P值的誤用
人們一直都對P值批評不斷。90年前P值誕生以來,被比作過蚊子(因為這東西煩人又揮之不去)、皇帝的新衣(因為P值的方法中到處都是顯而易見卻被所有人無視的問題)以及“不育的風(fēng)流才子”手中的工具——這位“才子”強搶了科學(xué)佳人,卻讓科學(xué)佳人后繼無人。一位研究人員表示,應(yīng)該把“統(tǒng)計推論和假設(shè)檢驗”這個方法改個名字,叫做“統(tǒng)計假設(shè)和推論檢驗”(statistical hypothesis inference testing),大概因為這個名字的首字母縮寫更符合它的氣質(zhì)。
諷刺之處在于,20世紀20年代,英國統(tǒng)計學(xué)家羅納德·費希爾(Ronald Fisher)首次采用P值方法時,并沒有打算把它作為決定性的檢驗方法。他本來只是用P值作為一種判斷數(shù)據(jù)在傳統(tǒng)意義上是否顯著的非正式方法,也就是說,用來判斷數(shù)據(jù)證據(jù)是否值得進行深入研究。P值方法的思路是先進行一項實驗,然后觀察實驗結(jié)果是否符合隨機結(jié)果的特征。研究人員首先提出一個他們想要推翻的“零假設(shè)”(null hypothesis),比如,兩組數(shù)據(jù)沒有相關(guān)性或兩組數(shù)據(jù)沒有顯著差別。接下來,他們會故意唱反調(diào),假設(shè)零假設(shè)是成立的,然后計算實際觀察結(jié)果與零假設(shè)相吻合的概率。這個概率就是P值。費希爾說,P值越小,研究人員成功證明這個零假設(shè)不成立的可能性就越大。
將數(shù)據(jù)和背景知識相結(jié)合得出科學(xué)結(jié)論的過程是流動的、非數(shù)值化的。盡管P值的精確性顯而易見,費希爾還是希望它只是這個過程的一部分。但是,科學(xué)家很快就開始利用P值來保證循證決策的嚴謹與客觀。這一運動是20世紀20年代末,由費希爾的死對頭、波蘭數(shù)學(xué)家耶日·內(nèi)曼(Jerzy Neyman)和英國統(tǒng)計學(xué)家埃貢·皮爾森(Egon Pearson)一手推動的。他們采用了一種新的數(shù)據(jù)分析框架,該框架中包括統(tǒng)計效力、假陽性、假陰性和很多其他如今在統(tǒng)計學(xué)概論課上耳熟能詳?shù)母拍睢K麄z直接無視了P值這個指標。
雙方爭執(zhí)不斷,內(nèi)曼批評費希爾的某些工作從數(shù)學(xué)上講比“毫無用處”還糟糕,而費希爾對內(nèi)曼的方法給出的評價是“無比幼稚”、“在西方學(xué)界中簡直駭人聽聞”。但是,就在雙方爭執(zhí)不下時,其他研究人員的耐心漸漸耗盡了。他們開始給進行研究的科學(xué)家們編寫統(tǒng)計學(xué)指南。但是其中很多作者并非統(tǒng)計學(xué)家,他們對兩種方法都缺乏透徹的理解。結(jié)果就是他們把費希爾粗略的P值計算法硬塞進了內(nèi)曼和皮爾森二人建立的規(guī)則嚴密的統(tǒng)計系統(tǒng)中,創(chuàng)造出了一種混合的方法,然后就出現(xiàn)了像“P值為0.05,即可將統(tǒng)計結(jié)果視為顯著”這樣的規(guī)則。古德曼說:“統(tǒng)計學(xué)家從沒打算以現(xiàn)在的方式使用P值?!?/span>
“P值至上”帶來的惡果
這樣做的后果之一就是人們對P值的意義充滿困惑。我們回過頭來看一下莫德爾關(guān)于政治激進者的研究。大多數(shù)科學(xué)家看到實驗最初統(tǒng)計結(jié)果的P值為0.01,就會認為莫德爾的結(jié)論不成立的概率只有1%。但他們錯了。P值無法告訴研究人員這樣的信息。P值能做的,就是在特定的零假設(shè)條件下對數(shù)據(jù)特征進行總結(jié)分析。研究人員不能利用P值通過反向推導(dǎo)對事實作出判斷。要對事實作出判斷,還需要更多信息,也就是現(xiàn)實世界中該效應(yīng)客觀存在的概率。忽視了這一點,就好像一個人清晨醒來覺得有點頭痛,然后就斷定自己得了某種罕見的腦瘤。這當(dāng)然不是不可能,只是這事兒攤到你頭上的概率太小,所以你得先拿出更多證據(jù)推翻例如過敏反應(yīng)這樣更為常見的原因。結(jié)論越是令人難以置信(比如心靈感應(yīng)、外星人、順勢療法),這種驚人的發(fā)現(xiàn)是假陽性的可能性就越大,不管你的P值有多小。
這些都是比較難懂的概念,但是一些統(tǒng)計學(xué)家試圖用它們來解釋經(jīng)驗法則的失靈(見下圖)。根據(jù)應(yīng)用最廣泛的一種計算方法,如果假設(shè)為該現(xiàn)象存在,那么當(dāng)P值為0.01時,該現(xiàn)象實際并不存在的概率至少為11%;而當(dāng)P值為0.05時,這一概率則會上升到29%。因此,莫德爾的發(fā)現(xiàn)是假陽性的概率超過10%。同樣,結(jié)果可重復(fù)的概率也不是大多數(shù)人所想的99%,而是73%左右。而再得到一個極為顯著的結(jié)果的概率只有50%。換言之,莫德爾的實驗結(jié)果不可重復(fù)的概率高得驚人,就跟拋硬幣猜正面向上,而落下來是反面朝上的概率差不多。
圖中的三個例子證明,即使計算得出的P值非常?。ň哂薪y(tǒng)計顯著性),實驗結(jié)果也可能具有極高的不可重復(fù)率。
批評者也感慨P值會讓研究人員思維混亂。最重要的一個例子是,P值容易使研究者錯誤的估計現(xiàn)象的真實影響。比如去年,一項覆蓋超過19000人的研究顯示,在網(wǎng)上結(jié)識的夫妻比在現(xiàn)實生活中結(jié)識的夫妻離婚的可能性更低(P<0.002),而獲得婚姻滿足感的可能性則更高(P<0.001)。(點擊這里看詳情)。這一現(xiàn)象也許挺讓人印象深刻,但這種現(xiàn)象其實非常不明顯。網(wǎng)上結(jié)識的夫婦離婚率為5.96%,而現(xiàn)實生活中結(jié)識的夫妻離婚率為7.67%,根據(jù)7分幸福感評分表測試中,網(wǎng)上結(jié)識的夫妻幸福感為5.64分,而現(xiàn)實生活中結(jié)石的夫妻幸福感為5.48分。澳大利亞墨爾本市拉籌伯大學(xué)的榮譽心理學(xué)家杰夫·卡明(Geoff Cumming)認為:“為了追求很小的P值而忽略背后更大的問題這一現(xiàn)象是“誘人的顯著性”的犧牲品?!钡?,顯著性并不意味著實際中確實存在相關(guān)性。他說:“我們應(yīng)該問的是,‘某種現(xiàn)象出現(xiàn)的概率有多大?’而不是‘有沒有某種現(xiàn)象?’”
大概,最糟糕的錯誤是某種自欺欺人的行為,賓夕法尼亞大學(xué)的心理學(xué)家尤里·西蒙遜(Uri Simonsohn)及其同事給這種行為起名為“P值操縱”(P-hacking)。這種行為也被稱為數(shù)據(jù)挖掘、數(shù)據(jù)窺探、數(shù)據(jù)釣魚、追逐顯著性或者雙重計算。西蒙遜解釋道:“P值操縱就是不斷地把數(shù)據(jù)量加倍,直到獲得自己想要的結(jié)果?!边@種行為甚至是下意識的。這可能是在線城市詞典中收錄的第一個統(tǒng)計學(xué)詞條,該詞條的例句是:“這一發(fā)現(xiàn)似乎是通過P值操縱做出來的。作者去掉了其中一種條件下的數(shù)據(jù),使總體的P值小于0.05。”或者“她是個P值操縱者,總是一邊收集數(shù)據(jù)一邊看數(shù)據(jù)好不好?!?/span>
這種行為的結(jié)果是,把本應(yīng)帶著質(zhì)疑眼光審視的探索性研究的結(jié)果變得看似確定無疑實際上卻難以重復(fù)。西蒙遜的計算機模擬實驗表明,只需改變研究中的若干數(shù)據(jù)分析方法,就能使假陽性的概率提高到60%。如今的研究都希望能從雜亂的數(shù)據(jù)中發(fā)現(xiàn)并不十分明顯的現(xiàn)象。在這種背景下,尤其容易出現(xiàn)P值操縱。盡管難以估計這種做法有多普遍,但西蒙遜認為這一問題應(yīng)該已經(jīng)很嚴重了。在一項分析研究中,他發(fā)現(xiàn)有跡象表明,很多公開發(fā)表的心理學(xué)論文中,P值都出人意料地分布在0.05左右——就像研究人員通過P值操縱不斷嘗試,直到得到理想的P值。
解決之道
盡管對P值提出批評的大有人在,但統(tǒng)計方法的變革仍然進展緩慢?!百M希爾、內(nèi)曼和皮爾森提出他們的理論后,統(tǒng)計學(xué)的基本框架實質(zhì)上沒有發(fā)生任何改變。”古德曼說。1982年,明尼阿波利斯市明尼蘇達大學(xué)心理學(xué)家約翰·坎貝爾(John Campell)曾經(jīng)抱怨過這個問題,當(dāng)時他還是《應(yīng)用心理學(xué)雜志》的編輯。他說:“要把作者的注意力從P值上轉(zhuǎn)移走幾乎是不可能的,P值小數(shù)點后面的零越多,人們就越抓著P值不愿放手?!?989年,馬薩諸塞州波士頓大學(xué)的肯尼斯·羅斯曼(Kenneth Rothman)創(chuàng)辦了《流行病學(xué)》這本雜志,當(dāng)時他盡力勸阻作者不要使用P值。但是在2001年他離開了雜志社后,這本雜志中又經(jīng)常出現(xiàn)P值了。
埃尼迪斯最近正在PubMed數(shù)據(jù)庫中搜尋數(shù)據(jù),用來研究不同領(lǐng)域的學(xué)者是如何使用P值和其他統(tǒng)計學(xué)證據(jù)的。“只需要粗略瀏覽幾篇最近發(fā)表的論文,你就會發(fā)現(xiàn)P值仍然是非常非常流行的方法?!?/span>
古德曼認為,這種根深蒂固的研究文化需要徹底的改革——人們必須改變統(tǒng)計學(xué)的教授方式、數(shù)據(jù)分析方式以及結(jié)果呈現(xiàn)和解釋的方式;而好在研究人員已經(jīng)開始意識到自己的問題了?!耙压_發(fā)表的眾多科學(xué)發(fā)現(xiàn)都不成立,這給人們敲了個警鐘?!卑D岬纤沟妊芯空叩难芯拷沂玖死碚摻y(tǒng)計學(xué)的批評觀點與統(tǒng)計學(xué)應(yīng)用上的難題之間的聯(lián)系。古德曼說:“統(tǒng)計學(xué)家預(yù)言會出現(xiàn)的問題正是我們當(dāng)前遇到的問題,只是我們還沒有找到全部的解決辦法?!?/span>
統(tǒng)計學(xué)家提出了幾個或許可行的方法。比如卡明認為,為了避免掉進思考結(jié)果是否顯著這個陷阱,研究人員應(yīng)該在文章中提供效應(yīng)量和置信區(qū)間的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)可以反映P值無法反映的信息,也就是效應(yīng)的規(guī)模及其相對重要性。
很多統(tǒng)計學(xué)家還呼吁用基于貝葉斯法則的方法替代P值。這一法則誕生于18世紀,其思想是把概率視為某種結(jié)果的似然性而非出現(xiàn)的頻率。這其中蘊含了某種主觀因素,而這也是統(tǒng)計學(xué)前沿學(xué)者想極力避免的。但是,貝葉斯分析框架能夠使觀察者相對容易地將自己所知道的內(nèi)容融入結(jié)論,以及計算出現(xiàn)新數(shù)據(jù)后概率如何變化。
其他人則贊成一種更普遍的方法,即鼓勵研究人員對同一套數(shù)據(jù)用多種方法進行分析。 盧森堡市公共衛(wèi)生研究中心的統(tǒng)計學(xué)家史蒂芬·森(Stephen Senn)把這個方法比作沒法從墻角里繞出來的掃地機器人。任何數(shù)據(jù)分析方法最終都會有行不通的時候,這時就需要用常識將分析拖回正軌。他認為倘若用不同的方法得到了不同的結(jié)論,“就表明研究者應(yīng)該繼續(xù)開動腦筋,努力找到原因”,而這能讓我們更好地理解背后的真相。
西蒙遜認為科學(xué)家為自己辯解最有利的武器就是承認一切。他鼓勵作者在論文中寫上這樣一段話:“論文中列出了研究中我們確定樣本大小的方法、所有舍棄的數(shù)據(jù)(如果有的話)以及研究中用到的所有操作和測量方法?!蓖ㄟ^這種方式表明文章沒有進行“P值操縱”。他希望通過披露這些信息,能夠阻止P值操縱行為,或者至少能提醒讀者注意論文中的疑點,并自行做出判斷。
紐約市哥倫比亞大學(xué)政治學(xué)家、統(tǒng)計學(xué)家安德魯·格爾曼(Andrew Gelman)表示,目前另一個受到關(guān)注的類似方法是兩階段分析法,也叫做“先預(yù)定后重復(fù)法”(preregistered replication)。這種方法中,探索與驗證分析通過不同的方式進行,而且要在論文中清楚地標示出來。例如,研究人員首先做兩個探索性的小研究,用來發(fā)現(xiàn)可能比較有趣的現(xiàn)象,而又不需要太擔(dān)心假陽性結(jié)論;而不是一下做4個單獨的小研究,然后在同一篇論文中寫出所有的結(jié)果。然后,在上述研究結(jié)果的基礎(chǔ)上,作者再決定用什么方法來驗證他的發(fā)現(xiàn),并在Open Science Framework這樣的數(shù)據(jù)庫中向公眾提前披露自己的研究意向。然后,他們再進行重復(fù)實驗,并將結(jié)果之前與探索性研究的結(jié)果一同發(fā)表。格爾曼表示這種方法使研究分析更加自由和靈活,同時也能使研究者保持嚴謹,并降低公開發(fā)表的假陽性結(jié)果的數(shù)量。
古德曼還表示,進一步來說,研究人員需要意識到傳統(tǒng)統(tǒng)計學(xué)方法的局限性。他們應(yīng)該在研究中融入對假設(shè)似然性和研究局限性的科學(xué)判斷,而這些內(nèi)容通常情況下會被放到討論部分——包括相同或類似實驗的結(jié)果、研究人員提出的可能的機制以及臨床認識等等。馬里蘭州巴爾的摩市約翰霍普金斯大學(xué)布隆伯格公共衛(wèi)生學(xué)院的統(tǒng)計學(xué)家理查德·羅耶兒(Richard Royall)認為,科學(xué)家應(yīng)該在實驗結(jié)束之后思考三個問題:“支持數(shù)據(jù)是什么?”、“我應(yīng)該相信什么樣的數(shù)據(jù)?”以及“下一步應(yīng)該怎么做?” 單一方法無法回答上述全部問題。古德曼說:“數(shù)字僅僅是科學(xué)討論的開始,而不是結(jié)束?!?/span>--
祝工作愉快!如需要智天下顧問服務(wù)的,請隨時與我聯(lián)系!
全國服務(wù)熱線:0755-33153265 | 聯(lián)系我們