全球觀察：史上AI最高分！谷歌大模型創(chuàng)美國醫(yī)師執(zhí)照試題新紀錄科學(xué)常識水平媲美人類醫(yī)生

時間：2022-12-28 18:24:42

史上AI最高分，谷歌新模型剛剛通過美國醫(yī)師執(zhí)照試題驗證！

(資料圖片僅供參考)

而且在科學(xué)常識、理解、檢索和推理能力等任務(wù)中，直接與人類醫(yī)生水平相匹敵。在一些臨床問答表現(xiàn)中，最高超原SOTA模型17%以上。

此進展一出，瞬間引爆學(xué)界熱議，不少業(yè)內(nèi)人士感嘆：終于，它來了。

廣大網(wǎng)友在看完Med-PaLM與人類醫(yī)生的對比后，則是紛紛表示已經(jīng)在期待AI醫(yī)生上崗了。

還有人調(diào)侃這個時間點的精準，恰逢大家都以為谷歌會因ChatGPT而“死”之際。

來看看這到底是一個什么樣的研究？

史上AI最高分

由于醫(yī)療的專業(yè)性，今天的AI模型在該領(lǐng)域的應(yīng)用很大程度上沒有充分運用語言。這些模型雖然有用，但存在聚焦單任務(wù)系統(tǒng)（如分類、回歸、分割等）、缺乏表現(xiàn)力和互動能力等問題。

大模型的突破給AI+醫(yī)療帶來了新的可能性，但由于該領(lǐng)域的特殊性，仍需考慮潛在的危害，比如提供虛假醫(yī)療信息。

基于這樣的背景，谷歌研究院和DeepMind團隊以醫(yī)療問答為研究對象，做出了以下貢獻：

提出了一個醫(yī)學(xué)問答基準MultiMedQA，包括醫(yī)學(xué)考試、醫(yī)學(xué)研究和消費者醫(yī)學(xué)問題；

在MultiMedQA上評估了PaLM及微調(diào)變體Flan-PaLM；

提出了指令提示x調(diào)整，讓Flan-PaLM進一步與醫(yī)學(xué)接軌，產(chǎn)生了Med-PaLM。

他們認為「醫(yī)療問題的回答」這項任務(wù)很有挑戰(zhàn)性，因為要提供高質(zhì)量的答案，AI需要理解醫(yī)學(xué)背景、回憶適當?shù)尼t(yī)學(xué)知識，并對專家信息進行推理。

現(xiàn)有的評價基準往往局限于評估分類準確度或自然語言生成指標，而不能對實際臨床應(yīng)用中詳細分析。

首先，團隊提出了一個由7個醫(yī)學(xué)問題問答數(shù)據(jù)集組成的基準。

包括6個現(xiàn)有數(shù)據(jù)集，其中還包括MedQA（USMLE，美國醫(yī)師執(zhí)照考試題），還引入了他們自己的新數(shù)據(jù)集HealthSearchQA，它由搜索過的健康問題組成。

這當中有關(guān)于醫(yī)學(xué)考試、醫(yī)學(xué)研究以及消費者醫(yī)學(xué)問題等。

接著，團隊用MultiMedQA評估了PaLM（5400億參數(shù)）、以及指令微調(diào)后的變體Flan-PaLM。比如通過擴大任務(wù)數(shù)、模型大小和使用思維鏈數(shù)據(jù)的策略。

FLAN是谷歌研究院去年提出的一種微調(diào)語言網(wǎng)絡(luò)，對模型進行微調(diào)使其更適用于通用NLP任務(wù)，使用指令調(diào)整來訓(xùn)練模型。

結(jié)果發(fā)現(xiàn)，F(xiàn)lan-PaLM在幾個基準上達到了最優(yōu)性能，比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA（USMLE）數(shù)據(jù)集，表現(xiàn)超過了此前SOTA模型17%以上。

本項研究中，共考慮了三種不同規(guī)模的PaLM和Flan-PaLM模型變體：80億參數(shù)、620億參數(shù)以及5400億參數(shù)。

不過Flan-PaLM仍存在一定的局限性，在處理消費者醫(yī)學(xué)問題上表現(xiàn)效果不佳。

為了解決這一問題，讓Flan-PaLM更適應(yīng)醫(yī)學(xué)領(lǐng)域，他們進行了指令提示調(diào)整，由此產(chǎn)生Med-PaLM模型。

△示例：新生兒黃疸需要多長時間才能消失？

團隊首先從MultiMedQA自由回答數(shù)據(jù)集（HealthSearchQA、MedicationQA、LiveQA）中隨機抽取了一些例子。

然后讓臨床醫(yī)生5人組提供示范性答案。這些臨床醫(yī)生分布于美國和英國，在初級保健、外科、內(nèi)科和兒科方面具有專業(yè)經(jīng)驗。最終在HealthSearchQA、MedicationQA和LiveQA中留下了40個例子，用于指令提示調(diào)諧訓(xùn)練。

多個任務(wù)接近人類醫(yī)生水平

為了驗證Med-PaLM的最終效果，研究人員從上文提到的MultiMedQA中抽取了140個消費者醫(yī)療問題。

其中100個來自HealthSearchQA數(shù)據(jù)集，20個來自LiveQA數(shù)據(jù)集，20個來自MedicationQA數(shù)據(jù)集。

值得一提的是，這里面并不包含當初用于指令提示調(diào)整以生成Med-PaLM的問題。

他們讓Flan-PaLM和Med-PaLM分別對這140個問題生成答案，又請來一組專業(yè)的臨床醫(yī)生作出回答。

以下圖為例，當被問到“耳朵疼得厲害意味著什么”時，Med-PaLM不僅會一條條列出患者可能感染的疾病，還會建議如果有以下幾種現(xiàn)象應(yīng)該去就醫(yī)。

耳部疼痛可能是幾種潛在疾病的征兆，包括：中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的征兆，比如腦瘤或中風(fēng)。

如果你有嚴重的耳朵疼痛，持續(xù)時間超過幾天，或者有其他癥狀伴隨耳朵疼痛，如頭暈、發(fā)燒、面部無力或麻木，你應(yīng)該去看醫(yī)生進行評估。醫(yī)生可以確定疼痛的原因，并提供適當?shù)闹委煛?/p>

就這樣，研究人員將這三組答案匿名后交給9名分別來自美國、英國和印度的臨床醫(yī)生進行評估。

結(jié)果顯示，在科學(xué)常識方面，Med-PaLM和人類醫(yī)生的正確率都達到了92%以上，而Flan-PaLM對應(yīng)的數(shù)字為61.9%。

在理解、檢索和推理能力上，總體來說，Med-PaLM幾乎達到了人類醫(yī)生的水平，兩者相差無幾，而Flan-PaLM同樣表現(xiàn)墊底。

在答案的完整性上，雖然Flan-PaLM的回答被認為漏掉了47.2%的重要信息，但Med-PaLM的回答有顯著提升，只有15.1%的回答被認為缺失了信息，進一步拉近了與人類醫(yī)生的距離。

不過，盡管遺漏信息較少，但更長的答案也意味著會增加引入不正確內(nèi)容的風(fēng)險，Med-PaLM的答案中不正確內(nèi)容比例達到了18.7%，為三者中最高。

再考慮到答案可能產(chǎn)生的危害性，29.7%的Flan-PaLM回答被認為存在潛在的危害；Med-PaLM的這個數(shù)字下降到了5.9%，人類醫(yī)生相對最低為5.7%。

除此之外，在醫(yī)學(xué)人口統(tǒng)計學(xué)的偏見上，Med-PaLM的性能超過了人類醫(yī)生，Med-PaLM的答案中存在偏見的情況僅有0.8%，相比之下，人類醫(yī)生為1.4%，F(xiàn)lan-PaLM為7.9% 。

最后，研究人員還請來了5位非專業(yè)用戶，來評估這三組答案的實用性。Flan-PaLM的答案只有60.6%被認為有幫助，Med-PaLM的數(shù)量增加到了80.3%，人類醫(yī)生最高為91.1%。

總結(jié)上述所有評估可以看出，指令提示調(diào)整對性能的提升效果顯著，在140個消費者醫(yī)療問題中，Med-PaLM的表現(xiàn)幾乎追上了人類醫(yī)生水平。

背后團隊

本次論文的研究團隊來自谷歌和DeepMind。

繼去年谷歌健康被曝大規(guī)模裁員重組后，這可以說是他們在醫(yī)療領(lǐng)域推出一大力作。

連谷歌AI負責人Jeff Dean都出來站臺，表示強烈推薦！

有業(yè)內(nèi)人士看完后也稱贊道：

臨床知識是一個復(fù)雜的領(lǐng)域，往往沒有一個明顯的正確答案，而且還需要與病人進行對話。

這次谷歌DeepMind的新模型堪稱LLM的完美應(yīng)用。

值得一提的是，前段時間剛通過了美國醫(yī)師執(zhí)照考試另一個團隊。

再往前數(shù)，今年涌現(xiàn)的PubMed GPT、DRAGON、Meta的Galactica等等一波大模型，屢屢在專業(yè)考試上創(chuàng)下新的記錄。

醫(yī)療AI如此盛況，很難想象去年還一度唱衰的光景。當時谷歌與醫(yī)療AI相關(guān)的創(chuàng)新業(yè)務(wù)始終沒有做起來。

去年6月還一度被美國媒體BI曝光正陷入重重危機之中，不得不大規(guī)模裁員重組。而在2018年11月谷歌健康部門剛成立時可謂風(fēng)光無限。

也不只是谷歌，其他知名科技公司的醫(yī)療AI業(yè)務(wù)，也都曾經(jīng)歷過重組、收購的情況。

看完這次谷歌DeepMind發(fā)布的醫(yī)療大模型，你看好醫(yī)療AI的發(fā)展嗎？

關(guān)鍵詞： med-palm flan-palm

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權(quán) 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業(yè) 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務(wù)場景融合價值潛力大 2023-03-29

版權(quán)聲明：
凡注明來網(wǎng)絡(luò)消費網(wǎng)的作品，版權(quán)均屬網(wǎng)絡(luò)消費網(wǎng)所有，未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明"來源：網(wǎng)絡(luò)消費網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責任。
除來源署名為網(wǎng)絡(luò)消費網(wǎng)稿件外，其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文