亚洲二区三区在线,久久久久高清毛片一级,亚洲综合一区二区三区不卡,中文不卡av

歡迎訪問科技網!

您當前的位置: 首頁 > 科技新聞

完敗于人類醫生!AI臨床決策草率且不安全,最低正確率僅13%

發布時間:2024-08-10 07:28:35 來源:學術頭條 字號: [ 大 ] [ 中 ] [ 小 ]

人類醫生,會因為 ChatGPT 等大模型紛紛下崗嗎?

這種擔心,并非空穴來風。畢竟,谷歌的大模型(Med-PaLM 2)已經輕松拿下了美國醫學執照考試,達到了醫學專家的水平。

然而,一項最新研究表明:在臨床方面,人類醫生完勝目前的人工智能(AI)模型,無需過于擔心個人「失業問題」。

相關研究論文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”為題,已于近日發表在科學期刊 Nature Medicine 上。

圖片
該研究發現,即使是目前最先進的大語言模型(LLM)也無法為所有患者做出準確診斷,且表現明顯差于人類醫生——

醫生的診斷正確率為 89%,而 LLM 的診斷正確率僅為 73%。在一個極端情況(膽囊炎診斷)下,LLM 正確率僅為 13%。

更令人驚訝的是,隨著對病例信息的了解增多,LLM 的診斷準確度反而會降低,有時甚至會要求進行一些可能對患者有嚴重健康風險的檢查。

化身急診科醫生,LLM 表現如何?

盡管 LLM 可以輕松拿下美國醫學執照考試,但醫學執照考試和臨床案例挑戰適合只測試考生的一般醫學知識,難度遠不如日常復雜的臨床決策任務

臨床決策是一個多步驟的過程,需要從不同來源收集和整合數據,并不斷評估事實以達成基于證據的患者診斷和治療決策。

為了進一步研究 LLM 在臨床診斷中的潛力,來自慕尼黑工業大學的研究團隊及其合作者基于醫療信息市場重癥監護數據庫(MIMIC-IV)制作了一個涵蓋 2400 個真實患者案例和 4 種常見腹部疾病(闌尾炎、胰腺炎、膽囊炎和憩室炎)的數據集,模擬現實的臨床環境,重現從急診到治療的過程,從而評估其作為臨床決策者的適用性。

圖片

圖|數據集來源及評估框架。該數據集來源于 MIMIC-IV 數據庫中的真實病例,包含住院期間記錄的全面電子健康記錄數據。評估框架反映了一個現實的臨床環境,從多個標準對 LLM 進行全面評估,包括診斷準確性、遵循診斷和治療指南的情況、遵循指令的一致性、解釋實驗室結果的能力,以及對指令變化、信息量和信息順序變化的魯棒性。ICD,國際疾病分類;CT,計算機斷層掃描;US,超聲波;MRCP,磁共振胰膽管成像。

研究團隊測試了 Llama 2 及其衍生版本,包括通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和醫學領域對齊的模型(如 Clinical Camel 和 Meditron)。

由于 MIMIC 數據的隱私問題和數據使用協議,數據不能用于如 OpenAI 或 Google 的外部 API,因此未能測試 ChatGPT、GPT-4 和 Med-PaLM。值得注意的是,Llama 2、Clinical Camel 和 Meditron 在醫學許可考試和生物醫學問答測試中的表現已達到甚至超過了 ChatGPT。

測試對照組為四位來自兩個國家且有不同年限(分別是 2 年、3 年、4 年和 29 年)急診經驗的內科醫生。結果顯示,LLM 在臨床診斷中的表現遠不如人類醫生。

1.LLM 的診斷性能顯著低于臨床

醫生結果顯示,當前 LLM 在所有疾病的整體表現上顯著遜色于醫生(P < 0.001),診斷準確性差距在 16%-25% 之間。雖然模型在簡單的闌尾炎診斷中表現較好,但在膽囊炎等其他病理的診斷中表現不佳,特別是 Meditron 模型在膽囊炎診斷中失敗,常將患者診斷為“膽結石”。

專業醫學 LLM 在整體表現上未顯著優于其他模型,而當 LLM 需要自行收集所有信息時,其表現會進一步下降。

圖片

圖|全信息提供條件下的診斷準確率。數據基于 MIMIC-CDM-FI 的一個子集(n=80),每個條形圖上方顯示了平均診斷準確率,垂直線表示標準偏差。LLM 的平均表現顯著較差(P < 0.001),尤其是在膽囊炎(P < 0.001)和憩室炎(P < 0.001)方面。

圖片

圖|自主臨床決策場景下的診斷準確率。對比全信息提供場景下,模型判斷正確率整體都有明顯下降。LLM 在診斷闌尾炎時表現最好,但在膽囊炎、憩室炎和胰腺炎這三種病理上表現較差。

2.LLM 的臨床決策草率且不安全

研究團隊發現,LLM 遵循診斷指南方面表現不佳,容易遺漏患者的重要身體信息。此外在安排患者必要實驗室檢查方面缺乏一致性。LLM 在解讀實驗室結果方面也有明顯不足。這表明它們在沒有充分了解患者病例的情況下草率診斷,對患者健康構成嚴重風險。

圖片

圖|LLM 推薦治療方式評估。期望的治療方案是根據臨床指南和數據集中患者實際接受的治療確定的。在 808 名患者中,Llama 2 Chat 正確診斷了 603 人。在這 603 名患者中,Llama 2 Chat 在 97.5% 的情況下正確推薦了闌尾切除術。

3.LLM 仍需要大量的醫生臨床監督

另外,當前所有的 LLM 在遵循基礎醫學指導方面表現不佳,在每 2-4 個病例中出現錯誤,且每 2-5 個病例中就會虛構不存在的指導。

圖片

圖|LLM 在不同數據量下的表現。該研究比較了每個模型在使用所有診斷信息與僅使用單一診斷檢查和現病史的表現。對于幾乎所有疾病,在 MIMIC-CDM-FI 數據集中,提供所有信息并未導致最佳表現。這表明,LLM 無法集中于關鍵事實,當提供過多信息時,表現會下降。

該研究還表明,為每個模型提供最佳性能的信息順序對于每種病理都是不同的,這無疑進一步增大了后續優化模型的難度。在沒有廣泛的醫生監督和事先評估的情況下,無法可靠地完成任務。總的來說,它們在遵循指令、處理信息的順序以及對相關信息的處理上存在明細缺陷,因此需要大量臨床監督以確保其正確運行。

雖然該研究發現了 LLM 在臨床診斷下的各種問題,但 LLM 在醫學方面的前景依然巨大,很可能更適合根據病史和測試結果做出診斷。研究團隊認為,該研究工作在以下兩個方面具有進一步拓展的空間

模型驗證和測試:進一步的研究應集中在對 LLM 進行更全面的驗證和測試,以確保其在真實臨床環境中的有效性。

多學科合作:建議將 AI 專家與臨床醫生密切合作,以共同開發和優化適用于臨床實踐的 LLM,并解決實際應用中的問題。

AI 在如何顛覆醫療?

不只是上述研究,來自美國國立衛生研究院(NIH)的團隊及其合作者,也發現了類似的問題——在回答 207 個圖像挑戰問題時,GPT-4V 雖然在選擇正確診斷方面得分很高,但在描述醫學圖像和解釋診斷背后的原因方面經常會犯錯

盡管 AI 目前還遠不如人類專業醫生,但其在醫療行業的研究與應用,一直是國內外科技公司和科研高校競相角逐的重要“戰場”。

例如,谷歌發布的醫療 AI 大模型 Med-PaLM2,具備了強大的診斷和治療能力,同時也是第一個在 MedQA 測試集中達到“專家”水平的大模型。

圖片

清華大學研究團隊提出的“智能體醫院”(Agent Hospital),可以模擬治療疾病的整個過程,其核心目標是讓醫生智能體學會如何在模擬環境中治療疾病,甚至可以不斷從成功和失敗的病例中積累經驗實現自我進化。

圖片

哈佛醫學院領銜開發了一個用于人類病理學的視覺語言通用 AI 助手——PathChat,其能夠在近 90% 的情況下從活檢切片中正確識別疾病,其表現優于 GPT-4V 等目前市面上的通用 AI 模型和專業醫療模型。

圖片

圖|指令微調數據集和 PathChat 構建

日前,OpenAI CEO Sam Altman 參與成立了一家新公司 Thrive AI Health,旨在借助 AI 技術幫助人們改善日常習慣,降低慢性病死亡率。

他們稱,超個性化的 AI 技術可以有效地改善人們的生活習慣,從而預防和管理慢性疾病,減輕醫療經濟負擔,并提高人們的整體健康水平。

如今,AI 在醫療行業的應用已經從最初的實驗階段逐漸過渡到實際應用階段,但距離幫助臨床醫生增強他們的能力、改善臨床決策,甚至直接取代,或許依舊有很長的一段路要走。

【免責聲明】本文轉載自網絡,與科技網無關。科技網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

主站蜘蛛池模板: 仪征市| 土默特左旗| 汉中市| 德昌县| 海兴县| 南平市| 牟定县| 阿勒泰市| 莱西市| 昭苏县| 广州市| 四平市| 鸡东县| 昌吉市| 乐山市| 阆中市| 华池县| 金昌市| 安多县| 阿克陶县| 遂昌县| 绥阳县| 诸暨市| 罗源县| 阳谷县| 盈江县| 安泽县| 台中市| 定陶县| 南城县| 元阳县| 子长县| 佛冈县| 宁武县| 琼中| 荆州市| 花莲县| 沭阳县| 光泽县| 安化县| 南川市|