在醫(yī)學領域,LLM不僅能通過醫(yī)學研究生的水平考試,還能幫助臨床醫(yī)生進行診斷。不過,這些均為受控基準測試中的表現(xiàn)。那么,在無法核對答案、患者眾多且資源有限的真實環(huán)境中,LLM表現(xiàn)究竟如何呢?為找到答案,兩個獨立研究團隊分別在盧旺達與巴基斯坦進行了研究。 在盧旺達,研究人員測試了LLM能否在4個衛(wèi)生資源匱乏地區(qū)為患者提供準確的臨床信息?!斑@些地區(qū)面臨醫(yī)護人員短缺問題,無法接診全部患者,多數(shù)患者由培訓不足的社區(qū)工作者來接診和分診?!痹撗芯孔髡?、非營利性國際健康組織PATH的首席AI官Bilal Mateen說。 Mateen團隊讓當?shù)丶s100名社區(qū)衛(wèi)生工作者編制了一份包含5600個臨床問題的清單,均為患者最常提出的問題。研究人員將5個LLM對其中約500個問題的回答,與經(jīng)過培訓的當?shù)嘏R床醫(yī)生的回答進行了對比。結果顯示,在11個評價指標上,所有LLM的表現(xiàn)均優(yōu)于當?shù)蒯t(yī)生。此外,LLM還可使用盧旺達語回答約100個問題。 Mateen表示,與人類相比,LLM還有另一個優(yōu)勢——可全天候接受社區(qū)健康工作者的咨詢。此外,LLM成本低廉——醫(yī)生的費用為5.43美元、護士為3.80美元,而LLM用英語回答的成本為0.0035美元、用盧旺達語回答的成本為0.0044美元。 但美國貝斯以色列女執(zhí)事醫(yī)療中心的臨床和AI研究員Adam Rodman對將LLM與人類表現(xiàn)進行比較持懷疑態(tài)度,認為基于書面答案的評估機制更適合衡量模型性能,對人類表現(xiàn)則不那么有效。 在巴基斯坦,由拉合爾管理科學大學的計算機科學家Ihsan Qazi領導的研究團隊,對LLM在真實環(huán)境中的應用進行了研究。結果發(fā)現(xiàn),在缺乏醫(yī)學專家、患者數(shù)量龐大、診斷錯誤率高的巴基斯坦,LLM可以提高診斷準確性。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權。