自2009年我國(guó)大力推行醫(yī)院信息化開(kāi)始,電子病歷逐漸成為了信息化的主要抓手。電子病歷的應(yīng)用對(duì)于規(guī)范醫(yī)療行為、記錄診療數(shù)據(jù)等方面發(fā)揮了重要的作用。與此同時(shí)也增加了醫(yī)生的工作負(fù)擔(dān),醫(yī)生每天面對(duì)屏幕的時(shí)間越來(lái)越長(zhǎng)。
《美國(guó)急診醫(yī)學(xué)雜志》(American Journal of Emergency Medicine)發(fā)布的一篇調(diào)研報(bào)告表明,醫(yī)生信息錄入任務(wù)占用了其工作時(shí)間的43%,而與病人交流的時(shí)間只剩28%。這種現(xiàn)象,一方面導(dǎo)致了醫(yī)生工作的焦慮,同時(shí)還讓患者感到被冷落。
大模型能為此做什么呢?
大模型能否代替醫(yī)生書(shū)寫(xiě)病歷?
四川大學(xué)華西醫(yī)院信息中心劉加林教授團(tuán)隊(duì)于2023年6月在Journal of Medical Internet Research(JCI)發(fā)表文章“Utility of ChatGPT in Clinical Practice”
文章根據(jù)實(shí)驗(yàn)結(jié)果得出了以下數(shù)據(jù):在臨床決策支持方面,ChatGPT的應(yīng)用已經(jīng)取得了一些成果。研究表明,在診斷方面,ChatGPT在常見(jiàn)病的正確診斷率高達(dá)93.3%。在臨床決策方面,36個(gè)已發(fā)表的臨床案例輸入ChatGPT,并根據(jù)患者年齡、性別和案例的敏感性比較了鑒別診斷、診斷測(cè)試、最終診斷和處理的準(zhǔn)確性。在所有36個(gè)臨床病例中,ChatGPT的總體準(zhǔn)確率達(dá)到了71.7%(95% CI,69.3%~74.1%)。看到這些數(shù)據(jù),醫(yī)生恐怕已經(jīng)開(kāi)始懷疑自己離失業(yè)不遠(yuǎn)了。所謂“外行看熱鬧內(nèi)行看門(mén)道”,當(dāng)科研成果回歸現(xiàn)實(shí)場(chǎng)景,是不是依舊“抗打”呢?醫(yī)院臨床與信息科是大模型在醫(yī)院落地的“買(mǎi)單方”,為了得到真實(shí)反饋,我們對(duì)臨床與信息專(zhuān)家分別做了調(diào)研。華山醫(yī)院的資深住院醫(yī)師張醫(yī)生參與了本次調(diào)研,張醫(yī)生告訴我們,她平時(shí)會(huì)用GPT幫忙翻譯醫(yī)學(xué)文獻(xiàn)、查詢(xún)一些科研學(xué)術(shù)問(wèn)題。張醫(yī)生給出的回復(fù)比較中肯,她認(rèn)為用GPT做病歷輔助書(shū)寫(xiě)有一定的可能性,但對(duì)于輔助診斷、開(kāi)醫(yī)囑等場(chǎng)景還是抱有一些懷疑。大模型在臨床應(yīng)用可能存在的風(fēng)險(xiǎn)和挑戰(zhàn)提示,其中的核心問(wèn)題便是算法的透明性和可解釋性以及數(shù)據(jù)偏見(jiàn)問(wèn)題。
沒(méi)有完美的技術(shù)
只有適合技術(shù)的應(yīng)用場(chǎng)景
OpenAI 的網(wǎng)站上寫(xiě)道:“GPT-4仍然存在許多我們正在努力解決的已知局限性,例如社會(huì)偏見(jiàn)、幻覺(jué)和對(duì)抗性提示。”
本屆大模型的優(yōu)越性使其相較以往表現(xiàn)的更像“人”,這和多項(xiàng)技術(shù)的突破有關(guān),關(guān)鍵之一便是大型深度神經(jīng)網(wǎng)絡(luò)架構(gòu)(Transformer)的應(yīng)用。這項(xiàng)技術(shù)的優(yōu)勢(shì)很明顯,比如強(qiáng)大的學(xué)習(xí)能力能捕捉復(fù)雜的事物特征及特點(diǎn)。這里舉個(gè)“栗子”便于理解,識(shí)別貓狗圖像,傳統(tǒng)機(jī)器學(xué)習(xí)方法為了讓計(jì)算機(jī)識(shí)別圖像中的貓和狗,通常需要手動(dòng)提取圖像的各種特征,如邊緣、紋理、顏色等。這些特征最后會(huì)被傳遞給分類(lèi)器來(lái)做出決策。整個(gè)過(guò)程需要人工設(shè)計(jì)和選擇特征,工程量巨大。而Transformer則可以自動(dòng)學(xué)習(xí)這些特征。模型內(nèi)每個(gè)神經(jīng)元層自動(dòng)提取和組合,最終構(gòu)建出對(duì)貓狗的高級(jí)抽象表示。這意味著神經(jīng)網(wǎng)絡(luò)可以從數(shù)據(jù)中自動(dòng)捕捉和學(xué)習(xí)圖像的各種特征,不需要手動(dòng)特征工程。協(xié)和醫(yī)院的朱醫(yī)生也參與了本次調(diào)研,作為一名醫(yī)生,她對(duì)于大模型卻頗有研究,朱醫(yī)生告訴我們:“現(xiàn)代醫(yī)學(xué)之所以被稱(chēng)為'循證醫(yī)學(xué)',其核心思想便是根據(jù)可靠的臨床研究及數(shù)據(jù)來(lái)制定治療方案,以支持和確保醫(yī)療決策是基于科學(xué)證據(jù)而不是一堆非線性數(shù)據(jù)的推理?!?/span>隨著調(diào)研的深入,大模型在醫(yī)療場(chǎng)景的應(yīng)用愈發(fā)“撲朔迷離”,“大模型+醫(yī)療”該何去何從?上海理工大學(xué)醫(yī)學(xué)信息工程專(zhuān)業(yè)孔祥勇老師對(duì)此有不同的看法。他認(rèn)為,“第一、盡管大模型內(nèi)部被稱(chēng)為'黑盒',不能單獨(dú)用于診斷,但可以給到參考建議;第二、我們討論新技術(shù)應(yīng)用的時(shí)候,不能只考慮優(yōu)勢(shì),同時(shí)也要斟酌技術(shù)本身的特性及局限,這樣才能更客觀的評(píng)價(jià)它到底能夠解決什么類(lèi)型的問(wèn)題。”
大語(yǔ)言模型推動(dòng)人工智能代理發(fā)展
根據(jù)2022年9月份 Gartner 發(fā)布的新興技術(shù)成熟度曲線解釋?zhuān)瑥募夹g(shù)周期上看,LLMs遠(yuǎn)沒(méi)有到比較成熟的生態(tài)繁榮期,現(xiàn)在底層模型技術(shù)還在瘋狂演進(jìn),投資與研發(fā)都集中在模型層和中間層,應(yīng)用層普遍被認(rèn)為還比較早,大模型的應(yīng)用遠(yuǎn)遠(yuǎn)沒(méi)有迎來(lái)爆發(fā)期。
當(dāng)行業(yè)已然陷入「千模大戰(zhàn)」時(shí),前特斯拉總監(jiān)、 OpenAI科學(xué)家Karpathy公開(kāi)表示:“如今AI智能體才是未來(lái)最前沿的方向”“相比大模型訓(xùn)練,OpenAI內(nèi)部目前更關(guān)注Agent領(lǐng)域”。大語(yǔ)言模型的浪潮推動(dòng)了人工智能代理相關(guān)研究快速發(fā)展,成為當(dāng)前通往AGI的主要探索路線。隨著人工智能的發(fā)展,AI Agent(人工智能代理)成為了AI研究中的重要概念,Agent具有智能體的特質(zhì),程序員們戲稱(chēng)它為「AI工具人」。
它的能力可以定義為,以大模型為基座,同時(shí)具備「記憶+主動(dòng)規(guī)劃+工具調(diào)用 」能力的智能體,它由三個(gè)部分組成,分別是大腦、感知、行動(dòng)。控制端(大腦):是Agent的核心,承擔(dān)了信息處理、決策、推理和規(guī)劃等重要任務(wù),Agent的核心規(guī)劃能力便出自于此模塊。感知端:用于理解和分析用戶(hù)的需求,包括聲音、視覺(jué)、觸覺(jué)、嗅覺(jué)等多種感知模式。行動(dòng)端:主要承擔(dān)解決方案的執(zhí)行與輸出,輸出形式包括文本、實(shí)體行動(dòng)、使用工具等。
小結(jié)
在AI與醫(yī)療產(chǎn)業(yè)加速融合的大趨勢(shì)下,AI推動(dòng)數(shù)字健康持續(xù)發(fā)展,促進(jìn)智慧醫(yī)療加速落地,已成為包括醫(yī)療領(lǐng)域?qū)<覍W(xué)者、衛(wèi)健委等業(yè)界人士的共識(shí)。但如何與醫(yī)療場(chǎng)景結(jié)合、實(shí)現(xiàn)應(yīng)用落地,成為政府、醫(yī)院、藥企以及醫(yī)療科技企業(yè)等產(chǎn)業(yè)各方共同關(guān)注的話(huà)題,考量著產(chǎn)業(yè)各方的實(shí)踐智慧和協(xié)作能力。