制服丝袜成人电影|欧洲美女激情AV|久久天堂无码AV|日本一及黄色电影一及黄色|天摸天操天啪欧美|AA级黄色一级特黄成人大片|日韩特级AAA毛片|特级黄色成人录像|激情啪啪综合亚洲A黄|特黄一级AAA日本在线观看

歡迎訪問(wèn)智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁(yè)
 
當(dāng)前位置:首頁(yè) > 資訊 > 市場(chǎng)

前沿:利用AI大模型,破解醫(yī)療數(shù)據(jù)困境

發(fā)布時(shí)間:2024-04-30 來(lái)源:醫(yī)學(xué)AI在線AIMonline 瀏覽量: 字號(hào):【加大】【減小】 手機(jī)上觀看

打開(kāi)手機(jī)掃描二維碼
即可在手機(jī)端查看

隨著AI技術(shù)飛躍,醫(yī)療基礎(chǔ)模型在2023年逐漸涌現(xiàn)。它們不僅能深刻理解臨床數(shù)據(jù),還能生成富有洞見(jiàn)的醫(yī)療知識(shí)。從影像診斷到藥物研發(fā),這些模型正逐步改寫醫(yī)療服務(wù)的未來(lái)。然而,數(shù)據(jù)量有限、標(biāo)注成本高、多模態(tài)數(shù)據(jù)融合困難等挑戰(zhàn)仍舊存在。


如何在確保隱私的前提下,高效利用有限的醫(yī)療數(shù)據(jù)?以下分享上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室張少霆團(tuán)隊(duì)解析基礎(chǔ)模型(foundation model)在破解醫(yī)療數(shù)據(jù)困境方面的研究進(jìn)展。


醫(yī)療診斷對(duì)減少疾病發(fā)生、降低死亡率、提高民眾健康水平具有重要意義。高質(zhì)量的醫(yī)療數(shù)據(jù)在其中扮演了不可或缺的角色,包括影像、基因組學(xué)、實(shí)驗(yàn)室測(cè)試等臨床數(shù)據(jù)。無(wú)論是對(duì)醫(yī)療專家,還是對(duì)醫(yī)療AI而言,臨床數(shù)據(jù)都有助于充分了解患者體征情況、提出合理決策。然而多年來(lái),在醫(yī)療信息化領(lǐng)域,臨床數(shù)據(jù)的收集、處理和使用卻面臨著種種挑戰(zhàn),包括數(shù)據(jù)量有限[1]、數(shù)據(jù)標(biāo)注成本高[2]、數(shù)據(jù)模態(tài)多[3]、患者隱私保護(hù)難[4] 等。這些問(wèn)題猶如醫(yī)療AI發(fā)展路上的絆腳石,阻礙了醫(yī)療AI的進(jìn)步。

隨著通用領(lǐng)域AI的快速發(fā)展,我們看到了新的曙光。近年來(lái),基礎(chǔ)模型(foundation model)在視覺(jué)識(shí)別、語(yǔ)言理解、知識(shí)發(fā)現(xiàn)等傳統(tǒng)AI領(lǐng)域取得了突破性的進(jìn)展。這些基礎(chǔ)模型在醫(yī)療AI領(lǐng)域也開(kāi)始嶄露頭角:強(qiáng)大的邏輯推理、語(yǔ)義理解、內(nèi)容生成能力,已經(jīng)在醫(yī)療對(duì)話[5]、患者健康分析[6]、治療規(guī)劃[7]等方面展現(xiàn)出巨大的潛力。不僅如此,人們也在基于通用基礎(chǔ)模型和醫(yī)療數(shù)據(jù),構(gòu)建醫(yī)療領(lǐng)域的基礎(chǔ)模型,以應(yīng)對(duì)更需要醫(yī)療專業(yè)知識(shí)的場(chǎng)景。僅在2023年,醫(yī)療領(lǐng)域就涌現(xiàn)了一大批強(qiáng)大的基礎(chǔ)模型,例如病理圖像模型PathoDuet [8]、眼底圖像模型RETFound [9]、內(nèi)窺鏡檢查視頻分析模型Endo-FM [10]、醫(yī)學(xué)綜合問(wèn)答模型Med-Flamingo [11]和Med-PaLM 2 [12]等。這些模型逐步在臨床診斷、醫(yī)療對(duì)話、藥物研發(fā)等方方面面投入了實(shí)際應(yīng)用,為醫(yī)療工作者和患者們帶來(lái)了福祉。

然而,由于數(shù)據(jù)是基礎(chǔ)模型的根基,醫(yī)療領(lǐng)域長(zhǎng)久存在的數(shù)據(jù)問(wèn)題必然會(huì)對(duì)醫(yī)療基礎(chǔ)模型的發(fā)展產(chǎn)生負(fù)面影響。因此,在強(qiáng)大的AI系統(tǒng)真正大規(guī)模應(yīng)用之前,這些數(shù)據(jù)問(wèn)題亟待解決。

通用領(lǐng)域的基礎(chǔ)模型為解決醫(yī)療數(shù)據(jù)困境提供了新的可能。OpenAI團(tuán)隊(duì)通過(guò)大量涵蓋各種醫(yī)療場(chǎng)景的實(shí)驗(yàn),驗(yàn)證了GPT-4模型在醫(yī)學(xué)文本理解和生成方面的卓越能力[7]。來(lái)自斯坦福大學(xué)的一項(xiàng)工作利用stable diffusion模型根據(jù)文字生成X光圖片,證明了用基礎(chǔ)模型生成高質(zhì)量醫(yī)療數(shù)據(jù),以解決數(shù)據(jù)稀缺問(wèn)題的可行性[13]。這些成果無(wú)疑為醫(yī)療AI的發(fā)展注入了新的活力。

微信圖片_20240430174429.png

圖1. 患者、醫(yī)療數(shù)據(jù)、基礎(chǔ)模型三者的關(guān)系。三者共同構(gòu)建以數(shù)據(jù)為中心的醫(yī)療AI研發(fā)路線。

在基礎(chǔ)模型的新時(shí)代,解決醫(yī)療數(shù)據(jù)問(wèn)題成為了醫(yī)療AI研究的重中之重。通用領(lǐng)域的研究已經(jīng)為醫(yī)療領(lǐng)域打好了基礎(chǔ),然而目前通用領(lǐng)域的基礎(chǔ)模型在醫(yī)療領(lǐng)域究竟能有多大程度的應(yīng)用,醫(yī)療領(lǐng)域基礎(chǔ)模型的發(fā)展現(xiàn)狀和前景又如何?我們用本文簡(jiǎn)介基礎(chǔ)模型的工作原理,列舉基礎(chǔ)模型為醫(yī)療領(lǐng)域數(shù)據(jù)問(wèn)題帶來(lái)的新解決方案,并討論其可能涉及的隱私保護(hù)和道德風(fēng)險(xiǎn)


數(shù)據(jù)量


在醫(yī)療場(chǎng)景中,既有常見(jiàn)病,又有許多影響人群比例很低的罕見(jiàn)病、某些遺傳疾病等。前者有著大量數(shù)據(jù)的支持,能夠作為醫(yī)療AI訓(xùn)練的燃料。而后者的數(shù)據(jù)量則極為有限,數(shù)據(jù)提供的有限信息無(wú)法滿足在特定醫(yī)療任務(wù)上訓(xùn)練一個(gè)魯棒模型所需的信息量,這可能導(dǎo)致模型訓(xùn)練不足,產(chǎn)生不準(zhǔn)確、不可靠的模型結(jié)果。同時(shí),由于患者隱私保護(hù)等規(guī)范,即使是常見(jiàn)病,公開(kāi)的醫(yī)療數(shù)據(jù)記錄也很有限。此外,包括數(shù)據(jù)收集、清理和標(biāo)注等多個(gè)環(huán)節(jié)的現(xiàn)實(shí)世界數(shù)據(jù)集構(gòu)建通常較為昂貴。

通用領(lǐng)域的基礎(chǔ)模型有望緩解醫(yī)療應(yīng)用中數(shù)據(jù)量不足的問(wèn)題。一方面,基礎(chǔ)模型能夠輔助醫(yī)療數(shù)據(jù)增強(qiáng)。許多工作利用基礎(chǔ)模型生成訓(xùn)練數(shù)據(jù),相較于傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,這種新型訓(xùn)練方法引入了模型中包含的大量信息,提升了信息熵。大語(yǔ)言模型和擴(kuò)散模型這類生成式大模型在醫(yī)療數(shù)據(jù)增強(qiáng)上效果良好。例如哈佛大學(xué)的研究者利用DALL-E生成皮膚病圖片來(lái)訓(xùn)練分類模型[14],浙江大學(xué)的研究者開(kāi)發(fā)的PathAsst基礎(chǔ)模型能夠生成病理學(xué)子領(lǐng)域的指令樣本來(lái)訓(xùn)練其他模型[15]等。

另一方面,基礎(chǔ)模型能夠更為高效地利用現(xiàn)有數(shù)據(jù)?;A(chǔ)模型可以成為連接有限的下游數(shù)據(jù)與大量上游數(shù)據(jù)的橋梁。例如,上海交通大學(xué)的研究者利用醫(yī)學(xué)語(yǔ)言基礎(chǔ)模型所包含的對(duì)醫(yī)學(xué)圖像和概念的理解,引導(dǎo)通過(guò)自然圖像訓(xùn)練的視覺(jué)模型遷移至病理圖像,從而完成病理圖像少樣本分類任務(wù)[16]。又如,哈佛大學(xué)的研究者們實(shí)驗(yàn)驗(yàn)證了醫(yī)療領(lǐng)域的基礎(chǔ)語(yǔ)言模型能在罕見(jiàn)病的診斷中發(fā)揮作用[17]。在2023年NeurIPS會(huì)議上,OpenMEDLab發(fā)起了MedFMC基礎(chǔ)模型醫(yī)學(xué)圖像分類挑戰(zhàn),吸引世界各地600多個(gè)團(tuán)隊(duì)參加,推動(dòng)了對(duì)通用基礎(chǔ)模型在醫(yī)學(xué)圖像分類任務(wù)上高效應(yīng)用的研究[18]。

最后,在互聯(lián)網(wǎng)信息愈發(fā)豐富的今天,通過(guò)互聯(lián)網(wǎng)獲取基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)也成為了解決數(shù)據(jù)量問(wèn)題有效且常用的方法之一。我們需要從高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)平臺(tái),例如PubMed,爬取數(shù)據(jù)。同時(shí),可以用合適的采樣、過(guò)濾、清洗方法,包括使用基礎(chǔ)模型或訓(xùn)練一個(gè)專用的小模型來(lái)判斷數(shù)據(jù)是否為我們所需[19,20]。


數(shù)據(jù)標(biāo)注


除了解決數(shù)據(jù)量的問(wèn)題,對(duì)已經(jīng)收集到的數(shù)據(jù)進(jìn)行標(biāo)注也是一個(gè)關(guān)鍵步驟。在利用基礎(chǔ)模型診斷疾病、制定治療計(jì)劃,并最終為更明智、高效的醫(yī)療系統(tǒng)鋪平道路的持續(xù)努力中,數(shù)據(jù)標(biāo)注發(fā)揮著關(guān)鍵作用。通過(guò)分配信息豐富的元數(shù)據(jù)或類別標(biāo)簽,數(shù)據(jù)標(biāo)注為原始數(shù)據(jù)集添加了人類專業(yè)知識(shí)和背景理解,為醫(yī)療教育、診斷和人工智能應(yīng)用提供了有價(jià)值的見(jiàn)解。然而,數(shù)據(jù)標(biāo)注仍然面臨諸如專業(yè)標(biāo)注人員短缺、標(biāo)注過(guò)程復(fù)雜等挑戰(zhàn)。幸運(yùn)的是,基礎(chǔ)模型的可擴(kuò)展性使我們能夠緩解大規(guī)模醫(yī)療數(shù)據(jù)標(biāo)注的成本問(wèn)題。

文本標(biāo)注的過(guò)程需要從各類醫(yī)學(xué)報(bào)告中提取關(guān)鍵信息,有助于醫(yī)生快速了解患者的狀況,做出更為準(zhǔn)確的診斷。同時(shí),這也有利于建立完整準(zhǔn)確的患者檔案,為長(zhǎng)期跟蹤、理解疾病發(fā)展規(guī)律等提供便利。人類專家對(duì)醫(yī)療信息的提取有較高的準(zhǔn)確率,但比較耗時(shí)耗力。而如今的基礎(chǔ)模型,尤其是大語(yǔ)言模型,已經(jīng)可以達(dá)到和人類專家近似水平的信息提取效果,為醫(yī)療工作者節(jié)省成本。例如,在醫(yī)療數(shù)據(jù)上微調(diào)的大語(yǔ)言模型Med-PaLM 2 [12]能夠進(jìn)行高質(zhì)量的醫(yī)學(xué)問(wèn)答,其回答堪比甚至超過(guò)專業(yè)臨床醫(yī)生,可以用于醫(yī)療文本數(shù)據(jù)的標(biāo)注。

另一方面,醫(yī)學(xué)影像標(biāo)注對(duì)于病理學(xué)、放射學(xué)圖像等醫(yī)療數(shù)據(jù)的理解和分析也十分重要。其中,對(duì)圖像分割掩碼的標(biāo)注對(duì)醫(yī)生診斷病情、定位病灶起著關(guān)鍵作用。2023年4月,通用領(lǐng)域視覺(jué)分割基礎(chǔ)模型SAM問(wèn)世,此后許多工作嘗試使用SAM對(duì)醫(yī)學(xué)圖像進(jìn)行分割,并實(shí)驗(yàn)驗(yàn)證了SAM能夠在醫(yī)學(xué)圖像上有較好的分割表現(xiàn),因而能夠作為圖像數(shù)據(jù)標(biāo)注的工具[21]。然而,直接使用SAM也可能導(dǎo)致結(jié)果缺乏足夠的一致性和可靠性,需將其在醫(yī)學(xué)圖像上進(jìn)行微調(diào)再進(jìn)行標(biāo)注更為合理[22]。OpenMEDLab和上海交通大學(xué)的研究者們基于SAM,開(kāi)發(fā)了名為MedLSAM的3D CT圖像定位+分割基礎(chǔ)模型,能夠保證不受數(shù)據(jù)集大小影響的、常數(shù)時(shí)間的3D醫(yī)學(xué)圖像標(biāo)注,大大降低了標(biāo)注成本[23]。


多模態(tài)數(shù)據(jù)融合


醫(yī)療數(shù)據(jù)的多模態(tài)特性,如影像、診斷報(bào)告、生物信號(hào)等,為醫(yī)療工作者提供了多角度的患者信息。如何融合多模態(tài)數(shù)據(jù)成為了提升診斷準(zhǔn)確性和治療效果的關(guān)鍵。如今,基礎(chǔ)模型為醫(yī)療數(shù)據(jù)模態(tài)融合提供了新視角。在模型預(yù)訓(xùn)練階段,可以通過(guò)大規(guī)模配對(duì)的多模態(tài)數(shù)據(jù)進(jìn)行多模態(tài)聯(lián)合預(yù)訓(xùn)練,使模型能夠接受并理解多模態(tài)輸入;在下游應(yīng)用階段,可以通過(guò)大語(yǔ)言模型等基礎(chǔ)模型的transformer結(jié)構(gòu),在隱空間進(jìn)行模態(tài)融合。

多模態(tài)聯(lián)合預(yù)訓(xùn)練利用配對(duì)的數(shù)據(jù)樣本(如圖片和對(duì)應(yīng)的文本)使得各模態(tài)數(shù)據(jù)在表征空間具有相似的特征,實(shí)現(xiàn)模態(tài)融合。這類方法在醫(yī)療領(lǐng)域也很常用,尤其是在放射學(xué)、病理學(xué)等子領(lǐng)域,數(shù)據(jù)通常以圖像和文字報(bào)告配對(duì)形式存在。例如,來(lái)自微軟的Benedikt Boecking等人在大量胸片和其對(duì)應(yīng)的放射報(bào)告上訓(xùn)練BioViL模型,以獲得相匹配的圖像和語(yǔ)言特征[24]。又如,斯坦福大學(xué)的研究者們大量收集了Twitter上包含特定關(guān)鍵詞的內(nèi)容和對(duì)應(yīng)的病理圖像,構(gòu)建了病理圖像文本對(duì)的公開(kāi)數(shù)據(jù)集OpenPath,并在此數(shù)據(jù)集上訓(xùn)練了PLIP模型,在下游的圖像分類等零樣本任務(wù)上獲得很好的結(jié)果[25]。

另一方面,大語(yǔ)言模型憑借其注意力機(jī)制具有強(qiáng)大的語(yǔ)義理解能力,而這種能力并不局限于語(yǔ)言,也可以遷移到多模態(tài)場(chǎng)景。來(lái)自不同模態(tài)的數(shù)據(jù)可以作為大語(yǔ)言模型的提示詞輸入進(jìn)行聚合,組合而成的多模態(tài)輸入通過(guò)模型中的transformer層進(jìn)行融合,通過(guò)注意力機(jī)制彼此交換信息,達(dá)成模態(tài)融合的結(jié)果。由于如GPT-4等強(qiáng)大的語(yǔ)言模型本身在醫(yī)學(xué)領(lǐng)域已被驗(yàn)證有足夠強(qiáng)的能力[7],這種模態(tài)融合方法在醫(yī)療領(lǐng)域同樣適用。例如,斯坦福大學(xué)的研究人員將圖片和文字輸入拼接成一個(gè)序列,經(jīng)過(guò)大語(yǔ)言模型得到輸出,并對(duì)融合模塊進(jìn)行訓(xùn)練,開(kāi)發(fā)了Med-Flamingo模型。Med-Flamingo在涉及醫(yī)療圖片的問(wèn)答任務(wù)上展現(xiàn)出了很強(qiáng)的少樣本學(xué)習(xí)能力[11]。


數(shù)據(jù)隱私


醫(yī)療數(shù)據(jù)的隱私性保護(hù)一直是一個(gè)重要議題。為此,各國(guó)紛紛出臺(tái)法律法規(guī),嚴(yán)格規(guī)范私有數(shù)據(jù)的共享和使用[26]。而隨著AI技術(shù)的發(fā)展,尤其是基礎(chǔ)模型的興起,我們看到了解決這一難題的新希望。基礎(chǔ)模型依靠其強(qiáng)大的數(shù)據(jù)生成能力,可以生成足以用于模型訓(xùn)練但不包含任何患者隱私信息的數(shù)據(jù)。有研究基于擴(kuò)散模型訓(xùn)練了能夠生成高分辨率3D醫(yī)學(xué)圖像的模型,其生成的圖像在去除了關(guān)鍵隱私信息的同時(shí),保留了足以用于模型訓(xùn)練的特征[27]。

然而,基礎(chǔ)模型規(guī)模大的特性使得其具有對(duì)預(yù)訓(xùn)練數(shù)據(jù)的記憶能力,并且在輸出時(shí)傾向于模仿訓(xùn)練所見(jiàn)數(shù)據(jù),因此使用基礎(chǔ)模型也可能產(chǎn)生隱私保護(hù)問(wèn)題[28,29]。這就要求我們?cè)诶没A(chǔ)模型的同時(shí),也要做好其預(yù)訓(xùn)練數(shù)據(jù)的去隱私化處理,確?;颊咝畔⒌陌踩嬲踩貙⑵鋺?yīng)用在醫(yī)療領(lǐng)域數(shù)據(jù)生成上,還需要進(jìn)一步研究。目前已經(jīng)有許多工作討論基礎(chǔ)模型的隱私問(wèn)題。


模型評(píng)估


在訓(xùn)練階段后,準(zhǔn)確地度量模型的性能和安全性等指標(biāo)是將模型真正投入使用的前提。由于基礎(chǔ)模型的規(guī)模和復(fù)雜性,對(duì)其進(jìn)行評(píng)估是一項(xiàng)很大的挑戰(zhàn)。下面我們介紹三類基礎(chǔ)模型的評(píng)估策略,這些策略各有優(yōu)劣。

固定的數(shù)據(jù)集和指標(biāo)是常用的評(píng)估方式之一。目前在醫(yī)療領(lǐng)域,研究人員已經(jīng)構(gòu)建了大量用于評(píng)估的數(shù)據(jù)集和指標(biāo),包括MIMIC-III [30]、BLURB [31]等。其好處是評(píng)估結(jié)果的可重復(fù)性,以及模型之間比較的公平性。然而,在真實(shí)世界使用基礎(chǔ)模型時(shí)往往會(huì)遇到許多需要靈活應(yīng)變的情況,而靜態(tài)數(shù)據(jù)集不能很好體現(xiàn)基礎(chǔ)模型在這些罕見(jiàn)的、多變的、與人類交互等情況下的真實(shí)表現(xiàn)。同時(shí),在評(píng)估基礎(chǔ)模型與人類價(jià)值觀一致性方面,目前相關(guān)的數(shù)據(jù)集和指標(biāo)仍然較少。并且,在模型規(guī)模越來(lái)越大的今天,指標(biāo)的更新速度難以跟上基礎(chǔ)模型的發(fā)展。

在研究中同樣常用于基礎(chǔ)模型評(píng)估的,還有人類專家的評(píng)估,例如斯坦福大學(xué)的研究者們邀請(qǐng)放射學(xué)家對(duì)ChatGPT翻譯放射報(bào)告的正確性進(jìn)行評(píng)估[13]。人類專家的優(yōu)勢(shì)是對(duì)模型的評(píng)估更為準(zhǔn)確,具備靈活性,以及和人類價(jià)值觀吻合。然而,邀請(qǐng)人類專家的成本較為高昂,且人類專家的評(píng)估可能由于其背景等因素的不同產(chǎn)生過(guò)多主觀性[32]。

如果有一個(gè)足夠強(qiáng)大且與人類價(jià)值觀對(duì)齊的基礎(chǔ)模型,它能否成為評(píng)估其他模型的標(biāo)桿?這種方法通常不需要一個(gè)固定的數(shù)據(jù)集以及標(biāo)注,僅需要標(biāo)桿模型的推理,是一種比較高效的方法。例如,來(lái)自中國(guó)臺(tái)灣的研究團(tuán)隊(duì)驗(yàn)證了ChatGPT在故事生成和對(duì)抗攻擊兩個(gè)自然語(yǔ)言任務(wù)上能達(dá)到人類專家的評(píng)估水平,并且在不同提示詞下能產(chǎn)生穩(wěn)定的結(jié)果[33]。盡管在醫(yī)療領(lǐng)域要找到這樣一個(gè)標(biāo)桿模型通常并不容易——自然領(lǐng)域的基礎(chǔ)模型在醫(yī)療領(lǐng)域仍然會(huì)遇到領(lǐng)域偏移較大的問(wèn)題,且很可能缺乏足夠的領(lǐng)域?qū)I(yè)知識(shí)評(píng)估其他模型——利用基礎(chǔ)模型的自動(dòng)化評(píng)估仍是一個(gè)非常值得研究的方向。結(jié)合人類專家與自動(dòng)評(píng)估來(lái)獲得更高質(zhì)量的評(píng)估結(jié)果,取長(zhǎng)補(bǔ)短,可能是一個(gè)很有潛力的方法。


基礎(chǔ)模型的缺陷


在解決醫(yī)療數(shù)據(jù)有限方面,基礎(chǔ)模型已經(jīng)展現(xiàn)出了巨大的潛力。但正如任何技術(shù)一樣,它們也并非完美無(wú)缺?;A(chǔ)模型還存在著一些亟待解決的缺陷,包括幻覺(jué)、偏見(jiàn)、缺乏規(guī)范等。

基礎(chǔ)模型可能生成看似合理但實(shí)際不準(zhǔn)確的內(nèi)容,這就是基礎(chǔ)模型的幻覺(jué)。這種現(xiàn)象可能由多種數(shù)據(jù)因素引起,包括訓(xùn)練數(shù)據(jù)的質(zhì)量、規(guī)模和內(nèi)在偏見(jiàn)。在與醫(yī)療相關(guān)的基礎(chǔ)模型應(yīng)用中,錯(cuò)誤信息可能對(duì)所有醫(yī)療利益相關(guān)者造成嚴(yán)重后果,因而解決幻覺(jué)問(wèn)題至關(guān)重要。在幻覺(jué)影響下,基礎(chǔ)模型可能生成影響醫(yī)療診斷、決策和患者護(hù)理的內(nèi)容。

為了解決這一問(wèn)題,關(guān)鍵的一步是正確識(shí)別和評(píng)估幻覺(jué)的嚴(yán)重程度。檢測(cè)幻覺(jué)的評(píng)估指標(biāo)和任務(wù)應(yīng)考慮事實(shí)準(zhǔn)確性、連貫性和一致性等因素。例如,Med-HALT(醫(yī)學(xué)領(lǐng)域幻覺(jué)測(cè)試)的基準(zhǔn)能夠用于評(píng)估大語(yǔ)言模型中的幻覺(jué)[34]。Med-HALT包括基于推理和記憶的幻覺(jué)測(cè)試,可用于評(píng)估大語(yǔ)言模型在醫(yī)學(xué)背景下的問(wèn)題解決和信息檢索能力。另一個(gè)方向是AI與人類的合作。引入人類的知識(shí)和判斷可以幫助檢測(cè)模型產(chǎn)生的幻覺(jué)。眾包平臺(tái)也可以用于收集人類對(duì)模型生成內(nèi)容的評(píng)估,以開(kāi)發(fā)可靠的醫(yī)療基礎(chǔ)模型。最后,應(yīng)開(kāi)發(fā)與醫(yī)療基礎(chǔ)模型對(duì)抗性測(cè)試,以識(shí)別可能觸發(fā)幻覺(jué)的輸入提示詞等,從而提高模型生成內(nèi)容的可信度[35]。

基礎(chǔ)模型也可能帶有對(duì)某些群體、地域、性別等的偏見(jiàn)。這種偏見(jiàn)可能源于訓(xùn)練數(shù)據(jù)中的文化、語(yǔ)言、人口統(tǒng)計(jì)和政治等因素。例如,來(lái)自美國(guó)的AnsibleHealth機(jī)構(gòu)和來(lái)自中國(guó)的研究團(tuán)隊(duì)分別評(píng)估了ChatGPT在中美醫(yī)學(xué)執(zhí)業(yè)許可考試上的表現(xiàn),其結(jié)果表明ChatGPT在英文考試中準(zhǔn)確率更高,其原因在于大語(yǔ)言模型在訓(xùn)練過(guò)程中存在語(yǔ)言偏見(jiàn)[36,37]。目前基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)通常從互聯(lián)網(wǎng)收集,很可能沒(méi)有受到人類專家的監(jiān)督,導(dǎo)致在醫(yī)療領(lǐng)域中人類與模型結(jié)果之間的潛在認(rèn)知差距。

為了減輕這種偏見(jiàn),需要在數(shù)據(jù)集構(gòu)建和模型評(píng)估等過(guò)程中引入人類專家的指導(dǎo),以開(kāi)發(fā)可信的基礎(chǔ)模型[38]。同時(shí),醫(yī)療利益相關(guān)者和基礎(chǔ)模型的開(kāi)發(fā)者應(yīng)該認(rèn)識(shí)到,目前基礎(chǔ)模型的架構(gòu)和訓(xùn)練模式缺乏對(duì)有害信息和對(duì)抗性操縱的防御和檢測(cè)能力。為了改善這一點(diǎn),我們可以考慮在醫(yī)療基礎(chǔ)模型的開(kāi)發(fā)中引入對(duì)抗性攻擊訓(xùn)練,以增強(qiáng)有害信息的防御和檢測(cè)能力[38]。

隨著醫(yī)療AI應(yīng)用的日益增多,基礎(chǔ)模型的規(guī)范化也成為一個(gè)重要議題。各國(guó)政府(如美國(guó)食品藥品管理局)開(kāi)始將執(zhí)行醫(yī)療功能的程序視為醫(yī)療設(shè)備進(jìn)行監(jiān)管。未來(lái),基礎(chǔ)模型將被視為新型的醫(yī)療設(shè)備,接受更為嚴(yán)格的監(jiān)管,包括明確基礎(chǔ)模型的實(shí)際應(yīng)用目的和范圍,在權(quán)威數(shù)據(jù)上進(jìn)行性能基準(zhǔn)測(cè)試,制定用戶使用指南,并通過(guò)臨床試驗(yàn)驗(yàn)證有效性等。在模型部署后,也需持續(xù)監(jiān)管以適應(yīng)不斷變化的任務(wù)和環(huán)境[39]。


總結(jié)與展望


基礎(chǔ)模型的發(fā)展和應(yīng)用在醫(yī)療領(lǐng)域掀起了一陣?yán)顺?,為高效診療等提供了新機(jī)會(huì)。在這一浪潮中,大規(guī)模醫(yī)療數(shù)據(jù)的收集、處理、分析等成為了至關(guān)重要的研究課題。為了解決醫(yī)療數(shù)據(jù)中長(zhǎng)久存在的問(wèn)題,包括數(shù)據(jù)量的缺乏、數(shù)據(jù)標(biāo)注的高成本、多模態(tài)數(shù)據(jù)融合、數(shù)據(jù)隱私問(wèn)題等,研究者們探索了基礎(chǔ)模型帶來(lái)的新解決方案。同時(shí),在醫(yī)療領(lǐng)域應(yīng)用基礎(chǔ)模型的安全問(wèn)題同樣不容忽視。從基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)所導(dǎo)致的幻覺(jué)、偏見(jiàn),到基礎(chǔ)模型的監(jiān)督管理,都是我們必須重視并解決的問(wèn)題。

我們相信,基礎(chǔ)模型在醫(yī)療領(lǐng)域仍有巨大的發(fā)展空間。未來(lái),在研究人員和醫(yī)療工作者的共同努力下,基礎(chǔ)模型的力量在醫(yī)療場(chǎng)景下將得到更加安全有效的發(fā)揮,為人們的健康生活帶來(lái)更多福祉。

醫(yī)療數(shù)據(jù)困境新解:基礎(chǔ)模型

王德泉,張昀焜,張少霆*

上海交通大學(xué),上海人工智能實(shí)驗(yàn)室

*通訊作者


Copyright ? 2022 上??评讜?huì)展服務(wù)有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有    ICP備案號(hào):滬ICP備17004559號(hào)-5