制服丝袜成人电影|欧洲美女激情AV|久久天堂无码AV|日本一及黄色电影一及黄色|天摸天操天啪欧美|AA级黄色一级特黄成人大片|日韩特级AAA毛片|特级黄色成人录像|激情啪啪综合亚洲A黄|特黄一级AAA日本在线观看

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當(dāng)前位置:首頁 > 資訊 > 市場

《醫(yī)療場景下大模型應(yīng)用效果回顧性評測專家共識(2025版)》正式發(fā)布

發(fā)布時間:2025-12-17 來源:數(shù)字醫(yī)學(xué)與健康 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

系統(tǒng)構(gòu)建了我國醫(yī)療大模型回顧性評測技術(shù)框架,明確評測流程、指標(biāo)體系與倫理要求,為模型研發(fā)、評測與臨床應(yīng)用提供統(tǒng)一、規(guī)范、可復(fù)用的技術(shù)指引


近日,《醫(yī)療場景下大模型應(yīng)用效果回顧性評測專家共識2025版)》(以下簡稱“《共識》”)中、英文版本在《數(shù)字醫(yī)學(xué)與健康》與《智慧醫(yī)學(xué)(英文)》發(fā)布。《共識》匯聚了醫(yī)學(xué)、人工智能、倫理、法學(xué)、統(tǒng)計學(xué)等多領(lǐng)域?qū)<伊α?/span>,全面構(gòu)建了我國醫(yī)療大模型回顧性評測的系統(tǒng)化技術(shù)框架。《共識》面向大語言模型在醫(yī)療場景實際落地前的評估需求,旨在為模型評測機構(gòu)、研發(fā)機構(gòu)和臨床應(yīng)用方提供統(tǒng)一、規(guī)范、可復(fù)用的技術(shù)指南,推動人工智能在醫(yī)療行業(yè)的高質(zhì)量發(fā)展。

《共識》制訂過程嚴(yán)格遵循《世界衛(wèi)生組織指南制訂手冊》《中國制訂/修訂臨床診療指南的指導(dǎo)原則(2022版)》等標(biāo)準(zhǔn)方法學(xué)要求,并在國際實踐指南注冊平臺PREPARE完成注冊(編號 PREPARE-2025CN503),實現(xiàn)了制訂流程的科學(xué)化、透明化與規(guī)范化。來自全國三甲醫(yī)院、科研機構(gòu)與人工智能企業(yè)的數(shù)十位專家參與了問題遴選、證據(jù)評估、推薦意見制訂和Delphi共識投票,全程經(jīng)由專家委員會與指導(dǎo)委員會多輪論證,最終形成6條核心推薦意見,均獲得超過80%的專家同意并達成共識。

《共識》圍繞醫(yī)療場景下大模型的“回顧性評測”開展系統(tǒng)闡述,即在模型訓(xùn)練完成、參數(shù)固定后,基于真實或模擬真實的臨床數(shù)據(jù)對模型的醫(yī)學(xué)適配性與安全性進行驗證。《共識》從評測流程、指標(biāo)體系、團隊建設(shè)、數(shù)據(jù)集設(shè)計、反饋更新機制和報告規(guī)范等方面構(gòu)建了完整評測框架。其中,評測流程強調(diào)科學(xué)客觀、真實全面與倫理合規(guī);指標(biāo)體系涵蓋結(jié)構(gòu)化與生成式任務(wù)的定量與定性評估;團隊建設(shè)強調(diào)醫(yī)學(xué)專家、工程技術(shù)人員、倫理與法律專家的協(xié)同;數(shù)據(jù)集構(gòu)建突出臨床真實性、全面代表性、公正性及動態(tài)擴展能力;反饋與更新機制確保評測體系的長期迭代;報告模板則規(guī)范評測結(jié)果披露與版本管理。

值得關(guān)注的是,基于國家衛(wèi)生健康委辦公廳、國家中醫(yī)藥局綜合司、國家疾控局綜合司聯(lián)合發(fā)布的《衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引》,《共識》明確提出醫(yī)療大模型評測的六大核心能力維度,包括醫(yī)療知識問答、醫(yī)療復(fù)雜語言理解、醫(yī)療診斷與治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對話以及醫(yī)療多模態(tài)交互,從而為不同類型模型的評測提供了清晰的應(yīng)用場景定位和指標(biāo)選擇依據(jù)。同時,《共識》圍繞患者隱私保護、數(shù)據(jù)脫敏、算法公平性、輸出安全性等關(guān)鍵問題提出嚴(yán)格要求,有助于推動醫(yī)療人工智能安全、可控、可解釋的發(fā)展路徑。

《共識》由國家新聞出版署醫(yī)學(xué)期刊知識挖掘與服務(wù)重點實驗室牽頭,聯(lián)合《數(shù)字醫(yī)學(xué)與健康》編輯委員會、《智慧醫(yī)學(xué)(英文)》編輯委員會、中華醫(yī)學(xué)會雜志社指南與標(biāo)準(zhǔn)研究中心、醫(yī)療人工智能研究及應(yīng)用安徽省重點實驗室共同制定。隨著大語言模型在診斷輔助、病歷生成、醫(yī)患溝通、慢病管理等環(huán)節(jié)的加速應(yīng)用,行業(yè)迫切需要一套科學(xué)、透明、權(quán)威的評測體系?!豆沧R》將為模型準(zhǔn)入、行業(yè)監(jiān)管、產(chǎn)品優(yōu)化以及臨床安全應(yīng)用提供重要技術(shù)支撐。未來,該項工作將繼續(xù)推動前瞻性研究、真實世界驗證與動態(tài)評測機制的深化,持續(xù)完善評測標(biāo)準(zhǔn)體系,共同促進人工智能在醫(yī)療健康領(lǐng)域的安全應(yīng)用和高質(zhì)量發(fā)展。

以下為全文                            

>>>>

引用本文

國家新聞出版署醫(yī)學(xué)期刊知識挖掘與服務(wù)重點實驗室. 醫(yī)療場景下大語言模型應(yīng)用效果回顧性評測專家共識(2025版)[J]. 數(shù)字醫(yī)學(xué)與健康,2025, 網(wǎng)絡(luò)預(yù)發(fā)表.DOI:10.3760/cma.j.cn101909-20250924-00177


>>>>

通信作者

  • 王振常,首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院,北京100050

    Email:cjrwzhch@vip.163.com;

  • 董家鴻,清華大學(xué)附屬北京清華長庚醫(yī)院,北京102218

    Email:dongjiahong@mail.tsinghua.edu.cn;

  • 葛均波,復(fù)旦大學(xué)附屬中山醫(yī)院,上海 200032

    Email:ge.junbo@zshospital.sh.cn;

  • 魏均民,中華醫(yī)學(xué)會雜志社 醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室,北京100052

    Email:weijunmin@cmaph.org


  ◆  ◆

摘  要

大語言模型(large language model,LLMs)基于海量文本數(shù)據(jù)訓(xùn)練,已在自然語言理解與生成方面展現(xiàn)出強大能力,其在醫(yī)療場景中的應(yīng)用涵蓋疾病篩查、輔助診斷、健康管理等多個環(huán)節(jié),成為推動智能醫(yī)療發(fā)展的重要力量。近年來,我國積極推動人工智能(artificial intelligence,AI)與醫(yī)療健康的融合,政策端鼓勵企業(yè)突破醫(yī)療大模型、多模態(tài)數(shù)據(jù)融合等關(guān)鍵技術(shù),應(yīng)用端加速向健康管理、精準(zhǔn)醫(yī)療等場景延伸,逐步構(gòu)建起覆蓋預(yù)防、診斷、治療、康復(fù)的全周期智能醫(yī)療服務(wù)體系。然而,隨著LLMs在醫(yī)療領(lǐng)域的廣泛應(yīng)用,相關(guān)評測標(biāo)準(zhǔn)缺失、方法不統(tǒng)一的問題日益突出。為此,《醫(yī)療場景下大語言模型應(yīng)用效果回顧性評測專家共識(2025版)》圍繞醫(yī)療場景下LLMs的回顧性評測構(gòu)建了系統(tǒng)化評測框架,提出了科學(xué)的評測指標(biāo)體系、標(biāo)準(zhǔn)與流程,旨在為模型評測機構(gòu)、提供方與應(yīng)用方提供清晰、可操作的指導(dǎo)規(guī)范。該共識有助于統(tǒng)一評測方法,提升評測的科學(xué)性,推動LLMs在醫(yī)療場景中的安全、有效應(yīng)用,助力AI賦能醫(yī)療,實現(xiàn)高質(zhì)量發(fā)展。

  ◆  ◆

前  言

大語言模型指使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,可以生成自然語言文本或理解語言文本的含義,通過在龐大的數(shù)據(jù)集上進行訓(xùn)練來提供有關(guān)各種主題的深厚知識和語言生產(chǎn)。其核心思想是通過大規(guī)模的無監(jiān)督訓(xùn)練學(xué)習(xí)自然語言的模式和結(jié)構(gòu),在一定程度上模擬人類的語言認知和生成過程。醫(yī)療場景下的LLMs應(yīng)用是指將LLMs應(yīng)用于醫(yī)療領(lǐng)域,在疾病篩查、輔助診斷、健康管理等醫(yī)療環(huán)節(jié)中發(fā)揮輔助決策作用。

在醫(yī)療場景中,LLMs的技術(shù)研發(fā)和實際應(yīng)用均已步入加速發(fā)展階段?!夺t(yī)療場景下大語言模型應(yīng)用效果回顧性評測專家共識(2025版)》(簡稱本共識)在遵循標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則下,通過科學(xué)構(gòu)建評測指標(biāo)體系、評測標(biāo)準(zhǔn)、評測流程等,為LLMs在醫(yī)療場景下的應(yīng)用效果評測提供科學(xué)化、具體化、系統(tǒng)化的指導(dǎo),規(guī)范LLMs評測方法和標(biāo)準(zhǔn),促進人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展的標(biāo)準(zhǔn)體系加快形成。本共識由國家新聞出版署醫(yī)學(xué)期刊知識挖掘與服務(wù)重點實驗室、《數(shù)字醫(yī)學(xué)與健康》編輯委員會、《智慧醫(yī)學(xué)(英文)》編輯委員會、中華醫(yī)學(xué)會雜志社指南與標(biāo)準(zhǔn)研究中心、醫(yī)療人工智能研究及應(yīng)用安徽省重點實驗室聯(lián)合發(fā)起,蘭州大學(xué)健康數(shù)據(jù)科學(xué)研究院、世界衛(wèi)生組織指南實施與知識轉(zhuǎn)化合作中心提供方法學(xué)支持。


編寫目的及適用人群
(一)編寫目的

本共識定位于LLMs應(yīng)用前的評測指導(dǎo)工具,強調(diào)在LLMs研發(fā)階段末期以及落地前,組織醫(yī)學(xué)、計算機學(xué)、倫理學(xué)、法學(xué)等相關(guān)專業(yè)人員開展多維度、回顧性的效果評測,以實現(xiàn)LLMs落地前的全面把關(guān)與科學(xué)指導(dǎo),旨在為LLMs在醫(yī)療場景中的應(yīng)用效果開展系統(tǒng)性、回顧性評測提供科學(xué)、客觀且可操作的指導(dǎo)依據(jù)。本共識的“回顧性評測”指在LLMs已經(jīng)完成訓(xùn)練并固定參數(shù)的基礎(chǔ)上,將其部署到本地環(huán)境中,通過實際應(yīng)用場景的測試數(shù)據(jù),系統(tǒng)性地評估模型的性能。這種評測不涉及對模型本身的修改,而是聚焦驗證其現(xiàn)有能力在目標(biāo)場景中的適用性。

本共識編寫目的具體包括:(1)科學(xué)評測。構(gòu)建標(biāo)準(zhǔn)化、結(jié)構(gòu)化的評測指標(biāo)體系,確保LLMs評測的準(zhǔn)確性、可重復(fù)性與橫向可比性。(2)安全保障。識別LLMs在醫(yī)療場景中的潛在風(fēng)險與使用邊界,預(yù)防落地后可能帶來的誤診、誤治或信息誤導(dǎo)。(3)有效篩選與推廣。支持高性能、可信賴的LLMs在進入實際應(yīng)用前得到充分驗證,提升技術(shù)成熟度與適配性。(4)質(zhì)量引導(dǎo)。為LLMs研發(fā)提供優(yōu)化方向,推動其在醫(yī)學(xué)知識整合、任務(wù)適配與臨床驗證等方面持續(xù)提升。(5)政策支撐。為LLMs監(jiān)管和政策制訂提供評測框架與技術(shù)依據(jù),助力制訂統(tǒng)一、規(guī)范的行業(yè)標(biāo)準(zhǔn)與準(zhǔn)入門檻。

(二)適用對象

本共識適用于開展LLMs醫(yī)療應(yīng)用效果回顧性評測的相關(guān)機構(gòu)和人員,涵蓋模型評測方、模型提供方以及醫(yī)療場景中負責(zé)模型部署與集成的應(yīng)用方。

1.模型評測方:如第三方醫(yī)學(xué)AI評測中心、科研院所、行業(yè)標(biāo)準(zhǔn)制訂組織等,可依據(jù)本共識建立規(guī)范化的評測流程、數(shù)據(jù)體系與評價模型,確保評測結(jié)果具備科學(xué)性與權(quán)威性。

2.模型提供方:包括AI企業(yè)、醫(yī)療科技公司、科研單位等模型研發(fā)主體,可依據(jù)本共識指導(dǎo)優(yōu)化訓(xùn)練策略、完善內(nèi)測評測流程,提升模型的醫(yī)學(xué)適配性與臨床應(yīng)用潛力。

3.模型應(yīng)用方:如醫(yī)院信息中心、醫(yī)療信息化公司、智能醫(yī)療平臺開發(fā)商等,在模型部署前可依據(jù)本共識開展適配性評測與風(fēng)險預(yù)判,確保模型在不同醫(yī)療場景下的穩(wěn)定性與安全性。


制定過程
(一) 制訂方法

本共識的制訂嚴(yán)格遵循《世界衛(wèi)生組織指南制訂手冊》、《中國制訂/修訂臨床診療指南的指導(dǎo)原則(2022版)》,并參考衛(wèi)生保健實踐指南的報告規(guī)范(Reporting Items for Practice Guidelines in Healthcare)進行撰寫,重點關(guān)注醫(yī)療場景下LLMs應(yīng)用效果的回顧性評測指標(biāo)體系、評測標(biāo)準(zhǔn)、評測流程,并在國際實踐指南注冊平臺(practice guideline registration for transparency,PREPARE)進行注冊,注冊號為PREPARE-2025CN503。

(二)共識形成過程

本共識依據(jù)循證醫(yī)學(xué)原則制訂,采用系統(tǒng)化、標(biāo)準(zhǔn)化的流程形成共識建議,以確保內(nèi)容的科學(xué)性與權(quán)威性。臨床問題的遴選和確定,是以問卷調(diào)查和文獻檢索等形式收集問題和專家意見,按照S(sample)、PI(phenomenon of interest)、D(design)、E(evaluation)、R(research type)原則構(gòu)建問題和指標(biāo)總條目。由共識制訂專家組指導(dǎo)委員會擬定初步的問題和指標(biāo),邀請共識制訂專家組召開問題構(gòu)建和指標(biāo)遴選專項會議,對所有問題的重要程度進行評價。通過兩輪調(diào)查問卷以及對相關(guān)共識的調(diào)查,收集并確定需要在本共識中解決的問題。采用Likert 5級評分法進行重要性評分(5分制:5分為必須納入的強烈推薦項,1分為不納入的強烈不推薦項)。平均分≥4分的為關(guān)鍵問題,必須在共識中產(chǎn)生推薦意見;平均分介于3~4分的為一般重要問題,是否形成推薦意見由共識會議討論決定;平均分≤3分的為非關(guān)鍵問題,在共識中不產(chǎn)生推薦意見。本共識最終納入的問題將基于問卷調(diào)查及專家評分結(jié)果。對于每個關(guān)鍵問題,秘書組的兩名研究人員獨立地從納入的文獻中提取信息,形成證據(jù)摘要,并將其提交指導(dǎo)委員會審查。指導(dǎo)委員會和秘書組根據(jù)現(xiàn)有證據(jù)為每個問題起草初步建議和理由。采用改良的德爾菲(Delphi)方法,通過問卷調(diào)查就推薦意見達成共識。

本共識所采用的文獻檢索數(shù)據(jù)庫包括PubMed、Embase、Cochrane Library、Scopus、中國知網(wǎng)(CNKI)、萬方全文數(shù)據(jù)庫、中華醫(yī)學(xué)期刊全文數(shù)據(jù)庫,以及與醫(yī)療場景下LLMs相關(guān)的學(xué)會/協(xié)會網(wǎng)站文件,檢索時間范圍為各數(shù)據(jù)庫/網(wǎng)站建立起至2025年5月,發(fā)表語言限定為中英文。最后采用相應(yīng)的工具評價納入研究的質(zhì)量并確定文獻證據(jù)。共識制訂專家組成員基于指南、共識、系統(tǒng)評價、Meta分析、隨機對照研究的證據(jù)以及相關(guān)的指引、規(guī)范和通知,初擬了共識意見和證據(jù)與解釋。執(zhí)筆專家整合共識制訂專家組文件,撰寫共識全文。秘書組整合不同問題的共識意見,通過線上會議與共識制訂專家組成員開展共12次討論與修改。2025年8月通過郵件形式在共識制訂專家組中進行1輪Delphi調(diào)查,調(diào)查人數(shù)為35人,問卷有效回收率為100%。調(diào)查問卷的內(nèi)容設(shè)計由秘書組成員完成,經(jīng)共識制訂專家組成員審核通過后發(fā)放。問卷內(nèi)容主要包括對每條推薦意見的評分以及可自由填寫的意見和建議區(qū)域。針對每一條推薦意見,專家采用同意、不同意、不確定來進行評定。本共識設(shè)定:針對單條推薦意見,勾選同意的專家超過80%,則為該條推薦意見達成共識。本共識共凝練出6條推薦意見,均達成共識。專家推薦程度以“共識度”標(biāo)注,共識度=(勾選同意的專家人數(shù)/總參評專家人數(shù))×100%。


問題、推薦意見及支持證據(jù)

(一)問題1:如何構(gòu)建科學(xué)、客觀、全面且符合倫理的醫(yī)療場景下LLMs應(yīng)用效果回顧性評測流程?

薦意見1:評測流程應(yīng)堅持科學(xué)性、客觀性、全面性、倫理合規(guī)性。(1)科學(xué)性方面,評測指標(biāo)應(yīng)基于循證醫(yī)學(xué)證據(jù)評價方式,效果評價采用符合循證醫(yī)學(xué)要求的設(shè)計方法以保障結(jié)果的可重復(fù)性和獨立性,并建立動態(tài)證據(jù)更新機制以適應(yīng)醫(yī)學(xué)和技術(shù)的發(fā)展。(2)客觀性方面,需構(gòu)建具有代表性的多病種、多機構(gòu)、多場景數(shù)據(jù)集,采用定量與定性相結(jié)合的方法進行雙盲評測,確保評價結(jié)果公正、透明。(3)全面性方面,評測內(nèi)容應(yīng)覆蓋多類醫(yī)療應(yīng)用場景與多學(xué)科臨床專業(yè),提升評測結(jié)果的泛化性與指導(dǎo)價值。(4)倫理合規(guī)性方面,需嚴(yán)格遵循醫(yī)學(xué)倫理準(zhǔn)則,充分保護患者隱私與數(shù)據(jù)安全,確保所有評測數(shù)據(jù)的收集、使用均獲得知情同意。同時,要規(guī)避潛在的倫理風(fēng)險,如算法偏見可能導(dǎo)致的不公平醫(yī)療資源分配等,建立倫理審查機制,對評測全過程進行監(jiān)督與評估,保障評測活動符合法律法規(guī)和社會倫理規(guī)范。推薦評測流程見圖1。[共識度:100%(35/35)]

微信圖片_20251216222314.png

圖1  醫(yī)療場景下大語言模型應(yīng)用效果回顧性評測流程

在醫(yī)療LLMs評測指標(biāo)體系的構(gòu)建過程中,遵循科學(xué)、客觀、全面、倫理合規(guī)的原則至關(guān)重要,有助于確保評測結(jié)果的準(zhǔn)確性、可靠性與實用性,為醫(yī)療決策、質(zhì)量提升及技術(shù)創(chuàng)新提供堅實支撐。

1.科學(xué)性:科學(xué)性是醫(yī)療LLMs評測指標(biāo)體系構(gòu)建的基石?;谂R床循證證據(jù)、權(quán)威醫(yī)學(xué)指南與真實世界數(shù)據(jù)確定評測指標(biāo),能使評測內(nèi)容緊密貼合醫(yī)療實踐。醫(yī)學(xué)指南融合眾多研究成果與專家共識,真實世界數(shù)據(jù)反映實際醫(yī)療復(fù)雜情況,二者結(jié)合可避免評測脫離實際,為醫(yī)療LLMs評測與改進提供科學(xué)指引。重要決策證據(jù)需遵循雙盲、隨機等科學(xué)方法,避免主觀因素干擾,確保評測結(jié)果公正客觀。第三方機構(gòu)獨立驗證可增強評測結(jié)果的可信度與權(quán)威性。隨著醫(yī)學(xué)與LLMs技術(shù)快速發(fā)展,建立動態(tài)迭代機制,依據(jù)新發(fā)現(xiàn)、新療法及新進展定期修訂評測標(biāo)準(zhǔn),能確保其先進性與適用性,緊跟時代步伐,支持醫(yī)療行業(yè)創(chuàng)新發(fā)展。

2.客觀性:客觀性原則要求評測過程與結(jié)果不受主觀因素影響,確保評測結(jié)果真實反映實際情況。測試數(shù)據(jù)應(yīng)全面覆蓋多樣化的醫(yī)療場景,涵蓋不同疾病類型、不同層級醫(yī)療機構(gòu)以及多樣化的應(yīng)用場景。合理使用多種抽樣方法,廣泛收集數(shù)據(jù)樣本使其滿足統(tǒng)計學(xué)意義規(guī)模,避免因數(shù)據(jù)樣本偏差導(dǎo)致評測結(jié)果失真,確保評測結(jié)果能夠真實反映不同醫(yī)療場景下的實際情況,為全面性的醫(yī)療LLMs評測提供可靠依據(jù)。評測結(jié)果采用定量與定性相結(jié)合的方式,核心指標(biāo)應(yīng)進行量化處理,如診斷結(jié)果準(zhǔn)確率、F1值等,其能夠直觀、準(zhǔn)確地反映評測對象的性能;同時由臨床專家進行主觀定性評測,如準(zhǔn)確性、完整性、實用性等方面。評測過程需采用雙盲標(biāo)注評測,以最大程度避免主觀傾向?qū)υu測結(jié)果的影響,確保評測結(jié)果的客觀性與公正性。參與評測的機構(gòu)或人員需如實聲明利益關(guān)系,并接受第三方機構(gòu)的嚴(yán)格監(jiān)督。通過這一機制,能夠有效防止因利益沖突導(dǎo)致評測結(jié)果出現(xiàn)偏差,保障評測工作的獨立性與公正性,維護評測結(jié)果的公信力。

3.全面性:全面性原則要求評測指標(biāo)體系能夠涵蓋醫(yī)療領(lǐng)域的各個方面,確保評測工作的完整性與系統(tǒng)性。《衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引》指出,醫(yī)學(xué)AI應(yīng)區(qū)分不同應(yīng)用場景,全面覆蓋醫(yī)療服務(wù)管理、基層公共衛(wèi)生服務(wù)、健康產(chǎn)業(yè)發(fā)展、醫(yī)學(xué)教學(xué)科研等多個領(lǐng)域。不同場景具有不同的特點與需求,通過全面覆蓋,確保評測工作能夠準(zhǔn)確反映各領(lǐng)域的實際情況,為各領(lǐng)域的改進與發(fā)展提供針對性建議。不同科室在疾病診斷、治療及管理方面具有獨特性,針對不同學(xué)科領(lǐng)域或?qū)?萍膊∵M行評測,如兒科、呼吸內(nèi)科、心血管內(nèi)科等,有助于發(fā)現(xiàn)各科室存在的問題,推動科室專業(yè)化發(fā)展。此外,評測流程還需覆蓋可能涉及的其他維度,確保評測工作的全面性,為醫(yī)療LLMs行業(yè)的整體發(fā)展提供全方位的評測服務(wù)與支持。

4.倫理合規(guī)性:倫理合規(guī)性原則要求評測指標(biāo)體系將醫(yī)學(xué)倫理規(guī)范與法律法規(guī)置于核心地位,確保AI在醫(yī)療領(lǐng)域的應(yīng)用始終遵循正確的價值導(dǎo)向。首先,要關(guān)注患者隱私與數(shù)據(jù)安全問題。評測需詳盡考察數(shù)據(jù)全生命周期的合規(guī)性,包括收集環(huán)節(jié)是否獲得充分、有效的知情同意,存儲與傳輸環(huán)節(jié)是否采用強加密、匿名化等先進技術(shù)手段,以及使用環(huán)節(jié)是否有嚴(yán)格的權(quán)限管理和訪問審計機制,嚴(yán)防數(shù)據(jù)泄露與濫用。其次,要關(guān)注算法偏見帶來的倫理風(fēng)險。評測應(yīng)包含對算法公平性的深度檢驗,識別其是否存在因訓(xùn)練數(shù)據(jù)偏差、模型設(shè)計缺陷等導(dǎo)致對特定人群(如特定性別、民族、種族、年齡、地域或社會經(jīng)濟地位患者)的診斷、治療建議或資源分配產(chǎn)生系統(tǒng)性歧視問題。因此,評測應(yīng)建立貫穿始終的倫理審查與監(jiān)督機制,對評測方案設(shè)計、數(shù)據(jù)獲取方式、算法評估過程及結(jié)果應(yīng)用等關(guān)鍵環(huán)節(jié)進行獨立、嚴(yán)格的倫理評估與持續(xù)監(jiān)督,確保評測符合法律法規(guī)和行業(yè)規(guī)范的要求。

5.評測流程:為確保醫(yī)療LLMs評測工作的科學(xué)、規(guī)范與有效,特明確評測流程如下。(1)評測申請。在評審前由具有明確評測意向的機構(gòu)或個人提出書面申請。評審申請中必須寫明的內(nèi)容包括:申請單位主體信息、模型名稱及版本號、模型應(yīng)用類型、模型開發(fā)時間、核心技術(shù)架構(gòu)、模型部署形式、預(yù)期應(yīng)用場景、合規(guī)和倫理審查材料、評測需求與范圍。(2)需求分析。全面剖析待評測模型的應(yīng)用場景,深入了解其在不同醫(yī)療環(huán)境、患者群體及業(yè)務(wù)流程中的潛在運用情況。明確評測重點與方向,為后續(xù)評測工作奠定堅實基礎(chǔ),確保評測能夠精準(zhǔn)反映待評測模型在真實醫(yī)療場景中的表現(xiàn)。(3)方案設(shè)計。針對待評測模型及評測場景精心設(shè)計評測方案。具體涵蓋:①組建權(quán)威評測專家組,需具備專業(yè)背景與豐富經(jīng)驗;②明確評測指標(biāo),使其緊密貼合評測目標(biāo)與應(yīng)用場景;③制訂科學(xué)的評測標(biāo)準(zhǔn),保障評測工作的公正性與客觀性;④構(gòu)建全面且具代表性的評測數(shù)據(jù)集;⑤搭建適配的測試環(huán)境及測試工具,為評測提供可靠軟硬件支持。(4)組織評測。依據(jù)評測方案,組織評測專家對評測數(shù)據(jù)進行雙盲標(biāo)注,避免主觀因素干擾,確保標(biāo)注結(jié)果的準(zhǔn)確性與可靠性。(5)結(jié)果分析。匯總測試集標(biāo)注結(jié)果,統(tǒng)計相關(guān)評測指標(biāo)結(jié)果,從不同維度深入對比,在完成評測匯總和結(jié)果分析后,組織專家進行復(fù)審,最終出具專業(yè)評測報告。

(二)問題2:醫(yī)療場景下LLMs應(yīng)用效果回顧性評測的指標(biāo)有哪些?

推薦意見2:建議將模型評測指標(biāo)根據(jù)不同場景適配性地劃分為定量指標(biāo)與定性指標(biāo)兩類。定量指標(biāo)主要用于量化模型在自然語言處理任務(wù)中的表現(xiàn),推薦優(yōu)先采用準(zhǔn)確率、召回率和F1值評測結(jié)構(gòu)化任務(wù)(如文本分類、信息抽?。⒉捎肂LEU與ROUGE分?jǐn)?shù)衡量文本生成任務(wù)中的語言質(zhì)量與信息覆蓋度。定性指標(biāo)則用于評測模型輸出的醫(yī)學(xué)適應(yīng)性與安全性,建議采用MOS機制,由評測專家從準(zhǔn)確性、完整性、安全性、實用性和專業(yè)性五個維度進行5分制評分,并計算均值作為評測依據(jù)。同時,可引入優(yōu)秀率(MOS≥4)、不良回復(fù)率(MOS=1或含風(fēng)險內(nèi)容)及勝率等指標(biāo),進一步量化模型在高質(zhì)量輸出和風(fēng)險控制方面的綜合表現(xiàn)。此外,建議納入資源消耗、并發(fā)能力等性能指標(biāo)以評估模型在醫(yī)療場景下的運行效率,確保其在實際應(yīng)用中的響應(yīng)速度與資源適配性。[共識度:100%(35/35)]

2024年11月14日,國家衛(wèi)生健康委員會、國家中醫(yī)藥管理局、國家疾病預(yù)防控制局三部門聯(lián)合印發(fā)《衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引》。該指引從“人工智能+醫(yī)療服務(wù)管理”“人工智能+基層公共衛(wèi)生服務(wù)”“人工智能+健康產(chǎn)業(yè)發(fā)展”和“人工智能+醫(yī)學(xué)教學(xué)科研”四大領(lǐng)域,給出了84個應(yīng)用場景,希望以此推進衛(wèi)生健康行業(yè)“人工智能+”應(yīng)用創(chuàng)新發(fā)展。具體應(yīng)用場景見圖2。

微信圖片_20251216222318.png

圖2  衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引 

本共識面向LLMs在醫(yī)療場景中的應(yīng)用進行評測,故選擇《衛(wèi)生健康行業(yè)人工智能應(yīng)用場景參考指引》中與共識制訂目的強相關(guān)的“醫(yī)療服務(wù)”“醫(yī)藥服務(wù)”“中醫(yī)藥管理服務(wù)”等8個模塊51個應(yīng)用場景,并將其聚焦為6個核心評測點:

1.醫(yī)療知識問答:能夠提供醫(yī)療領(lǐng)域的知識查詢與解釋,包括疾病診療、用藥指導(dǎo)、醫(yī)保政策、健康科普、醫(yī)學(xué)教育題庫及文獻問答,滿足從患者到專業(yè)人員的多層次知識需求。覆蓋藥品問答、健康教育等場景。

2.醫(yī)療復(fù)雜語言理解:能夠深度解析醫(yī)療文本語義與規(guī)則,實現(xiàn)對醫(yī)學(xué)術(shù)語、專業(yè)文書、政策法規(guī)的精準(zhǔn)理解與結(jié)構(gòu)化提取,滿足醫(yī)療行業(yè)在問題解決方面的嚴(yán)格要求。覆蓋病歷質(zhì)控、醫(yī)保核算/風(fēng)控、科研文獻分析、處方審核等場景。

3.醫(yī)療診斷治療推薦:能夠模擬臨床決策全流程,支持影像/病理/檢驗輔助診斷、手術(shù)規(guī)劃導(dǎo)航、用藥推薦、慢病管理及中醫(yī)辨證等,輔助醫(yī)生臨床決策,提高整體醫(yī)療服務(wù)能力,覆蓋專病決策、分診導(dǎo)診、多學(xué)科會診等場景。

4.醫(yī)療專業(yè)文書生成:能夠自動化生成醫(yī)療全場景文檔,包括門診病歷、入院記錄、出院小結(jié)等,提高醫(yī)療工作效率,減輕醫(yī)生工作負擔(dān)。覆蓋病歷生成、健康檔案、科研文書等場景。

5.醫(yī)療多輪對話交互:聚焦自然語言單模態(tài),核心在通過多輪問答實現(xiàn)信息獲取,強調(diào)上下文理解與個性化,場景偏向客服、管理等對話場景。覆蓋醫(yī)??头?、健康管理交互、醫(yī)院客服、醫(yī)學(xué)培訓(xùn)等場景。

6.醫(yī)療多模態(tài)對話交互:能夠?qū)ξ谋?、語音、圖像等多類型輸入進行識別與理解,并生成符合醫(yī)療規(guī)范的多模態(tài)輸出,滿足醫(yī)療行業(yè)多模態(tài)交互需求及技術(shù)輔助。覆蓋影像質(zhì)控、手術(shù)輔助、中藥鑒別等場景。

為保障評測結(jié)果科學(xué)嚴(yán)謹(jǐn)且貼合醫(yī)療場景實際表現(xiàn),依據(jù)GB/T 45288.2—2025《人工智能 大模型 第2部分 評測指標(biāo)與方法》要求,在設(shè)計評測指標(biāo)時,緊密結(jié)合醫(yī)療場景的實際問題,同時兼顧不同任務(wù)類型的核心要求、相關(guān)數(shù)據(jù)集的固有特性,并重點針對不同場景下模型輸出的回復(fù)形式進行設(shè)計。LLMs在醫(yī)療場景下推薦的評測指標(biāo)見表1。

微信圖片_20251216222321.png

具體到不同應(yīng)用場景中,從核心評測點對應(yīng)的評測指標(biāo)設(shè)定,到評測實施的全流程細節(jié),在表2中提供了詳細的示例,可作為實操參考。

微信圖片_20251216222324.png

以上提供了醫(yī)療場景下LLMs應(yīng)用效果的評測指標(biāo)。然而,模型的綜合價值不僅在于其能力的強弱,還在于將這些能力轉(zhuǎn)化為實際服務(wù)的效率與成本。因此,在關(guān)注其“效果”的同時,我們必須也關(guān)注決定其落地可行性的“性能”維度。LLMs的性能評測包含但不限于以下維度:資源消耗(包括算力要求、顯存占用、功耗),吞吐量及延遲(包括吐字速率、請求吞吐量、響應(yīng)延遲),并發(fā)能力和可擴展性(包括最大并發(fā)路數(shù)和增加計算資源時帶來模型性能提升)。

(三)問題3:如何構(gòu)建符合多領(lǐng)域協(xié)同的醫(yī)療場景下LLMs應(yīng)用效果評測團隊?

推薦意見3:建議構(gòu)建具備多學(xué)科協(xié)同能力、醫(yī)學(xué)專業(yè)背景與評測素養(yǎng)的標(biāo)準(zhǔn)化評測團隊。團隊?wèi)?yīng)由高年資醫(yī)學(xué)專家(擔(dān)任醫(yī)療LLMs評測培訓(xùn)導(dǎo)師)、計算機學(xué)專家、倫理學(xué)專家、統(tǒng)計學(xué)專家及法學(xué)專家共同組成,以保障評測工作的標(biāo)準(zhǔn)化和專業(yè)性。評測人員應(yīng)覆蓋多??啤⒍鄬蛹壍尼t(yī)生及醫(yī)院,并通過系統(tǒng)培訓(xùn)與實操驗證提升評測一致性;培訓(xùn)導(dǎo)師應(yīng)具備豐富的臨床經(jīng)驗,負責(zé)制訂評測流程與標(biāo)準(zhǔn);計算機學(xué)專家則負責(zé)數(shù)據(jù)處理、平臺支持及結(jié)果分析,確保評測流程技術(shù)可行與臨床契合;倫理學(xué)專家負責(zé)確保評測遵循現(xiàn)有倫理規(guī)范,避免數(shù)據(jù)偏見、算法偏見及其他倫理風(fēng)險;法學(xué)專家負責(zé)保障評測全流程符合國內(nèi)外相關(guān)法律法規(guī),提供合規(guī)支持與風(fēng)險把控。團隊內(nèi)部應(yīng)建立規(guī)范的人崗匹配與動態(tài)管理機制,包括分層培訓(xùn)、進階考核、任務(wù)分配與績效淘汰制度,以實現(xiàn)穩(wěn)定、高效的評測協(xié)作體系,提升評測質(zhì)量與結(jié)果可信度。[共識度:91.4%(32/35)]

跨學(xué)科團隊的構(gòu)建至關(guān)重要,專業(yè)醫(yī)生憑借深厚的醫(yī)學(xué)知識和臨床經(jīng)驗,能精準(zhǔn)把控診療邏輯、判斷醫(yī)療決策的合理性,確保LLMs的應(yīng)用符合臨床規(guī)范;有經(jīng)驗的工程師則可從技術(shù)底層優(yōu)化模型性能,解決數(shù)據(jù)處理、算法適配等問題,為測評流程的穩(wěn)定性和效率提供保障。該團隊模式能夠有效整合不同領(lǐng)域的知識,提高標(biāo)注質(zhì)量。團隊?wèi)?yīng)通過標(biāo)準(zhǔn)化培訓(xùn)與考核機制強化跨學(xué)科協(xié)作能力,選拔具備專業(yè)深度與溝通能力的成員,為LLMs的評測提供可靠人才保障。

1.培訓(xùn)導(dǎo)師的選拔應(yīng)跨越不同科室、不同場景,以確保其能力全面覆蓋:根據(jù)不同應(yīng)用場景、專科方向與任務(wù)難度,選取具備相應(yīng)背景與職稱的專家醫(yī)生擔(dān)任培訓(xùn)導(dǎo)師,確保醫(yī)學(xué)能力與任務(wù)類型的高度匹配。培訓(xùn)導(dǎo)師還應(yīng)具有地域代表性,避免地域差異對評測結(jié)果產(chǎn)生偏倚。培訓(xùn)導(dǎo)師資質(zhì)建議為副主任醫(yī)師及以上,具備豐富的臨床與教學(xué)經(jīng)驗,能夠深入理解各類醫(yī)療任務(wù)并提供準(zhǔn)確指導(dǎo)。

2.參評醫(yī)師應(yīng)從專業(yè)資質(zhì)及實踐能力多維度出發(fā)綜合考慮,并通過小樣本交叉測評和場景測評進一步提高結(jié)果一致性和穩(wěn)定性:根據(jù)醫(yī)學(xué)場景任務(wù)的不同,需要篩選合適的醫(yī)生參與評測,應(yīng)根據(jù)不同應(yīng)用場景、不同專科、不同難度等,選拔對應(yīng)背景、職稱的專科醫(yī)師。(1)參評醫(yī)師的資質(zhì)。①從專業(yè)資質(zhì)維度,參評醫(yī)師需涵蓋住院醫(yī)師、主治醫(yī)師、副主任醫(yī)師及主任醫(yī)師,覆蓋臨床診療、醫(yī)學(xué)影像、檢驗醫(yī)學(xué)等多個科室;②從實踐能力維度,參評醫(yī)師需具備測評相關(guān)的實踐經(jīng)驗,掌握基礎(chǔ)醫(yī)學(xué)統(tǒng)計學(xué)方法,具備醫(yī)療數(shù)據(jù)解析與專業(yè)測評報告撰寫能力。(2)參評醫(yī)師的遴選流程。①采用小樣本交叉測評法,對候選醫(yī)師的醫(yī)學(xué)知識儲備及臨床問題理解能力進行量化評測,建立基礎(chǔ)能力篩選標(biāo)準(zhǔn);②基于多任務(wù)場景的大樣本測評數(shù)據(jù)集,開展標(biāo)準(zhǔn)化測評實踐,通過組內(nèi)一致性檢驗優(yōu)化測評人員對評分細則的認識,確保評測標(biāo)準(zhǔn)的同質(zhì)化執(zhí)行。

3.計算機學(xué)專家(如數(shù)據(jù)工程師和計算機工程師)的資質(zhì)要求與職能作用:除醫(yī)學(xué)專業(yè)人員外,具備數(shù)據(jù)處理分析以及機器學(xué)習(xí)知識的數(shù)據(jù)工程師和計算機工程師參與評測團隊,可以從多個角度保證所標(biāo)注的數(shù)據(jù)同時滿足計算機思考決策方式和臨床專業(yè)性及實用性,通過專業(yè)醫(yī)生、數(shù)據(jù)工程師和計算機工程師的協(xié)作,形成評測工作的跨學(xué)科框架。

計算機學(xué)專家的資質(zhì)要求:需持有數(shù)據(jù)工程師或計算機工程師職業(yè)資質(zhì)認證,或擁有5年以上相關(guān)領(lǐng)域從業(yè)經(jīng)驗,且須通過專家組組織的專項能力測試,方可獲得參評資格。其職責(zé)包括:(1)保障評測平臺的穩(wěn)定性。①在標(biāo)注平臺中,開發(fā)智能輔助工具能夠有效提升測評效率,這一點已被多方所驗證。這些工具具備自動填充、智能提示以及錯誤預(yù)警等多種功能,它們依托于自然語言處理和機器學(xué)習(xí)技術(shù),可顯著減少人工標(biāo)注過程中的重復(fù)性勞動,降低錯誤發(fā)生率,進而提高整體的數(shù)據(jù)質(zhì)量。②構(gòu)建完善的數(shù)據(jù)安全防護體系,對醫(yī)療標(biāo)注數(shù)據(jù)進行加密存儲與傳輸,同時設(shè)置嚴(yán)格的權(quán)限管理機制,確保不同角色的人員只能訪問和操作其權(quán)限范圍內(nèi)的數(shù)據(jù),以上措施可有效防止數(shù)據(jù)泄露和誤操作。(2)保障評測數(shù)據(jù)的均衡性。數(shù)據(jù)工程師需具備良好的數(shù)據(jù)分析能力,以確保在數(shù)據(jù)標(biāo)注過程中實現(xiàn)數(shù)據(jù)的均衡分布;同時,要嚴(yán)格把控數(shù)據(jù)質(zhì)量,提供標(biāo)準(zhǔn)化的術(shù)語庫,從而有效減少標(biāo)注過程中的歧義,切實保障標(biāo)注數(shù)據(jù)的一致性與合理性。(3)保障評測結(jié)果分析的專業(yè)性。計算機工程師具備自然語言處理和機器學(xué)習(xí)專業(yè)知識,能夠評測LLMs的技術(shù)性能,如準(zhǔn)確率、召回率、效率等。此外,他們還可以分析LLMs存在的潛在偏差和局限性。

4.倫理學(xué)專家的資質(zhì)要求與職能作用:在LLMs測評團隊中,倫理學(xué)專家需具有應(yīng)用倫理學(xué)、生命倫理學(xué)、醫(yī)學(xué)倫理學(xué)或科技哲學(xué)專業(yè)碩士及以上學(xué)歷,具備3年以上AI倫理、數(shù)據(jù)倫理和科研倫理的研究或從業(yè)經(jīng)驗,具備3年以上的科研倫理審查經(jīng)驗,理解LLMs的工作原理,了解訓(xùn)練數(shù)據(jù)、微調(diào)、提示、參數(shù)和輸出,理解訓(xùn)練數(shù)據(jù)如何被獲取、清理及可能的數(shù)據(jù)偏見。其核心作用體現(xiàn)在4個方面:(1)結(jié)合現(xiàn)有AI原則和治理框架,明確適合目標(biāo)場景的倫理評測規(guī)則,使評測遵循現(xiàn)有倫理規(guī)范;(2)數(shù)據(jù)倫理評價,對訓(xùn)練所用數(shù)據(jù)的獲取、清洗進行評估,并評估數(shù)據(jù)偏見風(fēng)險;(3)對算法模型進行倫理評估,識別算法中存在的倫理問題,包括算法的魯棒性、可解釋性、透明性、公平性等,并評估價值鏈上主體對算法的影響;(4)與LLMs評測團隊中成員協(xié)作,針對LLMs中存在的倫理問題和相關(guān)風(fēng)險提出完善建議。

5.法學(xué)專家的資質(zhì)要求與職能作用:在LLMs測評團隊中,法學(xué)專家需擁有法學(xué)專業(yè)碩士及以上學(xué)歷,具備3年以上數(shù)據(jù)安全、個人信息保護或AI合規(guī)領(lǐng)域的從業(yè)經(jīng)驗,熟悉國內(nèi)外相關(guān)法規(guī),具備醫(yī)療或AI領(lǐng)域交叉學(xué)科知識儲備,能較為準(zhǔn)確地理解LLMs測評中的臨床數(shù)據(jù)特性與技術(shù)邏輯。其核心作用體現(xiàn)在3個方面:(1)構(gòu)建合規(guī)框架,結(jié)合LLMs測評場景(如醫(yī)療數(shù)據(jù)處理、多模態(tài)信息交互等),制訂涵蓋數(shù)據(jù)采集、脫敏、存儲、模型輸出驗證全流程的合規(guī)標(biāo)準(zhǔn),確保測評活動符合法律法規(guī)要求;(2)動態(tài)風(fēng)險管控,針對測評中可能出現(xiàn)的敏感信息泄露、模型輸出合規(guī)性爭議等風(fēng)險,提供實時法律評估與應(yīng)對方案,例如審核醫(yī)療數(shù)據(jù)去標(biāo)識化效果是否滿足“較難識別特定個體”的法定要求;(3)合規(guī)能力建設(shè),通過專項培訓(xùn)提升團隊成員的法律意識,明確測評各環(huán)節(jié)的法律邊界,同時對測評結(jié)果的合法性進行確認,保障LLMs在醫(yī)療領(lǐng)域的應(yīng)用符合法律規(guī)范。

6.評測團隊需制訂明確的標(biāo)注規(guī)范,并進行統(tǒng)一培訓(xùn):評測團隊在不同醫(yī)療任務(wù)場景下需要有明確的評測標(biāo)注規(guī)范。評測標(biāo)注規(guī)范由醫(yī)療LLMs評測培訓(xùn)導(dǎo)師制訂,優(yōu)秀的評測標(biāo)注規(guī)范應(yīng)當(dāng)清晰、詳細、可操作,并明確標(biāo)注范圍、標(biāo)準(zhǔn)、方法及注意事項等內(nèi)容。評測標(biāo)注規(guī)范應(yīng)包含各種可能遇到的情況和解決方案,確保團隊成員在標(biāo)注過程中有統(tǒng)一的標(biāo)準(zhǔn)可循。醫(yī)療LLMs評測培訓(xùn)導(dǎo)師需結(jié)合不同任務(wù)的評分規(guī)范和實操中的問題,系統(tǒng)梳理培訓(xùn)材料,包含任務(wù)標(biāo)注案例、注意事項等;醫(yī)學(xué)專家負責(zé)提供專業(yè)的醫(yī)學(xué)知識,協(xié)同篩選,確保標(biāo)注的準(zhǔn)確性;數(shù)據(jù)科學(xué)家負責(zé)設(shè)計標(biāo)注方案和質(zhì)控流程;標(biāo)注工程師則負責(zé)具體的數(shù)據(jù)標(biāo)注工作。這種團隊模式已被證明能夠有效整合不同領(lǐng)域的知識,提高標(biāo)注質(zhì)量。

7.設(shè)置評測人員準(zhǔn)入考核機制,建立數(shù)據(jù)標(biāo)注質(zhì)量監(jiān)控制度:(1)評測人員準(zhǔn)入考核方法。針對不同醫(yī)療LLMs能力維度與應(yīng)用場景,均設(shè)置標(biāo)準(zhǔn)化試評環(huán)節(jié)。評測人員需完成規(guī)定數(shù)據(jù)量的試評任務(wù),其標(biāo)注結(jié)果與標(biāo)準(zhǔn)答案的誤差率控制在3%以內(nèi),且組內(nèi)一致性系數(shù)達到0.85以上,經(jīng)專家組復(fù)核確認后,方可獲得正式參評資格。該機制通過量化考核標(biāo)準(zhǔn),確保評測人員具備穩(wěn)定且專業(yè)的評測能力。(2)數(shù)據(jù)標(biāo)注質(zhì)量監(jiān)控。團隊中需要有專門的醫(yī)療專業(yè)人員作為質(zhì)控人員進行標(biāo)注結(jié)果的質(zhì)控,負責(zé)檢查標(biāo)注質(zhì)量,發(fā)現(xiàn)并糾正錯誤標(biāo)注。質(zhì)控人員需要具備專業(yè)的醫(yī)學(xué)知識和豐富的標(biāo)注經(jīng)驗,能夠制訂合理的質(zhì)控標(biāo)準(zhǔn)和流程。同時需要定期對標(biāo)注數(shù)據(jù)進行抽查和評測,及時發(fā)現(xiàn)和糾正錯誤標(biāo)注。定期結(jié)合歷史評分準(zhǔn)確率和質(zhì)控反饋設(shè)定淘汰門檻,對評測人員進行復(fù)訓(xùn)與考核。利用統(tǒng)計分析方法,如計算標(biāo)注一致性系數(shù)來評測標(biāo)注質(zhì)量,并根據(jù)評測結(jié)果改進標(biāo)注流程和指南。

(四)問題4:如何設(shè)計兼顧代表性與可擴展性的醫(yī)療場景下LLMs應(yīng)用效果評測數(shù)據(jù)集?

推薦意見4:評測數(shù)據(jù)集的設(shè)計需注重科學(xué)性、動態(tài)性、合規(guī)性,需制訂標(biāo)準(zhǔn)化的數(shù)據(jù)構(gòu)建流程,并建立可擴展與可持續(xù)更新的機制,以確保醫(yī)療LLMs應(yīng)用效果評測具有臨床真實性、全面代表性、公正性。(1)評測數(shù)據(jù)集的科學(xué)性設(shè)計需遵循三個原則:①臨床真實性,基于真實診療數(shù)據(jù),覆蓋醫(yī)療全流程及決策沖突情境;②全面代表性,從疾病、人群、醫(yī)療機構(gòu)等多維度廣泛覆蓋,動態(tài)引入關(guān)鍵維度;③公正性,納入弱勢群體、特殊人群及特定領(lǐng)域數(shù)據(jù)。(2)評測數(shù)據(jù)集需建立動態(tài)擴展機制:采用模塊化設(shè)計,按場景、疾病、任務(wù)等劃分獨立單元,確保結(jié)構(gòu)、格式、存儲規(guī)范;建立標(biāo)準(zhǔn)化版本控制體系,根據(jù)模型迭代、政策更新等情形,及時更新數(shù)據(jù)并保留歷史版本,增強評測連續(xù)性與可解釋性。(3)數(shù)據(jù)合規(guī)要求:評測數(shù)據(jù)集若使用真實醫(yī)療數(shù)據(jù),須嚴(yán)格遵守法律法規(guī),對姓名、住址等敏感信息徹底脫敏匿名,確保無識別性、不屬于個人信息。建議引入脫敏規(guī)范與審計機制,保障評測全流程合法、合規(guī)、可追溯。[共識度:100%(35/35)]

1.評測數(shù)據(jù)集的設(shè)計原則:評測數(shù)據(jù)集在設(shè)計時應(yīng)保證臨床真實性、全面代表性和公正性三個設(shè)計原則。

(1)臨床真實性。評測數(shù)據(jù)集采用真實世界醫(yī)療場景數(shù)據(jù),覆蓋診前-診中-診后就醫(yī)全流程數(shù)據(jù),且包含典型臨床決策沖突場景。同時數(shù)據(jù)要求來自臨床真實情況,如住院電子病歷、門診病歷、體檢報告單等。評測數(shù)據(jù)集的正確性將由專家組進行復(fù)核確認。

(2)全面代表性。①數(shù)據(jù)類型:根據(jù)醫(yī)療場景的不同,測試集需對應(yīng)覆蓋測試場景下所涉及的數(shù)據(jù)類型。普遍的醫(yī)療場景下應(yīng)考慮的臨床數(shù)據(jù)類型包括導(dǎo)醫(yī)導(dǎo)診對話數(shù)據(jù)、門診病歷數(shù)據(jù)、檢查檢驗報告單、復(fù)雜住院病歷、醫(yī)療對話、診療計劃文檔、影像數(shù)據(jù)及醫(yī)學(xué)指南文獻類文章等。以上數(shù)據(jù)需滿足對LLMs應(yīng)用場景的覆蓋,包括醫(yī)療海量知識問答、醫(yī)療復(fù)雜語言理解、醫(yī)療診斷治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對話交互、醫(yī)療多模對話交互。其中,醫(yī)學(xué)指南文獻類文章作為權(quán)威醫(yī)學(xué)知識的載體,可有效支撐模型對臨床指南的深度解析與循證決策能力,進一步強化數(shù)據(jù)類型的專業(yè)性和全面性。②疾病維度:確保數(shù)據(jù)集覆蓋盡可能多的疾病類型和臨床表現(xiàn),從而驗證LLMs在不同醫(yī)學(xué)領(lǐng)域的泛化能力。例如,包括腫瘤、心血管疾病、傳染病等不同科室/不同類別的病例,可從國際疾病分類(ICD)中按不同層級分層抽樣,根據(jù)疾病的不同程度,作出符合患者病情的診斷;同時需要根據(jù)國家發(fā)布的兩批罕見病列表,納入部分罕見病,保證模型復(fù)雜病案診斷鑒別能力。此外,還需納入一定比例的陰性樣本(如無明確器質(zhì)性病變的功能性癥狀病例、非目標(biāo)疾病的相似癥狀病例等),以此驗證模型在區(qū)分疾病與非疾病狀態(tài)、鑒別相似癥狀下不同病因的能力,減少假陽性診斷,進一步提升模型對復(fù)雜臨床場景的適配性。③人群維度:醫(yī)學(xué)數(shù)據(jù)往往存在偏差,如某些疾病可能在特定人群中更為普遍。如果評測數(shù)據(jù)集未能反映真實世界的人群分布,LLMs可能會學(xué)習(xí)并放大這些偏差,導(dǎo)致對某些群體做出不準(zhǔn)確或不公平的診斷。因此,選擇評測數(shù)據(jù)時應(yīng)注意平衡患者人群特征,包括平衡不同年齡段、不同性別、不同地域等。④醫(yī)療機構(gòu)維度:覆蓋基層醫(yī)院、二級醫(yī)院、三級醫(yī)院等不同層級,根據(jù)實際情況按照比例進行模擬,避免模型在基層醫(yī)療機構(gòu)(如社區(qū)醫(yī)院、鄉(xiāng)鎮(zhèn)衛(wèi)生院等)應(yīng)用中的準(zhǔn)確性和有效性受到影響,使基層患者不能獲得合適的醫(yī)療AI決策。結(jié)合實際評測對象、評測場景的差異性,還應(yīng)考慮從其他特性維度進行數(shù)據(jù)集覆蓋。

(3)公正性。評測數(shù)據(jù)應(yīng)該保持公正,在保障覆蓋絕大部分真實世界數(shù)據(jù)的同時,適當(dāng)設(shè)計弱勢群體、特殊人群、特殊領(lǐng)域的數(shù)據(jù)集。

2.測試集的形式:應(yīng)支持動態(tài)擴展,便于數(shù)據(jù)持續(xù)更新。

(1)模塊化數(shù)據(jù)結(jié)構(gòu)。將數(shù)據(jù)集拆分為獨立模塊,支持按模塊添加,通過采用統(tǒng)一的數(shù)據(jù)格式和存儲規(guī)范,確保新數(shù)據(jù)模塊與現(xiàn)有模塊無縫集成,而無需重構(gòu)整個數(shù)據(jù)集。這對于不斷發(fā)展的領(lǐng)域(如醫(yī)療健康)至關(guān)重要,因為新的數(shù)據(jù)類型、特征或患者群體可能需要定期添加到評測數(shù)據(jù)集中。

(2)版本控制。評測數(shù)據(jù)集需要明確版本,并制訂對應(yīng)的更新策略,如當(dāng)模型技術(shù)迭代明顯、醫(yī)療政策調(diào)整、醫(yī)療技術(shù)更新等重大變化時,適時對測試集進行更新;此外,還應(yīng)支持歷史版本回溯功能,這有益于問題排查、長期分析及版本合規(guī)性檢驗。

3.測試集的倫理與安全:需對敏感信息進行脫敏處理、滿足數(shù)據(jù)安全并遵循倫理原則。評測數(shù)據(jù)集采用真實世界診療數(shù)據(jù)時,需對數(shù)據(jù)中的姓名、住址、身份標(biāo)識、就診號等敏感信息進行脫敏處理,通過完整的匿名化與去標(biāo)識化操作,確保數(shù)據(jù)不再構(gòu)成個人信息。嚴(yán)格遵守《中華人民共和國個人信息保護法》《中華人民共和國數(shù)據(jù)安全法》等國內(nèi)法規(guī),同時參考歐盟的《通用數(shù)據(jù)保護條例》、AI法案和美國的健康保險流通與責(zé)任法案等國外法規(guī),全面保障數(shù)據(jù)安全。在健康醫(yī)療大數(shù)據(jù)應(yīng)用場景下,健康醫(yī)療個人信息控制者開展個人信息處理活動,應(yīng)遵循合法、正當(dāng)、必要與誠信原則,目的原則,公開透明原則,質(zhì)量原則,以及責(zé)任原則。在實際操作中應(yīng)注意以下幾點:

(1)數(shù)據(jù)隱私性。在獲取數(shù)據(jù)內(nèi)容上,因為醫(yī)療數(shù)據(jù)包含大量敏感信息,如患者的姓名、身份證號、聯(lián)系方式、健康狀況、疾病史、詳細出生日期等,所以必須采取嚴(yán)格的隱私保護措施。在不影響數(shù)據(jù)使用價值的前提下,對數(shù)據(jù)進行匿名化和去標(biāo)識化處理,可降低數(shù)據(jù)被識別和泄露的風(fēng)險。在測評數(shù)據(jù)應(yīng)用中,針對患者姓名、身份證號、聯(lián)系方式等與診斷診療無關(guān)的個人敏感信息,需通過規(guī)范化脫敏處理以平衡數(shù)據(jù)利用與隱私保護,具體采用以下三種核心方式:①以偽數(shù)據(jù)或標(biāo)準(zhǔn)化占位符替換此類信息,以阻斷真實身份關(guān)聯(lián);②將精準(zhǔn)個人信息(如具體年齡、居住地址)泛化為年齡區(qū)間、城市級別等寬泛類別,弱化個體識別度;③對數(shù)字類個人信息(如醫(yī)保賬號、病案號)采用加密技術(shù)處理,在保證信息安全的情況下保留唯一標(biāo)識。數(shù)據(jù)脫敏后,還需通過檢測流程確認其是否可以識別個體或是否可以關(guān)聯(lián)回溯,避免存在脫敏不徹底導(dǎo)致隱私泄露的風(fēng)險。

(2)數(shù)據(jù)安全性。在數(shù)據(jù)獲取途徑上,基于數(shù)據(jù)安全性要求,需明確誰可以使用以及可以披露哪些受保護的健康信息。患者有權(quán)查看、獲取其醫(yī)療記錄的副本,并要求更正不準(zhǔn)確的信息。醫(yī)療機構(gòu)必須告知患者其隱私權(quán),并獲得患者的書面授權(quán)才能披露某些信息。比如,醫(yī)療科技公司應(yīng)建立訪問控制機制,限制只有經(jīng)過授權(quán)的工作人員和醫(yī)生才能訪問相關(guān)的患者數(shù)據(jù)。此外,保證原始醫(yī)療數(shù)據(jù)備份也很重要,在評測的標(biāo)注階段,相關(guān)工作人員應(yīng)使用脫敏后的數(shù)據(jù),但仍需對原始數(shù)據(jù)進行備份,確保數(shù)據(jù)可以安全地備份和恢復(fù),以應(yīng)對數(shù)據(jù)處理過程中導(dǎo)致的信息缺失等問題。

(3)倫理合規(guī)性。在醫(yī)療數(shù)據(jù)的處理過程中,需要遵循倫理原則,確保數(shù)據(jù)的使用符合道德和倫理標(biāo)準(zhǔn)。例如,在進行醫(yī)療研究時,使用患者數(shù)據(jù)必須經(jīng)過倫理委員會的審查和批準(zhǔn),要充分考慮研究目的是否正當(dāng),是否會對患者造成潛在的傷害或不利影響;數(shù)據(jù)采集需避免偏見,例如納入不同種族、不同社會經(jīng)濟地位的人群數(shù)據(jù),防止算法歧視導(dǎo)致醫(yī)療資源分配不公。

(五)問題5:如何建立評測數(shù)據(jù)集與評測效果的反饋及更新機制?

推薦意見5:為保障醫(yī)療LLMs評測體系的高標(biāo)準(zhǔn)執(zhí)行與持續(xù)優(yōu)化,建議完善并落實嚴(yán)謹(jǐn)、透明且高效的反饋與更新機制。評測機構(gòu)應(yīng)構(gòu)建多渠道、分層次的反饋體系,包括定期專家評審、在線反饋平臺和臨床驗證模塊,以確保收集到廣泛且專業(yè)的意見。同時,應(yīng)設(shè)立反饋管理團隊與獨立仲裁委員會,規(guī)范爭議處理流程,保障問題得到公正、透明的解決。更新機制應(yīng)基于法規(guī)變更、技術(shù)進步、應(yīng)用擴展及安全事件等觸發(fā)條件,實施季度或年度常規(guī)迭代,并設(shè)立多層分級的緊急響應(yīng)流程以應(yīng)對重大風(fēng)險。同時,配合統(tǒng)一的版本管理與可追溯的歷史庫,可進一步保障評測體系的科學(xué)性、前瞻性和持續(xù)改進能力。[共識度:97.1%(34/35)]

由于醫(yī)療LLMs在臨床應(yīng)用中呈現(xiàn)復(fù)雜性、高風(fēng)險性與快速演進性的特征,其評測體系必須動態(tài)且公平。有效的反饋與更新機制是保障評測體系科學(xué)性、時效性、公平性與可信性的根本,更是評測機構(gòu)展現(xiàn)其專業(yè)性的關(guān)鍵。

1.反饋機制是提升評測體系精準(zhǔn)性與公平性的核心:應(yīng)設(shè)置多途徑的反饋渠道,如定期召開專家評審會,能有效整合臨床醫(yī)生對于LLMs診斷支持、治療決策等方面的專業(yè)判斷與經(jīng)驗,這可以作為醫(yī)療AI評測的重要參考基準(zhǔn)。同時,構(gòu)建反饋平臺和臨床集成反饋模塊可以直接獲取一線醫(yī)護人員在真實世界應(yīng)用中的細微偏差與性能問題,從而彌補評測的不足。為應(yīng)對醫(yī)療AI的潛在偏見風(fēng)險,應(yīng)建立反饋循環(huán)框架,可增設(shè)匿名反饋通道,將其貫穿于開發(fā)與部署的各個階段,以同時保證公平性與持續(xù)質(zhì)量改進。

標(biāo)準(zhǔn)化爭議處理機制是保障AI評測體系公正性與客觀性的關(guān)鍵環(huán)節(jié)。該機制的核心作用在于為涉及復(fù)雜倫理(如算法歧視導(dǎo)致的醫(yī)療不公平)或技術(shù)爭議(如模型解釋性不足)的問題提供制度化、權(quán)威性的解決路徑,例如通過經(jīng)嚴(yán)格程序遴選、力求獨立公正的專家仲裁。同時,評測流程的透明和規(guī)范至關(guān)重要,在研究設(shè)計階段就應(yīng)明確數(shù)據(jù)處理標(biāo)準(zhǔn)、指標(biāo)選擇依據(jù)及模型評測方法。在計算模型性能指標(biāo)時,需詳盡公開數(shù)據(jù)來源、計算方法和關(guān)鍵假設(shè)條件,以體現(xiàn)評測機構(gòu)的專業(yè)性、科學(xué)性與責(zé)任擔(dān)當(dāng)。透明度雖無法徹底消除所有質(zhì)疑(如價值觀沖突或理解差異),卻能顯著降低信息不對稱帶來的不信任,為結(jié)果可信度奠定基礎(chǔ),并使評測過程具備可審查性。爭議處理機制與透明度建設(shè)相輔相成,共同成為可信賴AI評測體系的核心支柱。

2.動態(tài)更新機制是保障評測體系先進性、適應(yīng)性與可持續(xù)性的必要條件:更新觸發(fā)條件應(yīng)確保評測體系能及時響應(yīng)行業(yè)變化。醫(yī)療AI技術(shù)發(fā)展迅速,LLMs架構(gòu)與能力迭代是常態(tài),臨床相關(guān)應(yīng)用也會隨之更新。及時更新的評測體系能夠推動AI技術(shù)在不同領(lǐng)域不斷適應(yīng)新場景,實現(xiàn)技術(shù)革新,為AI新技術(shù)的發(fā)展提供活力。

科學(xué)的迭代周期與緊急響應(yīng)機制保障了評測體系的時效性。常規(guī)的季度或年度迭代允許納入新應(yīng)用場景和數(shù)據(jù),保持評測體系的活力。而多層分級的響應(yīng)與修訂流程則能妥善應(yīng)對不同的突發(fā)性重大安全事件或政策調(diào)整。其在醫(yī)療這種高風(fēng)險領(lǐng)域至關(guān)重要,能有效降低患者風(fēng)險并保障對AI的監(jiān)管合規(guī)性。

嚴(yán)謹(jǐn)?shù)陌姹咀匪輽C制是評測體系透明度與可信賴性的體現(xiàn)。統(tǒng)一的語義化版本標(biāo)識和完善的歷史版本庫不僅便于用戶追溯評測標(biāo)準(zhǔn)的變化,進行跨周期分析,也為監(jiān)管機構(gòu)進行審查提供了可靠依據(jù)。這種透明化管理證明了評測流程的可審查性與決策可解釋性,極大提升了評測機構(gòu)的專業(yè)性與公正性。同時,它也展示了評測流程的嚴(yán)謹(jǐn)性與責(zé)任感,進而在醫(yī)療AI生態(tài)系統(tǒng)中建立長期信任。

(六) 問題6:醫(yī)療場景下LLMs應(yīng)用效果回顧性評測報告的標(biāo)準(zhǔn)化模板應(yīng)包含哪些必備要素與披露要求?

推薦意見6:建議建立統(tǒng)一規(guī)范的評測報告結(jié)構(gòu)與發(fā)布機制,確保評測結(jié)果的透明性、權(quán)威性和可復(fù)用性。評測報告應(yīng)完整記錄模型基本信息、評測背景與目標(biāo)、評測范圍及應(yīng)用場景,詳述評測數(shù)據(jù)來源與合規(guī)流程,明確采用的定量與定性評測指標(biāo)及其計算方法。報告還應(yīng)介紹評測專家的專業(yè)構(gòu)成與地域分布,系統(tǒng)展示量化結(jié)果并結(jié)合專家定性評價,從準(zhǔn)確性、安全性、實用性等多維度給出綜合結(jié)論。最后,應(yīng)規(guī)范報告的發(fā)布平臺、獲取方式及有效期管理,確保評測成果公開透明并便于持續(xù)更新。[共識度:100%(35/35)]

醫(yī)療場景下LLMs應(yīng)用效果回顧性評測報告的標(biāo)準(zhǔn)化模板應(yīng)包含以下關(guān)鍵要素,以保證評測結(jié)果的透明性、權(quán)威性和可復(fù)用性。

1.模型基本信息與評測背景:報告應(yīng)清晰呈現(xiàn)被評測模型的名稱、版本、開發(fā)者、主要功能,以及評測的目的、范圍和具體應(yīng)用場景,確保讀者對評測對象有全面了解。例如,明確模型是用于輔助診斷、病歷摘要,還是藥物相互作用預(yù)測等特定任務(wù)。

2.評測數(shù)據(jù)來源與合規(guī):詳細描述評測所用數(shù)據(jù)集的構(gòu)成,包括數(shù)據(jù)量、數(shù)據(jù)類型、版本號、來源,以及數(shù)據(jù)收集和處理過程中的倫理考量與合規(guī)性聲明。特別需要明確數(shù)據(jù)集是否經(jīng)過充分的脫敏處理,是否獲得了患者的知情同意,以及是否符合相關(guān)數(shù)據(jù)安全法規(guī)。

3.評測指標(biāo)與方法:清晰闡述所采用的定量指標(biāo)(如準(zhǔn)確率、召回率、F1值)和定性指標(biāo)(如MOS評分、模型與真人醫(yī)生一致性),并詳細說明其計算方法。對于定性指標(biāo),需要說明調(diào)查問卷的設(shè)計、樣本選擇及統(tǒng)計分析方法。定量指標(biāo)可以參考“問題2”中的指標(biāo)進行選擇。

4.評測團隊信息:介紹評測團隊組成的專業(yè)背景、職稱和經(jīng)驗,確保評測團隊具有充分的代表性和專業(yè)性。例如評測團隊?wèi)?yīng)包括高年資醫(yī)學(xué)專家、計算機學(xué)專家、倫理學(xué)專家、統(tǒng)計學(xué)專家、法學(xué)專家等。

5.評測結(jié)果與綜合評價:系統(tǒng)展示量化評測結(jié)果,并結(jié)合專家定性評價,從準(zhǔn)確性、安全性、實用性、倫理合規(guī)性等多維度給出綜合結(jié)論。報告應(yīng)明確指出模型的優(yōu)勢與不足,以及潛在的應(yīng)用風(fēng)險與改進建議。報告應(yīng)明確說明評測數(shù)據(jù)集、評測代碼是否開放,以及在何種條件下可以被第三方訪問以進行結(jié)果復(fù)現(xiàn)。

6.報告發(fā)布與更新:規(guī)范報告的發(fā)布平臺、獲取方式及有效期管理,確保評測成果公開透明并便于持續(xù)更新。建立統(tǒng)一的報告版本管理機制,便于用戶追溯和比較不同版本模型的評測結(jié)果。評測報告應(yīng)在權(quán)威平臺發(fā)布,并明確報告有效期,以便用戶獲取最新的評測信息。

本共識作為指導(dǎo)性、非強制性的技術(shù)文件,聚焦醫(yī)療場景下LLMs應(yīng)用效果的回顧性評測,旨在構(gòu)建規(guī)范、科學(xué)的評測框架。我們倡導(dǎo)臨床、科研、產(chǎn)業(yè)及監(jiān)管多方主體協(xié)同參與,共同推進評測體系的持續(xù)完善與優(yōu)化,確保評測方法與指標(biāo)的科學(xué)性、權(quán)威性及實用性。展望未來,回顧性評測將在前瞻性研究及真實世界數(shù)據(jù)的支撐下不斷深化,并逐步探索與前瞻性評估的融合機制,通過雙重路徑共同提升模型評估的廣度與深度。評測內(nèi)容與方法也將持續(xù)拓展,覆蓋智能機器人、全病程數(shù)字健康管理等新興應(yīng)用領(lǐng)域,以期促進AI技術(shù)在醫(yī)療健康體系中的安全、有效及高質(zhì)量應(yīng)用。

本共識制訂專家組成員名單:

指導(dǎo)委員會(按姓名拼音排序):陳耀龍(蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院);董家鴻(北京清華長庚醫(yī)院);葛均波(復(fù)旦大學(xué)醫(yī)學(xué)院附屬中山醫(yī)院);魏均民(中華醫(yī)學(xué)會雜志社 醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室)

主任委員:王振常(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院)

專家委員會(按姓氏漢語拼音排序):常慶(上海交通大學(xué)瑞金醫(yī)院);陳飛(華為云計算技術(shù)有限公司);程龍龍(中電云腦(天津)科技有限公司);董迪(中國科學(xué)院自動化研究所分子影像重點實驗室);馮曉彬(清華大學(xué)長庚醫(yī)院);何晶晶(中國社會科學(xué)院國際法學(xué)研究所);何怡華(首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院);賀志陽(訊飛醫(yī)療科技股份有限公司);計虹(北京大學(xué)第三醫(yī)院信息中心);姜雪(北京大學(xué)第三醫(yī)院);李楠(北京大學(xué)第三醫(yī)院);李鵬(中華醫(yī)學(xué)會雜志社醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室);李亞子(中國醫(yī)學(xué)科學(xué)院);劉冰(中華醫(yī)學(xué)會雜志社 醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室);劉軍偉(螞蟻科技集團股份有限公司);呂晗(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);閔棟(中國信通院云計算與大數(shù)據(jù)研究所);齊文安(《數(shù)字醫(yī)學(xué)與健康》編輯部);沈錫賓(中華醫(yī)學(xué)會雜志社 醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室);盛斌(上海交通大學(xué));孫靜(《智慧醫(yī)學(xué)》(英文)編輯部);孫育杰(北京大學(xué)生命科學(xué)學(xué)院);王力華(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);王維民(北京大學(xué)醫(yī)學(xué)部 北京大學(xué)醫(yī)學(xué)教育研究所);王育琴(北京宣武醫(yī)院);翁建平(安徽醫(yī)科大學(xué));吳剛(南京柯基數(shù)據(jù)有限公司);吳小劍(中山大學(xué)附屬第六醫(yī)院);肖月(國家心理健康和精神衛(wèi)生防治中心);許言午(華南理工大學(xué)未來技術(shù)學(xué)院);閆鵬(深圳市騰訊計算機系統(tǒng)有限公司);葉哲偉(華中科技大學(xué)同濟醫(yī)學(xué)院附屬協(xié)和醫(yī)院);尹萬紅(四川大學(xué)華西醫(yī)院重癥醫(yī)學(xué)科);張成文(北京郵電大學(xué)計算機學(xué)院);張迪(北京協(xié)和醫(yī)學(xué)院人文和社會科學(xué)學(xué)院);張鵬?。ū本┽t(yī)院科研處);張文生(中國科學(xué)院自動化研究所);張旭東(國家衛(wèi)生健康委醫(yī)院管理研究所);趙世杰(西北工業(yè)大學(xué));趙邑(北京清華長庚醫(yī)院皮膚科);周少華(中國科學(xué)技術(shù)大學(xué)生物醫(yī)學(xué)工程學(xué)院);周翔(北京協(xié)和醫(yī)院);朱寶亮(上海小荷醫(yī)學(xué)檢驗實驗室有限公司);朱立峰(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院);朱祖懿(北京百川智能科技有限公司)。

執(zhí)筆專家:呂晗(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);盛斌(上海交通大學(xué))

秘書組(按姓名拼音排序):江澤鏵(清華大學(xué)臨床醫(yī)學(xué)院);田丙磊(中華醫(yī)學(xué)會雜志社醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室);王凱磊(中華醫(yī)學(xué)會雜志社 醫(yī)學(xué)期刊知識挖掘與知識服務(wù)重點實驗室);王麗(《數(shù)字醫(yī)學(xué)與健康》編輯部);王曄(蘭州大學(xué)公共衛(wèi)生學(xué)院)


特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。

Copyright ? 2022 上??评讜狗?wù)有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有    ICP備案號:滬ICP備17004559號-5