基于全國340萬人的健康檔案,深度學(xué)習(xí)模型可在發(fā)病前3-15個月識別高危個體,相對風(fēng)險高達118倍。
2型糖尿病曾被認為是中老年人的疾病,如今在年輕人中正以驚人速度增長。定義為40歲前發(fā)病的年輕 onset 2型糖尿病,疾病進展更快、并發(fā)癥風(fēng)險更高,卻因篩查不足和常被誤診為1型糖尿病而大量漏診。如何從海量常規(guī)醫(yī)療數(shù)據(jù)中提前發(fā)現(xiàn)這些高危個體?
丹麥哥本哈根大學(xué)諾和諾德基金會基礎(chǔ)代謝研究中心的研究團隊在《柳葉刀·數(shù)字健康》上發(fā)表了一項全國性回顧性隊列研究,利用深度學(xué)習(xí)方法整合初級和二級醫(yī)療數(shù)據(jù),開發(fā)了能夠預(yù)測年輕發(fā)病2型糖尿病風(fēng)險的算法。這項研究覆蓋了340余萬丹麥居民,識別出16,828例年輕發(fā)病2型糖尿病患者,為低成本人群篩查提供了新工具。
數(shù)據(jù)與方法:從“健康軌跡”中學(xué)習(xí)
研究使用了丹麥三大全國性健康登記系統(tǒng)——國家處方登記冊(1995-2021)、國家衛(wèi)生服務(wù)登記冊(1990-2021)和國家患者登記冊(1977-2018),覆蓋了全丹麥所有居民的醫(yī)療接觸記錄(包括醫(yī)院診斷、全科醫(yī)生處方、專科服務(wù)、檢驗登記等)。研究人群為1995年至2018年間所有40歲以下的丹麥居民,最終納入3,435,638人。
研究團隊采用Transformer架構(gòu)(與ChatGPT同源的技術(shù)),為每個個體構(gòu)建一條時間軸上的“健康軌跡”——包含最多10年內(nèi)的處方、診斷和服務(wù)代碼。模型通過滑動窗口方式,在多個時間點評估個體在未來特定時間窗內(nèi)(0-12個月、3-15個月、…、12-24個月)發(fā)生2型糖尿病的風(fēng)險。關(guān)鍵創(chuàng)新在于同時使用了初級醫(yī)療(全科醫(yī)生服務(wù)、處方)和二級醫(yī)療(醫(yī)院診斷)數(shù)據(jù),并以時間間隔聚合而非按就診次數(shù)聚合的方式處理事件,使其更適應(yīng)初級醫(yī)療數(shù)據(jù)的特點。
核心結(jié)果:高風(fēng)險人群富集118倍
模型在測試集上表現(xiàn)優(yōu)異。在0-12個月預(yù)測窗內(nèi),風(fēng)險最高的前0.1%個體相較于普通人群的相對風(fēng)險高達175.0(95% CI 169.9-180.1);即使在12-24個月窗內(nèi),相對風(fēng)險仍達74.6(71.2-78.2)。在5%陽性預(yù)測值閾值下(即每20個被標(biāo)記的高風(fēng)險個體中有1人將發(fā)?。?,模型可在3-15個月窗內(nèi)檢測出23% 的未來病例。AUROC從0-12個月的0.976(0.976-0.977)逐漸降至12-24個月的0.939(0.938-0.940)。
多源數(shù)據(jù)整合優(yōu)勢顯著:整合三個登記冊的模型在中期預(yù)測(3-15個月及更遠)中持續(xù)優(yōu)于任何單一數(shù)據(jù)源的模型。尤其是在12-24個月窗內(nèi),整合模型的相對風(fēng)險(74.6)遠超僅用國家衛(wèi)生服務(wù)登記冊的模型(50.0)和僅用處方登記的模型(48.9),說明初級醫(yī)療數(shù)據(jù)對提前預(yù)警至關(guān)重要。而僅用醫(yī)院診斷的模型預(yù)測能力極差,反映出年輕發(fā)病2型糖尿病患者在確診前較少因糖尿病相關(guān)原因住院。單一來源中最強的模型是國家衛(wèi)生服務(wù)登記冊(全科醫(yī)生服務(wù)數(shù)據(jù)),在0-12個月窗內(nèi)相對風(fēng)險(184.6)甚至略高于整合模型(175.0)——這是因為接近確診時患者已開始進行血糖檢測(如β-葡萄糖測試),但這一優(yōu)勢在更早的時間窗內(nèi)消失。
跨區(qū)域泛化穩(wěn)?。涸诘溛鍌€地理區(qū)域間交叉驗證,模型性能保持穩(wěn)定,各區(qū)域相對風(fēng)險介于150至161之間(0-12個月窗),表明算法對不同地區(qū)的社會經(jīng)濟和醫(yī)療資源差異具有魯棒性。
模型解釋:發(fā)現(xiàn)了什么?
研究采用積分梯度法解釋模型預(yù)測。結(jié)果顯示,心血管系統(tǒng)處方是最強的預(yù)測信號——包括ACE抑制劑、他汀類藥物、纖維酸衍生物等,且隨臨近發(fā)病其貢獻度急劇上升。診斷中貢獻最高的包括:胰腺炎、慢性腎功能衰竭、肥胖、精神疾病、脊髓損傷、囊性纖維化,以及多種癌癥(腦、睪丸惡性腫瘤)。這些發(fā)現(xiàn)在臨床上有較強的合理性——例如,胰腺炎可導(dǎo)致胰島素分泌受損,精神疾病藥物(如抗精神病藥)已知與代謝綜合征相關(guān),腦腫瘤患者因顱咽管瘤等病變可能影響下丘腦-垂體軸而導(dǎo)致繼發(fā)性糖尿病。
來自初級醫(yī)療的特征中,全科醫(yī)生咨詢和β-葡萄糖測試貢獻最大,而常規(guī)牙科檢查、兒童疫苗接種、心理服務(wù)等則呈負向貢獻——可能反映了更健康的生活方式或更高健康素養(yǎng)。
結(jié)語
當(dāng)一位年輕人在全科醫(yī)生處因“尋常”原因就診時,他/她可能正處于未被發(fā)現(xiàn)的糖尿病前狀態(tài)。這項研究表明,Transformer模型能從個體數(shù)年甚至十年以上的日常醫(yī)療接觸中,捕捉到那些微弱的、跨領(lǐng)域的早期信號,提前數(shù)月發(fā)出預(yù)警。這種“不新增檢查、只挖掘已有數(shù)據(jù)”的思路,為公共衛(wèi)生篩查提供了低成本、高可擴展的新范式。
文獻:Johansen CH, Hjaltelin JX, Placido D, et al. Detection of young-onset type 2 diabetes using deep learning across primary and secondary care: a nationwide, retrospective cohort study. Lancet Digit Health, 2026.
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。
Copyright ? 2022 上??评讜狗?wù)有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有 ICP備案號:滬ICP備17004559號-5