健康醫(yī)療數(shù)據(jù)的飛速增長(zhǎng),促使醫(yī)學(xué)領(lǐng)域進(jìn)入“大數(shù)據(jù)”時(shí)代,伴隨精準(zhǔn)醫(yī)學(xué)的發(fā)展,醫(yī)學(xué)研究的重點(diǎn)更加精細(xì)、深入,逐漸集中于亞專(zhuān)業(yè)和專(zhuān)病。基于真實(shí)世界數(shù)據(jù)的臨床研究成為醫(yī)學(xué)高質(zhì)量發(fā)展的新動(dòng)力,臨床研究專(zhuān)病數(shù)據(jù)庫(kù)對(duì)于支撐臨床研究,促進(jìn)醫(yī)院高質(zhì)量發(fā)展的重要性也日益凸顯。如何建立一個(gè)靠譜的專(zhuān)病數(shù)據(jù)庫(kù)是當(dāng)下重點(diǎn)關(guān)注的問(wèn)題。
◆ ◆ ◆
電子病例與科研數(shù)據(jù)之間的主要矛盾在國(guó)內(nèi)一般語(yǔ)境中“電子病歷系統(tǒng)”是指狹義電子病歷系統(tǒng),即在醫(yī)生工作站負(fù)責(zé)生成門(mén)急診住院病歷病程記錄的信息系統(tǒng),電子病歷數(shù)據(jù)和影像報(bào)告系統(tǒng)對(duì)報(bào)告內(nèi)容的存儲(chǔ)一并被稱(chēng)作醫(yī)院信息系統(tǒng)中的“非結(jié)構(gòu)化”數(shù)據(jù)。電子病歷系統(tǒng)用非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在保持臨床描述靈活性和數(shù)據(jù)存儲(chǔ)層次準(zhǔn)確性上取得良好的平衡,在HL7的CDA臨床文檔標(biāo)準(zhǔn)中也采納了這種存儲(chǔ)格式。而在醫(yī)學(xué)科研領(lǐng)域,出于支持觀測(cè)指標(biāo)定量分析的目的,要求進(jìn)入科研的病歷數(shù)據(jù)全部轉(zhuǎn)化為結(jié)構(gòu)化格式存儲(chǔ)。初期最常用的辦法就是通過(guò)研究人員閱讀臨床病歷,提取有用信息填寫(xiě)CRF表格的方式完成臨床病歷數(shù)據(jù)向醫(yī)學(xué)科研病歷數(shù)據(jù)的轉(zhuǎn)化。這樣一來(lái),如何跨越2個(gè)完全不同的數(shù)據(jù)結(jié)構(gòu),從龐大的電子病歷文檔庫(kù)中抽取有研究意義的臨床科研病例數(shù)據(jù)補(bǔ)充入科研病例數(shù)據(jù)庫(kù),成了醫(yī)學(xué)研究人員留給信息化人員的挑戰(zhàn)。
◆ ◆ ◆
都是非結(jié)構(gòu)數(shù)據(jù)并非所有臨床數(shù)據(jù)都是非結(jié)構(gòu)數(shù)據(jù),例如患者基本信息、醫(yī)囑、診斷、就診信息、檢驗(yàn)報(bào)告這樣來(lái)源明確、數(shù)據(jù)源頭為結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)領(lǐng)域。非結(jié)構(gòu)數(shù)據(jù)主要是電子病歷系統(tǒng)中的病程記錄、出院記錄、個(gè)人史、既往史、家族史、生命體征、體格檢查、月經(jīng)婚育史、主訴現(xiàn)病史;檢查報(bào)告系統(tǒng)中的病理報(bào)告、分子免疫標(biāo)志物、輔助檢查、專(zhuān)科檢查和綜合檢查類(lèi);治療數(shù)據(jù)中的放射治療、手術(shù)治療和腫瘤藥物治療。
◆ ◆ ◆
首先,需要解決業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)表結(jié)構(gòu)識(shí)別,字段內(nèi)容識(shí)別和標(biāo)準(zhǔn)數(shù)據(jù)字典轉(zhuǎn)化工作,這一步數(shù)據(jù)處理可以通過(guò)傳統(tǒng)ETL技術(shù)完成。在此階段完成后,部分對(duì)照關(guān)系明確,前期結(jié)構(gòu)化采集的數(shù)據(jù)可以寫(xiě)入專(zhuān)病數(shù)據(jù)庫(kù)。這部分可以通過(guò)映射完成轉(zhuǎn)換數(shù)據(jù),主要包括患者人口學(xué)信息、就診記錄、檢驗(yàn)報(bào)告、醫(yī)囑記錄,以及檢查報(bào)告、手術(shù)記錄、治療記錄中的時(shí)間、項(xiàng)目名稱(chēng)、執(zhí)行科室等字段。其次,需要通過(guò)結(jié)構(gòu)化算法從自然語(yǔ)言文本中抽取和轉(zhuǎn)化一部分?jǐn)?shù)據(jù),這部分工作需要用NLP算法工具實(shí)現(xiàn),也是專(zhuān)病數(shù)據(jù)庫(kù)數(shù)據(jù)處理的重點(diǎn)內(nèi)容,其中包括來(lái)自EMR系統(tǒng)的主訴癥狀、手術(shù)史、家族史;來(lái)自RIS系統(tǒng)的腫瘤部位、最大直徑;來(lái)自病理系統(tǒng)的腫瘤病理學(xué)分型、病理分化程度等數(shù)據(jù)字段。最后,一部分?jǐn)?shù)據(jù)處理邏輯更加復(fù)雜需要加載臨床規(guī)則工具,利用多源頭數(shù)據(jù)邏輯計(jì)算得出。這部分字段包括ASA分級(jí)、體重指數(shù)、就診年齡、ICU住院天數(shù)等項(xiàng)目。
◆ ◆ ◆
專(zhuān)病數(shù)據(jù)庫(kù)建立過(guò)程
醫(yī)院電子病歷、檢查報(bào)告系統(tǒng)的數(shù)據(jù)規(guī)范性和完整性問(wèn)題。由于臨床科室病理書(shū)寫(xiě)中病歷模板不夠統(tǒng)一,病歷錄入中結(jié)構(gòu)化程度不高,病歷書(shū)寫(xiě)內(nèi)容較為隨意,造成病歷數(shù)據(jù)錄入不規(guī)范,不完整全面的問(wèn)題??蒲袑?zhuān)病數(shù)據(jù)庫(kù)受限于“巧婦難為無(wú)米之炊”,由于部分?jǐn)?shù)據(jù)不完整而影響了整個(gè)病例研究的可用性。醫(yī)院隨訪數(shù)據(jù)管理的存在短板,前期一直游離在醫(yī)院信息系統(tǒng)總體規(guī)劃之外的科研隨訪數(shù)據(jù),系統(tǒng)散亂、數(shù)據(jù)來(lái)源不一的問(wèn)題。隨訪數(shù)據(jù)作為臨床數(shù)據(jù)的補(bǔ)充,是專(zhuān)病數(shù)據(jù)庫(kù)數(shù)據(jù)內(nèi)容的重要來(lái)源,因此,醫(yī)院應(yīng)規(guī)劃建立統(tǒng)一的科研隨訪平臺(tái),規(guī)范隨訪流程和隨訪數(shù)據(jù)管理。