以醫(yī)院電子病歷為核心的臨床數(shù)據(jù)記錄了病人的疾病、診斷和治療信息。挖掘此類(lèi)數(shù)據(jù),可以輔助醫(yī)生了解人口學(xué)信息、臨床癥狀、治療方法和療效之間的量化關(guān)系,幫助病人選擇更好的治療方案,進(jìn)而提升醫(yī)療服務(wù)質(zhì)量,降低醫(yī)療成本。
然而,在臨床中,大量的醫(yī)療文書(shū)是以文本形式存在。同時(shí),醫(yī)生錄入缺乏語(yǔ)義規(guī)范,同一診斷與治療方案,不同醫(yī)生的錄入結(jié)果會(huì)不同。因此,在挖掘之前,需要對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化與規(guī)范化。
在這個(gè)過(guò)程中,醫(yī)療健康知識(shí)圖譜是不可或缺的一部分。另外,病歷數(shù)據(jù)處理和使用過(guò)程中,通過(guò)病歷數(shù)據(jù)與健康圖譜的關(guān)聯(lián)挖掘,可以獲得更為隱含的、深刻的信息。為處理方便,整體用知識(shí)圖譜表示與關(guān)聯(lián),會(huì)更為方便有效。
一、知識(shí)圖譜用于醫(yī)療文本的結(jié)構(gòu)化與規(guī)范化
在臨床中,大量的醫(yī)療文書(shū)是以文本形式存在。電子病歷的文本包含了病人病史、家族史、癥狀,以及醫(yī)生根據(jù)癥狀、理化指標(biāo)等基礎(chǔ)數(shù)據(jù)做出的診斷等描述。更重要的,臨床文本中記錄了醫(yī)生的判斷依據(jù),以及對(duì)各種診療行為的效果跟蹤。如果說(shuō)各種明細(xì)記錄是結(jié)果跟蹤,那么文本數(shù)據(jù)就是過(guò)程跟蹤的基礎(chǔ)。而這些重要的信息保存在非結(jié)構(gòu)化信息中,不能被計(jì)算機(jī)所理解和處理。
為使得文本更好的結(jié)構(gòu)化,需要用到實(shí)體識(shí)別、關(guān)系抽取技術(shù),根據(jù)技術(shù)的不同,也會(huì)用到一些基礎(chǔ)的文本分詞或是詞法分析等技術(shù),在這個(gè)過(guò)程中,可以手工標(biāo)注語(yǔ)料,用各種監(jiān)督學(xué)習(xí)方法,傳統(tǒng)的有 CRF,新的方法可以基于 RNN 網(wǎng)絡(luò);也可以基于字典方法,利用癥狀、檢查、藥品與疾病名稱(chēng)的知識(shí)庫(kù)。為了免除語(yǔ)料標(biāo)注的麻煩,筆者基于癥狀知識(shí)庫(kù)以及癥狀語(yǔ)法結(jié)構(gòu)做了遠(yuǎn)程標(biāo)注,再進(jìn)行 CRF 建模,取得了比較好的效果。
然而,僅僅是結(jié)構(gòu)化也是不夠的,因?yàn)獒t(yī)療術(shù)語(yǔ)存在大量的同義詞或上下位詞,比如說(shuō),同一癥狀具有多種多樣的文本表達(dá)形式,如“期前收縮”、“過(guò)早搏動(dòng)”與“早搏”是同義詞。再比如說(shuō),一個(gè)癥狀常常被不同的詞語(yǔ)修飾以表達(dá)略有不同的語(yǔ)義含義,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位詞。
再以疾病為例,目前醫(yī)學(xué)診斷大量采用了 ICD 編碼,但 ICD 編碼結(jié)構(gòu)并不包含完整的上下位關(guān)系。以中文 ICD 編碼[1] 中的“特指急性風(fēng)濕性心臟病”為例,它的上位詞有“特指風(fēng)濕性心臟病”和“急性風(fēng)濕性心臟病”,這兩種疾病擁有共同的上位詞“風(fēng)濕性心臟病”,“風(fēng)濕性心臟病”又有上位詞“心臟病”。而這幾種疾病之間的關(guān)系和層次結(jié)構(gòu)并沒(méi)有在 ICD 10 中通過(guò)編碼結(jié)構(gòu)表示出來(lái),只是通過(guò)編碼的首字母“I”將它們劃分到了循環(huán)系統(tǒng)類(lèi)疾病中。如過(guò)我們需要希望找到某一類(lèi)患者,無(wú)法通過(guò)一個(gè)ICD編碼獲得,而是需要人工的選擇多個(gè) ICD 編碼。從另一個(gè)角度而言,對(duì)于同一個(gè)疾病,醫(yī)生在編寫(xiě) ICD 編碼時(shí),可粗可細(xì),也會(huì)給病歷的自動(dòng)處理帶來(lái)困難。
為解決上述問(wèn)題,首先需要現(xiàn)有的編碼系統(tǒng)有對(duì)應(yīng)的圖譜方式描述,至少具有上下位和同義詞關(guān)系,進(jìn)一步的,也可以通過(guò)電子病歷中的文本診斷,利用圖譜,對(duì)電子病歷數(shù)據(jù)進(jìn)行自動(dòng)編碼。
二、圖譜表示用于關(guān)聯(lián)知識(shí)與數(shù)據(jù)
電子病歷中存儲(chǔ)著大量的數(shù)據(jù),但僅在病歷數(shù)據(jù)內(nèi)部做挖掘及分析是有局限性的,難以發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的深層次的價(jià)值。將病歷數(shù)據(jù)以 RDF 格式發(fā)布,形成病歷圖譜,并與開(kāi)放知識(shí)庫(kù)(如中文癥狀知識(shí)庫(kù))相關(guān)聯(lián),將對(duì)疾病預(yù)測(cè)、用藥推薦和相似病人發(fā)現(xiàn)等打下良好的基礎(chǔ)。
比如說(shuō),在電子病歷用藥時(shí),寫(xiě)的會(huì)是藥品名稱(chēng),但是,在分析的時(shí)候,通常醫(yī)生會(huì)用大類(lèi)名稱(chēng),如 ACEI 類(lèi)藥物,或是 ARB 類(lèi)藥物等等。這時(shí)候,病歷圖譜需要和藥品圖譜關(guān)聯(lián),就可以更為方便地做各種臨床分析,再比如說(shuō),Topfed 項(xiàng)目將 TCGA 項(xiàng)目中發(fā)布的癌癥病人的基因數(shù)據(jù)進(jìn)行 RDF 化,并與其它開(kāi)放數(shù)據(jù)集關(guān)聯(lián),進(jìn)而做了一些有趣的分析,獲得了 ISWC2013 的 Semantic Web Challenge 大獎(jiǎng)。例如輸入一個(gè)病人的特征,找到庫(kù)中與他類(lèi)似的病人群,根據(jù)相似性找到相應(yīng)的藥物方案,如果病人對(duì)此藥物有抗藥性,可以尋找藥品庫(kù)的同類(lèi)藥物。
三、總結(jié)
雖然英文已經(jīng)有了很多開(kāi)放鏈接生物醫(yī)藥數(shù)據(jù)集合,但中文比較缺乏,而中文的電子病歷處理又需要中文知識(shí)圖譜。針對(duì)上述問(wèn)題,OMAHA聯(lián)合中文開(kāi)放知識(shí)圖譜(Open KG),系統(tǒng)性的梳理和匯集知識(shí)圖譜相關(guān)的技術(shù)和工具,并向整個(gè)社區(qū)開(kāi)放相關(guān)的技術(shù)資源,一起促進(jìn)醫(yī)學(xué)知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)。
更多資料歡迎大家移步OMAHA聯(lián)盟官網(wǎng)知識(shí)服務(wù)平臺(tái)查看。
如果你也對(duì)促進(jìn)醫(yī)療數(shù)據(jù)開(kāi)放、醫(yī)學(xué)信息標(biāo)準(zhǔn)化、行業(yè)研究和生態(tài)建立感興趣,歡迎進(jìn)入OMAHA基金會(huì)官網(wǎng)了解更多。
OMAHA聯(lián)盟官網(wǎng)鏈接:http://www.omaha.org.cn/portal.php
OMAHA基金會(huì)官網(wǎng)鏈接:http://foundation.omaha.org.cn
參考資料:
[1]疾病和有關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(lèi)第十次修訂本(ICD-10)[M].人民衛(wèi)生出版社.1996.
[2]Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47
原標(biāo)題:中文醫(yī)療健康知識(shí)圖譜在臨床電子病歷挖掘中的應(yīng)用探討
Copyright ? 2004-2025 健康一線-健康視頻網(wǎng)(vodjk.com)All rights reserved.