中大新聞網(wǎng)訊(通訊員呂秋杰)中醫(yī)藥在中國(guó)已經(jīng)廣泛使用了千年,在改善健康以及預(yù)防和治療各種疾病中已經(jīng)顯示出了巨大潛力,是現(xiàn)代藥物研發(fā)的重要來(lái)源。中醫(yī)藥現(xiàn)代化的兩個(gè)關(guān)鍵方面是確定中藥的有效成分和闡明有效成分與靶點(diǎn)之間的作用機(jī)制。因此,建設(shè)一個(gè)全面、高可靠性的中醫(yī)數(shù)據(jù)庫(kù)是十分必要的。
2023年,中山大學(xué)智能工程學(xué)院陳語(yǔ)謙教授團(tuán)隊(duì)在Signal Transduction and Targeted Therapy (影響因子39.3) 期刊發(fā)表了題目為“TCMBank-the largest TCM database provides deep learning-based Chinese-Western medicine exclusion prediction”的論文。該研究建立了中醫(yī)藥數(shù)據(jù)庫(kù)TCMBank(https://TCMBank.CN/),該數(shù)據(jù)庫(kù)提供了9192種草藥,61,966種成分,15,179個(gè)靶標(biāo),32,529種疾病,及其它們之間的關(guān)聯(lián)信息。
TCMBank為用戶提供了一個(gè)方便的網(wǎng)站,讓用戶可以自由探索草藥、成分、基因靶標(biāo)以及相關(guān)通路或疾病之間的關(guān)系。TCMBank 還提供了草藥中活性成分的以mol2格式存儲(chǔ)的3D結(jié)構(gòu)。研究人員可以在TCMBank的下載頁(yè)面訪問(wèn)這些數(shù)據(jù),并很方便的用于中醫(yī)藥物的虛擬篩選。TCMBank從已有的中醫(yī)相關(guān)數(shù)據(jù)庫(kù)(TCMID、TCMSP、SymMap、TCM-ID、HERB和ETCM)和公開(kāi)數(shù)據(jù)庫(kù)(OMIM, HGNC, MeSH, ENsembl, DO, HPO等)中添加了外部的交叉引用鏈接。為了保證TCMBank的可靠性,所有信息在更新到數(shù)據(jù)庫(kù)之前都必須經(jīng)過(guò)至少兩次人工驗(yàn)證。
除此之外,作者針對(duì)中西藥之間可能發(fā)生的不良反應(yīng),設(shè)計(jì)了一個(gè)新穎算法的技術(shù)。中西藥之間的不良反應(yīng)會(huì)導(dǎo)致醫(yī)療費(fèi)用增加,甚至死亡,這大大增加了藥物相互之間不良反應(yīng)帶來(lái)的醫(yī)療風(fēng)險(xiǎn)。然而,基于人工智能預(yù)測(cè)的中西藥不良反應(yīng)缺乏現(xiàn)實(shí)世界中大量不良反應(yīng)標(biāo)簽的中西藥數(shù)據(jù)庫(kù)。因此,作者在兩個(gè)現(xiàn)實(shí)世界的公共藥物相互作用(DDI)數(shù)據(jù)集上提出了兩個(gè)模型,3DGT-DDI和 SA-DDI, 來(lái)預(yù)測(cè)兩種藥物化合物之間的相互作用。經(jīng)過(guò)數(shù)據(jù)集的實(shí)驗(yàn)已經(jīng)證明了3DGT-DDI 和 SA-DDI 在兩個(gè)公共 DDI 數(shù)據(jù)集上實(shí)現(xiàn)了最精確的預(yù)測(cè)性能。
隨后,作者將上述兩個(gè)模型的預(yù)測(cè)結(jié)果推廣到中西藥不良反應(yīng)的預(yù)測(cè)中。TCMBank 提供中醫(yī)藥和草藥的成分,靶標(biāo),疾病映射信息。受益于TCMBank的大數(shù)據(jù)驅(qū)動(dòng),作者利用DDI模型進(jìn)行無(wú)監(jiān)督學(xué)習(xí),并預(yù)測(cè)中西藥的不良反應(yīng)作用的預(yù)測(cè)。假設(shè)中藥中的所有成分與西藥均不發(fā)生不良反應(yīng),則確定它們之間不存在相互排斥的反應(yīng)。如果中藥中的一種或多種成分與西藥發(fā)生不良反應(yīng),則存在可能產(chǎn)生不良反應(yīng)的風(fēng)險(xiǎn),然而這風(fēng)險(xiǎn)也分等級(jí),否則則容易產(chǎn)生任何藥物之間皆有不良反應(yīng)的警告,反而不是真實(shí)世界的事實(shí)。作者利用AI輔助的DDI預(yù)測(cè)模型獲得了中西醫(yī)可能的不良反應(yīng)風(fēng)險(xiǎn)的預(yù)測(cè)結(jié)果。
圖1. 中醫(yī)藥數(shù)據(jù)庫(kù)TCMBank的綜合分析。 A. TCMBank與其他中醫(yī)藥數(shù)據(jù)庫(kù)的數(shù)據(jù)量對(duì)比,其中TCMBank的草藥、成分、疾病最為豐富。B. TCMBank網(wǎng)站的結(jié)構(gòu),包括導(dǎo)航欄、首頁(yè)、二級(jí)頁(yè)面、三級(jí)頁(yè)面。C. TCMBank中數(shù)據(jù)處理的框架示意圖。D. 基于圖神經(jīng)網(wǎng)絡(luò)的藥物官能團(tuán)提取的自適應(yīng)子結(jié)構(gòu)感知模塊示意圖。E. 基于因果學(xué)習(xí)的中西藥互斥預(yù)測(cè)。(圖源自Signal Transduction and Targeted Therapy)
另外一項(xiàng)有趣的研究是預(yù)測(cè)一組多種(兩種以上)中西藥物的相互排斥反應(yīng)。在現(xiàn)實(shí)世界中,患者攝入的中藥或西藥顯然遠(yuǎn)不止兩種。據(jù)統(tǒng)計(jì),超過(guò)10%的患者需要同時(shí)服用5種藥物,20%的老年患者需要同時(shí)服用至少10種藥物。這將需要開(kāi)發(fā)新的算法來(lái)考慮多種藥物組合的相互排斥。基于藥物化學(xué)知識(shí),藥物是由不同官能團(tuán)/化學(xué)子結(jié)構(gòu)組成的實(shí)體,決定了其藥代動(dòng)力學(xué)、藥效學(xué)特性以及中西藥的互斥性。作者認(rèn)為子結(jié)構(gòu)的相互作用可以被視為中西藥相互作用的因果關(guān)系,從而建立藥物相互作用網(wǎng)絡(luò)或多種藥物之間的相互作用網(wǎng)絡(luò),其中化合物作為節(jié)點(diǎn),它們的因果關(guān)系作為邊。中藥中所有成分對(duì)應(yīng)的節(jié)點(diǎn)形成了一個(gè)子網(wǎng)絡(luò)。作者根據(jù)對(duì)應(yīng)的子網(wǎng)絡(luò)之間是否存在邊來(lái)預(yù)測(cè)中藥之間或中藥西藥是否存在不良反應(yīng)。
未來(lái),AI輔助模型將會(huì)結(jié)合大規(guī)模語(yǔ)言模型建立中西藥不良反應(yīng)預(yù)測(cè)模型、自然語(yǔ)言處理和文本挖掘知識(shí)圖譜技術(shù),開(kāi)發(fā)中西藥不良反應(yīng)數(shù)據(jù)庫(kù)。作者利用智能文檔識(shí)別模塊去檢索AI輔助模型預(yù)測(cè)的中西醫(yī)藥的不良反應(yīng)。通過(guò)知識(shí)圖譜、關(guān)鍵詞提取、自動(dòng)摘要等方式,輔助研究人員手動(dòng)檢查文獻(xiàn)中所包含的中西醫(yī)藥的不良反應(yīng)信息。作者會(huì)在未來(lái)的工作中出版一個(gè)綜合的中西醫(yī)藥不良數(shù)據(jù)庫(kù)。
STTT是由國(guó)內(nèi)創(chuàng)辦的高水平英文期刊,由Springer-Nature出版集團(tuán)出版,屬于中科院1區(qū)的Top期刊,2022年影響因子38.104,2023最新影響因子39.3。該論文的發(fā)表一方面體現(xiàn)了中山大學(xué)智能工程學(xué)院積極響應(yīng)國(guó)家號(hào)召把最重要的論文寫(xiě)在祖國(guó)大地上,另一方面也體現(xiàn)陳語(yǔ)謙教授所帶領(lǐng)的智能醫(yī)療研究中心把人工智能和中醫(yī)藥研究不同學(xué)科交叉融合。
陳語(yǔ)謙教授團(tuán)隊(duì)長(zhǎng)期致力于AI+X的交叉研究。上述研究得到了國(guó)家自然科學(xué)基金面上項(xiàng)目等項(xiàng)目的支持。中山大學(xué)智能工程學(xué)院為文章的第一單位,2020級(jí)博士生呂秋杰為論文共同第一作者,陳語(yǔ)謙教授為論文通訊作者。