中大新聞網(wǎng)訊(通訊員衷維荷)逆合成是有機(jī)化學(xué)家廣泛使用的一種方法,通過(guò)將目標(biāo)分子遞歸分解為更簡(jiǎn)單的前體分子來(lái)設(shè)計(jì)目標(biāo)化合物的合成路線。逆合成預(yù)測(cè)是一個(gè)一對(duì)多的問(wèn)題,即合成同一個(gè)目標(biāo)分子可能存在多個(gè)反應(yīng)方法,而由于所有可能的化學(xué)轉(zhuǎn)化的巨大搜索空間,即使對(duì)于經(jīng)驗(yàn)豐富的化學(xué)家也極具挑戰(zhàn)性。因此,如何從化學(xué)家思考的角度設(shè)計(jì)AI逆合成預(yù)測(cè)算法提升模型預(yù)測(cè)的精度和可解釋性,對(duì)于分子的合成路線設(shè)計(jì)至關(guān)重要。
近日,中山大學(xué)智能工程學(xué)院智能醫(yī)療研究中心主任陳語(yǔ)謙教授團(tuán)隊(duì)發(fā)表研究成果,基于反應(yīng)轉(zhuǎn)化的簡(jiǎn)易機(jī)理提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的圖到編輯架構(gòu)Graph2Edits,用于逆合成預(yù)測(cè)。研究表明,Graph2Edits的設(shè)計(jì)策略可以增強(qiáng)逆合成反應(yīng)預(yù)測(cè)模型的合理性和可解釋性,與其他先進(jìn)的基線模型相比表現(xiàn)出更高的預(yù)測(cè)性能,并在一些復(fù)雜反應(yīng)中具有較高的適用性,可以進(jìn)一步用于藥物分子的合成路線設(shè)計(jì)。
在藥物發(fā)現(xiàn)的分子設(shè)計(jì)-合成-測(cè)試的循環(huán)中,小分子的化學(xué)合成一直是阻礙其效果驗(yàn)證和影響成功率的一個(gè)重要因素。近年來(lái),隨著AI技術(shù)的快速發(fā)展和化學(xué)反應(yīng)數(shù)據(jù)的積累,基于深度學(xué)習(xí)的計(jì)算機(jī)輔助合成規(guī)劃(CASP)方法如雨后春筍般涌現(xiàn),可以幫助化學(xué)家在設(shè)計(jì)合成實(shí)驗(yàn)時(shí)節(jié)省大量時(shí)間和精力。然而,目前逆合成模型在預(yù)測(cè)精度、多樣性以及可解釋性等方面的局限性限制了其在合成路線規(guī)劃中的實(shí)際應(yīng)用,因此,如何從化學(xué)家思考反應(yīng)發(fā)生的角度出發(fā)提升基于AI的逆合成預(yù)測(cè)模型的效果和適用性仍然是一個(gè)迫切重要的研究課題。
Graph2Edits的設(shè)計(jì)動(dòng)機(jī)(簡(jiǎn)化的反應(yīng)機(jī)理)與整體架構(gòu)
基于反應(yīng)轉(zhuǎn)化的簡(jiǎn)易機(jī)理,研究提出了一種新的基于端到端半模板的逆合成反應(yīng)預(yù)測(cè)模型Graph2Edits。具體地說(shuō),模型將逆合成反應(yīng)預(yù)測(cè)表示為通過(guò)一系列相互關(guān)聯(lián)的圖編輯來(lái)完成產(chǎn)物-中間體-反應(yīng)物推導(dǎo)的過(guò)程來(lái)學(xué)習(xí)反應(yīng)轉(zhuǎn)化的規(guī)則,就像化學(xué)家思考反應(yīng)是如何發(fā)生的一樣;端到端的模型架構(gòu)以自回歸的方式生成任意長(zhǎng)度的圖編輯序列,能夠增強(qiáng)多個(gè)生成步驟之間的緊密聯(lián)系,提高其在多中心反應(yīng)中的適用性和預(yù)測(cè)的多樣性;使用定向消息傳遞神經(jīng)網(wǎng)絡(luò)D-MPNN對(duì)局部原子/鍵和全局圖特征進(jìn)行編碼以充分利用化合物的結(jié)構(gòu)信息來(lái)預(yù)測(cè)原子/鍵編輯和生成終止符,并將作為離去基團(tuán)的子圖添加到中間體完成反應(yīng)物的生成以貼近更真實(shí)的反應(yīng)轉(zhuǎn)化過(guò)程,可以顯著減少生成步驟,提升其預(yù)測(cè)性能。
實(shí)驗(yàn)表明,與基準(zhǔn)模型相比,Graph2Edits在不同評(píng)估方法中實(shí)現(xiàn)了更高的逆合成預(yù)測(cè)精度,top-1精確匹配精度達(dá)到了55.1%,能夠有效地搜索合理反應(yīng)的潛在空間,顯示出在復(fù)雜反應(yīng)中優(yōu)秀的適用性和泛化能力,提高了預(yù)測(cè)結(jié)果的多樣性和可解釋性。
Graph2Edits在多步逆合成反應(yīng)路線預(yù)測(cè)的應(yīng)用
為了驗(yàn)證模型在合成路線規(guī)劃中的實(shí)際用途,該研究選擇了3個(gè)重磅藥物分子作為例子進(jìn)行合成路線的設(shè)計(jì),包括用于治療COVID-19的口服SARS-CoV-2 Mpro抑制劑奈瑪特韋(Nirmatrelvir),用于治療非小細(xì)胞肺癌的第三代EGFR抑制劑奧希替尼(Osimertinib)和用于治療多發(fā)性骨髓瘤的來(lái)那度胺(Lenalidomide)。結(jié)果顯示,Graph2Edits模型成功地預(yù)測(cè)了這些藥物分子的完整合成路線,驗(yàn)證了其在分子的多步逆合成路線設(shè)計(jì)中潛在的實(shí)際應(yīng)用價(jià)值。
研究成果于2023年5月在Nature Communications上發(fā)表(IF = 17.694),題目為“Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing”。中山大學(xué)智能工程學(xué)院陳語(yǔ)謙教授為該文通訊作者,智能工程學(xué)院博士生衷維荷為第一作者。該項(xiàng)研究受到國(guó)家自然科學(xué)基金項(xiàng)目的支持。