中大新聞網(wǎng)訊(通訊員衷維荷)逆合成是有機(jī)化學(xué)家廣泛使用的一種方法,通過將目標(biāo)分子遞歸分解為更簡單的前體分子來設(shè)計目標(biāo)化合物的合成路線。逆合成預(yù)測是一個一對多的問題,即合成同一個目標(biāo)分子可能存在多個反應(yīng)方法,而由于所有可能的化學(xué)轉(zhuǎn)化的巨大搜索空間,即使對于經(jīng)驗豐富的化學(xué)家也極具挑戰(zhàn)性。因此,如何從化學(xué)家思考的角度設(shè)計AI逆合成預(yù)測算法提升模型預(yù)測的精度和可解釋性,對于分子的合成路線設(shè)計至關(guān)重要。
近日,中山大學(xué)智能工程學(xué)院智能醫(yī)療研究中心主任陳語謙教授團(tuán)隊發(fā)表研究成果,基于反應(yīng)轉(zhuǎn)化的簡易機(jī)理提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的圖到編輯架構(gòu)Graph2Edits,用于逆合成預(yù)測。研究表明,Graph2Edits的設(shè)計策略可以增強(qiáng)逆合成反應(yīng)預(yù)測模型的合理性和可解釋性,與其他先進(jìn)的基線模型相比表現(xiàn)出更高的預(yù)測性能,并在一些復(fù)雜反應(yīng)中具有較高的適用性,可以進(jìn)一步用于藥物分子的合成路線設(shè)計。
在藥物發(fā)現(xiàn)的分子設(shè)計-合成-測試的循環(huán)中,小分子的化學(xué)合成一直是阻礙其效果驗證和影響成功率的一個重要因素。近年來,隨著AI技術(shù)的快速發(fā)展和化學(xué)反應(yīng)數(shù)據(jù)的積累,基于深度學(xué)習(xí)的計算機(jī)輔助合成規(guī)劃(CASP)方法如雨后春筍般涌現(xiàn),可以幫助化學(xué)家在設(shè)計合成實(shí)驗時節(jié)省大量時間和精力。然而,目前逆合成模型在預(yù)測精度、多樣性以及可解釋性等方面的局限性限制了其在合成路線規(guī)劃中的實(shí)際應(yīng)用,因此,如何從化學(xué)家思考反應(yīng)發(fā)生的角度出發(fā)提升基于AI的逆合成預(yù)測模型的效果和適用性仍然是一個迫切重要的研究課題。
Graph2Edits的設(shè)計動機(jī)(簡化的反應(yīng)機(jī)理)與整體架構(gòu)
基于反應(yīng)轉(zhuǎn)化的簡易機(jī)理,研究提出了一種新的基于端到端半模板的逆合成反應(yīng)預(yù)測模型Graph2Edits。具體地說,模型將逆合成反應(yīng)預(yù)測表示為通過一系列相互關(guān)聯(lián)的圖編輯來完成產(chǎn)物-中間體-反應(yīng)物推導(dǎo)的過程來學(xué)習(xí)反應(yīng)轉(zhuǎn)化的規(guī)則,就像化學(xué)家思考反應(yīng)是如何發(fā)生的一樣;端到端的模型架構(gòu)以自回歸的方式生成任意長度的圖編輯序列,能夠增強(qiáng)多個生成步驟之間的緊密聯(lián)系,提高其在多中心反應(yīng)中的適用性和預(yù)測的多樣性;使用定向消息傳遞神經(jīng)網(wǎng)絡(luò)D-MPNN對局部原子/鍵和全局圖特征進(jìn)行編碼以充分利用化合物的結(jié)構(gòu)信息來預(yù)測原子/鍵編輯和生成終止符,并將作為離去基團(tuán)的子圖添加到中間體完成反應(yīng)物的生成以貼近更真實(shí)的反應(yīng)轉(zhuǎn)化過程,可以顯著減少生成步驟,提升其預(yù)測性能。
實(shí)驗表明,與基準(zhǔn)模型相比,Graph2Edits在不同評估方法中實(shí)現(xiàn)了更高的逆合成預(yù)測精度,top-1精確匹配精度達(dá)到了55.1%,能夠有效地搜索合理反應(yīng)的潛在空間,顯示出在復(fù)雜反應(yīng)中優(yōu)秀的適用性和泛化能力,提高了預(yù)測結(jié)果的多樣性和可解釋性。
Graph2Edits在多步逆合成反應(yīng)路線預(yù)測的應(yīng)用
為了驗證模型在合成路線規(guī)劃中的實(shí)際用途,該研究選擇了3個重磅藥物分子作為例子進(jìn)行合成路線的設(shè)計,包括用于治療COVID-19的口服SARS-CoV-2 Mpro抑制劑奈瑪特韋(Nirmatrelvir),用于治療非小細(xì)胞肺癌的第三代EGFR抑制劑奧希替尼(Osimertinib)和用于治療多發(fā)性骨髓瘤的來那度胺(Lenalidomide)。結(jié)果顯示,Graph2Edits模型成功地預(yù)測了這些藥物分子的完整合成路線,驗證了其在分子的多步逆合成路線設(shè)計中潛在的實(shí)際應(yīng)用價值。
研究成果于2023年5月在Nature Communications上發(fā)表(IF = 17.694),題目為“Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing”。中山大學(xué)智能工程學(xué)院陳語謙教授為該文通訊作者,智能工程學(xué)院博士生衷維荷為第一作者。該項研究受到國家自然科學(xué)基金項目的支持。