AG百家乐代理-红桃KAG百家乐娱乐城

科研新聞

首頁 > 科研新聞 > 正文

李彩課題組開發基于深度學習構建基因組突變率圖譜的通用方法

稿件來源:生命科學學院 編輯:談希、王冬梅 審核:滿意 發布日期:2022-12-15 閱讀量:

中大新聞網訊(通訊員李彩)生物體的基因組序列在傳代過程中不可避免會發生突變,基因組突變是遺傳多樣性的基礎,也是生物演化的重要動力之一。基因組突變率是許多遺傳和演化分析的重要參數。例如,突變率可以用于估算某個基因組區域的預期突變數目,通過比較突變數目的預期值和群體里的觀測值可估計該區域受到的選擇壓力強度從而發現重要的功能區域或變異位點。雖然三十多年前就已發現基因組不同區域的突變率差異很大,然而構建一個基因組的高精度、高分辨率的突變率圖譜非常困難,現有方法只能得到基因組突變率的粗糙估計,且難以應用到一般物種中,因此是遺傳和分子演化領域中有待解決的重要問題。

該問題的困難之一是,生物個體每一代產生的新生突變(de novo mutations)非常少,在基因組分布極其稀疏。例如,人類個體中每一代只有大約50個新生的點突變,而檢測新生突變需要對父母和子代進行全基因組測序,因此獲取大量的新生突變作為模型訓練數據的成本非常高。另一個困難是,已知有許多因素與突變率相關且關系復雜,如鄰近序列、復制時間、DNA甲基化、重組率等,如何對眾多因素進行建模來預測突變率也是一個重大挑戰。對于第一點,近年的研究表明,測序群體中等位基因頻率很低的罕見變異(rare variants)因為出現時間較短,可作為新生突變的近似,一定程度上緩解了建模時訓練數據稀缺的問題。但對于第二點,現有方法一般是簡單的線性或廣義線性模型,只考慮少量鄰近序列的信息(不超過10個堿基),通常還需要大量的突變數據及功能基因組特征來訓練模型,這些問題限制了模型的預測性能和跨物種應用4,5。

近年來,深度學習方法在很多復雜預測類問題上表現突出,在基因組學中的應用也日益增多。由于基因組序列本身對突變率有著重要影響,也與許多功能基因組特征密切相關,作者猜測通過深度神經網絡模型可以學習大范圍的鄰近序列來獲得與突變率相關的信息,進而得到更好的突變率估計。基于此,來自中山大學生命科學學院的李彩課題組近日在Nature Machine Intelligence雜志上發表了題為“A generalizable deep learning framework for inferring fine-scale germline mutation rate maps”的研究,該研究提出了一種基于深度學習構建基因組高精度突變率圖譜的通用方法—MuRaL (Mutation Rate Learner)。作者利用MuRaL構建了人類及多個物種的高質量突變率圖譜,顯示出該方法的廣泛適用性。

MuRaL以相對較少的點突變數據及大范圍的上下游序列來訓練模型,基于訓練好的模型可預測全基因組每個堿基的點突變概率。MuRaL模型框架由“local”和“expanded”兩個模塊構成(圖1),分別用于學習所關注位點的近端和遠端側翼序列的突變相關信息。其中,近端序列約為上下游10 bp,而遠端序列則包括上下游1 Kb或更大的長度。MuRaL通過不同的神經網絡模塊分別對這兩方面信息進行學習,然后匯總兩個模塊的輸出得到最終的預測結果。


圖1. MuRaL模型的架構


作者利用人類遺傳變異數據庫gnomAD中大量的低頻罕見變異(作為新生突變的近似)進行詳細的模型評估。結果表明,相對于已有模型,MuRaL在不同尺度上都有更好的預測準確度,而且對訓練數據的要求低很多。以人類基因組為例,之前表現最好的Carlson等人的模型4需要幾千萬的罕見變異和眾多的功能組學特征進行訓練。MuRaL模型用于訓練的突變數據不到Carlson模型的二十分之一,且不依賴任何功能組學數據,但所得的預測結果比Carlson模型更好。不僅如此,作者發現,基于100個個體中的罕見變異進行訓練與1000個個體中的罕見變異訓練的模型相差不大(圖2),這意味著在測序個體數目不多的情況也可以用MuRaL來構建基因組的突變率圖譜。


圖2. 基于100個人和1000個人的罕見變異構建的MuRaL模型的預測結果差異不大


因為MuRaL對訓練數據要求低,這為構建很多物種的突變率圖譜找開了一扇門。作者利用MuRaL獲得了恒河猴、果蠅和擬南芥這三個代表性物種的全基因組突變率圖譜,評估結果表明MuRa在這些物種中的預測性能都相當不錯。MuRaL還能利用預訓練的模型進行遷移學習,高效快速地獲得近源物種的突變率圖譜。以恒河猴為例,因為恒河猴是人類的近源物種,作者利用訓練好的人類MuRaL模型的參數作為初始參數,僅使用恒河猴從頭預測模型訓練數據的30%進行遷移學習模型的訓練。結果表明,從頭訓練模型和遷移學習模型的預測性能表現相近,但遷移學習模型所需要的訓練數據和計算資源要少很多。


圖 3. 利用MuRaL構建擬南芥的基因組突變率圖譜


MuRaL預測的高精度突變率圖譜可應用于許多下游分析。作為例子,作者基于人類MuRaL模型的預測結果,對人類編碼基因及其上下游3 Kb區域的突變率模式進行聚類分析,把所有基因分為三大類(圖4)。很有意思的是,其中一類基因在基因區及上下游都呈現出了明顯更高的突變率,功能富集分析表明這類高突變率的基因很多與發育相關,說明許多發育相關基因具有更高的突變負擔。這是一個出乎意料的發現,對理解疾病發生及生物演化可能有重要意義。

圖 4. 根據MuRaL預測的突變率對人類編碼基因進行聚類


總之,該研究開發了一種基于深度學習預測突變率的方法,該方法性能優異且具有高適用性,可用于構建許多物種的基因組突變率圖譜,并將促進與突變相關的研究,具有廣闊的應用前景。

中山大學生命科學學院的博士生方亦圓和鄧書益為該研究的共同一作,李彩教授為通訊作者。該研究得到中山大學有害生物控制與資源利用國家重點實驗室、國家自然科學基金委員會、廣東省及廣州市的經費支持。

論文鏈接:https://www.nature.com/articles/s42256-022-00574-5

中大新聞
新聞投稿
百家乐官网论坛博彩拉| 百家乐永利娱乐| 娱乐场| 百家乐官网菲律宾| 百家乐注码技术打法| 体育博彩| 百家乐案件讯问| 大发888缺少casino组件common| 大发888真人网址| 艮山坤向 24山| 舟山星空棋牌游戏大厅下载| 百家乐官网投注秘笈| 视频百家乐信誉| 任你博百家乐官网现金网| 大上海百家乐的玩法技巧和规则| 平台百家乐官网的区别| 淘金盈赌场有假吗| 百家乐有技巧么| www.18lk.com| 新葡京百家乐娱乐城| 皇冠百家乐官网皇冠网| 风水24个向的意思| 百家乐官网翻天粤| 威尼斯人娱乐网上百家乐的玩法技巧和规则 | 百家乐专用台布| 荷规则百家乐的玩法技巧和规则| 百家乐官网vshow| 新葡京官网| 百家乐官网投注法减注| 楚雄市| 百家乐官网园会员注册| 永利高百家乐会员| 正规百家乐官网游戏下载| 百家乐官网游戏免费| 太阳城网络博彩| 德州扑克 规则| 百家乐官网网址多少| 锦州合声棋牌下载| 大发888体育竞技| 破解百家乐游戏机| 大发888下载网站|