中大新聞網(wǎng)訊(通訊員熊麗娜)隨著生物醫(yī)學(xué)領(lǐng)域的高速發(fā)展,以生物信息學(xué)為代表的數(shù)據(jù)科學(xué)愈發(fā)重要,因此催生了數(shù)以萬(wàn)計(jì)的各類處理、分析、解讀生物醫(yī)學(xué)數(shù)據(jù)的生物信息軟件、工具和數(shù)據(jù)庫(kù)。這些工具不斷積累的同時(shí),也給用戶帶來(lái)困擾。用戶難以從海量的生信工具中找到真正符合自己研究需求的工具。同時(shí),生信工具的質(zhì)量參差不齊,也缺乏對(duì)各類工具進(jìn)行質(zhì)量評(píng)價(jià)的權(quán)威網(wǎng)站。
近日,中山大學(xué)生命科學(xué)學(xué)院任間教授、中山大學(xué)腫瘤防治中心趙齊副研究員與中山大學(xué)附屬第六醫(yī)院羅曉彤副研究員合作在Science China Life Sciences發(fā)表了題為BioTreasury: a community-based repository enabling indexing and rating of bioinformatics tools的研究論文,參考餐飲行業(yè)“大眾點(diǎn)評(píng)”模式,推出了一個(gè)專業(yè)生物信息學(xué)工具點(diǎn)評(píng)網(wǎng)站——生信寶庫(kù)(https://biotreasury.rjmart.cn)。
圖1. 生信寶庫(kù)界面
為解決生信工具選擇困難的痛點(diǎn),生信寶庫(kù)制定了嚴(yán)格的篩選標(biāo)準(zhǔn):1. 必須是已在正規(guī)雜志發(fā)表的工具 2. 五年以內(nèi)發(fā)表的新工具 3. 發(fā)表超過(guò)五年的工具,相關(guān)文章引用數(shù)必須超過(guò)100。生信寶庫(kù)以此標(biāo)準(zhǔn)收集了總計(jì)超過(guò)10,000個(gè)生物信息學(xué)工具。
生信寶庫(kù)采用開放注冊(cè)的方式以及智能簡(jiǎn)化的提交流程吸引生物信息學(xué)研究人員提交自己開發(fā)的工具,并鼓勵(lì)用戶和領(lǐng)域?qū)<覍?duì)工具進(jìn)行點(diǎn)評(píng)。網(wǎng)站通過(guò)工具相關(guān)文章的影響因子、文章引用數(shù)量、工具頁(yè)面瀏覽量、好評(píng)度與評(píng)論數(shù),共計(jì)6項(xiàng)指標(biāo)給工具綜合打分與排名,以此將最優(yōu)質(zhì)的生物信息學(xué)工具推薦給用戶。
圖2. 生信寶庫(kù)對(duì)工具的6維評(píng)估指標(biāo)
任間教授課題組不斷改進(jìn)和維護(hù)生信寶庫(kù),添加了一些重要的功能,其中包括對(duì)生物信息學(xué)工具進(jìn)行標(biāo)準(zhǔn)化的分類,并基于大型語(yǔ)言模型實(shí)現(xiàn)工具的自動(dòng)分類,為日后生信寶庫(kù)的全面智能化維護(hù)與更新提供了可行性基礎(chǔ)。總的來(lái)說(shuō),生信寶庫(kù)有望成為生物醫(yī)學(xué)社區(qū)的寶貴資源和知識(shí)共享平臺(tái)。它有助于研究人員有效獲取和評(píng)估生物信息學(xué)工具的能力,促進(jìn)合作,推動(dòng)生物信息學(xué)研究在該領(lǐng)域的發(fā)展。
圖3. 生信寶庫(kù)利用大語(yǔ)言模型實(shí)現(xiàn)生物信息學(xué)工具的高效分類
中山大學(xué)腫瘤防治中心趙齊副研究員為該文章的第一作者,中山大學(xué)生命科學(xué)學(xué)院任間教授和中山大學(xué)附屬第六醫(yī)院羅曉彤副研究員為通訊作者。
論文鏈接:https://www.sciengine.com/SCLS/doi/10.1007/s11427-023-2509-x