我校信息管理學(xué)院徐健教授與李岱峰副教授的代表性成果論文“Building a PubMed knowledge graph”于2020年發(fā)表于Nature子刊Scientific Data。PubMed是收錄生物醫(yī)學(xué)領(lǐng)域科研論文最全面的文獻(xiàn)數(shù)據(jù)庫(kù),蘊(yùn)含著大量的專(zhuān)業(yè)知識(shí)。但是從知識(shí)挖掘角度來(lái)看,該數(shù)據(jù)庫(kù)中所蘊(yùn)藏的有用概念或者難于抽取出來(lái),或者因?yàn)槿鄙傧缍粔蛎鞔_,這種現(xiàn)狀極大阻礙了知識(shí)發(fā)現(xiàn)任務(wù)的開(kāi)展。為了解決這一問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了PubMed知識(shí)圖譜 (PubMed Knowledge Graph, PKG)。
該知識(shí)圖譜構(gòu)建主要包括三方面的工作:第一,采用所提出的BioBERT模型從2900萬(wàn)篇PubMed科技論文摘要中抽取生物醫(yī)學(xué)實(shí)體;第二,采用基于可信多源數(shù)據(jù)的作者消歧方法對(duì)PubMed醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)中所有作者進(jìn)行消歧;第三,通過(guò)科技論文唯一標(biāo)識(shí)和消歧作者唯一標(biāo)識(shí),映射和集成了NIH ExPORTER提供的科研基金資助數(shù)據(jù)、ORCID提供的作者任職歷史和教育背景數(shù)據(jù)、MapAffil提供的細(xì)粒度機(jī)構(gòu)解析數(shù)據(jù)。通過(guò)上述抽取、消歧、集成等大規(guī)模知識(shí)計(jì)算,構(gòu)建了生物醫(yī)學(xué)實(shí)體、學(xué)者、科研論文、機(jī)構(gòu)、基金等要素之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)驗(yàn)證工作表明,實(shí)體抽取結(jié)果達(dá)到國(guó)際領(lǐng)先水平,作者消歧效果為目前已知同類(lèi)數(shù)據(jù)集最佳水平。PKG為激發(fā)廣泛的創(chuàng)新活動(dòng)提供了重要平臺(tái)。它不僅能夠用于測(cè)度學(xué)術(shù)影響力,研究知識(shí)使用、傳遞、擴(kuò)散現(xiàn)象,還能夠基于知識(shí)間的關(guān)聯(lián)構(gòu)建學(xué)者、機(jī)構(gòu)、實(shí)體等知識(shí)單元的全景畫(huà)像,為多種知識(shí)發(fā)現(xiàn)和知識(shí)挖掘任務(wù)提供了重要研究平臺(tái)。
該論文由來(lái)自我校信息管理學(xué)院、美國(guó)德州大學(xué)奧斯汀分校信息學(xué)院、美國(guó)德州先進(jìn)計(jì)算中心、美國(guó)德州大學(xué)奧斯汀分校戴爾醫(yī)學(xué)院、美國(guó)伊利諾伊大學(xué)信息科學(xué)學(xué)院、韓國(guó)延世大學(xué)圖書(shū)館與信息科學(xué)系、韓國(guó)高麗大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院、北京大學(xué)信息管理系共8個(gè)不同學(xué)術(shù)機(jī)構(gòu)的15位學(xué)者通過(guò)合作共同完成,我校信息管理學(xué)院在該成果中起到了主導(dǎo)性作用。