最近,中山大學-卡內基梅隆大學聯合工程學院(SYSU-CMU Joint Institute of Engineering,簡稱JIE)教師李明博士提出了一種無需說話人標注的無監督說話人識別算法,對于大數據時代的海量語音數據信息提取具有重要的意義。
語音作為人類獲取信息的主要來源之一,是人與外界交流中使用最方便、最有效、最自然的交際工具和信息載體。隨著人類社會全面步入信息化,特別是通訊、多媒體和互聯網技術的迅猛發展,智能語音技術也被越來越多地應用于人們的日常生活,如何更全面、更準確的識別出語音信號所包含的說話人信息,是該領域的一個研究熱點。
李明博士課題組提出了一種利用無監督學習進行說話人識別任務的框架。他們面對的是一系列沒有任何標記的數據,在訓練數據中,利用affinity propagation聚類算法對未標記語音數據進行聚類,可生成若干聚類,每一個聚類可認為代表一個說話人,課題組為每一類別做一個臨時的標簽。在此時,未標記數據變成了已標記數據。利用此已標記數據訓練出的Probabilistic Linear Discriminant Analysis模型可以有效進行說話人識別任務。經過若干次迭代,等錯誤率相比于原先無監督離散余弦打分方法相對下降了超過20%,有效架起了無監督與有監督說話人識別算法之間的鴻溝。
近期,在新加坡舉辦的第九屆中文口語語言處理國際會議(ISCSLP 2014)及第十五屆國際語音通信年會(INTERSPEECH 2014)上,李明博士課題組宣講了三篇與說話人聲紋識別相關的論文。其中,李明博士與由他擔任導師并指導的JIE雙學位博士研究生劉文博、卡內基梅隆大學博士研究生禹之鼎三人共同撰寫的論文“An Iterative Framework for Unsupervised Learning in the PLDA based Speaker Verification”,獲得了ISCSLP的最佳學生論文獎。
JIE的博士研究生項目致力于培養對電子與計算機工程領域理論、方法、技術和工具進行深入探索的研究型人才,為充實和完善電子與計算機工程領域的知識體系作出貢獻。其中的雙學位博士研究生將于在讀期間在美國卡內基梅隆大學學習兩年。滿足中山大學和卡內基梅隆大學相關專業學位要求的學生,可獲得兩校的博士學位。