如果你不喜歡收聽微信的語音信息,可能也會因此試用過微信的語音轉(zhuǎn)文字功能。如果對方普通話標準,識別出來的內(nèi)容還算是能夠理解,這還得歸功于騰訊在語音識別等人工智能(AI)方面的研究。
如今,為了進一步“升級”技能,騰訊更是從微軟挖來一位在語音識別與深度學(xué)習(xí)領(lǐng)域的專家——俞棟。作為騰訊 AI Lab 副主任,俞棟將管理新成立的美國西雅圖 AI 實驗室,負責推動騰訊在語音識別及自然語言理解等 AI 領(lǐng)域的基礎(chǔ)研究。
加入騰訊前,俞棟擔任微軟研究院語音和對話組(Speech and Dialog Group)首席研究員。
他是 2011 年發(fā)布的論文《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks(使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò)進行交談?wù)Z音轉(zhuǎn)寫)》的主要研究人員。
該論文提出了基于人工神經(jīng)網(wǎng)絡(luò)的語音識別新方法,實驗結(jié)果證明,這種新方法大幅降低了語音識別的錯誤率,將沉寂多年的人工神經(jīng)網(wǎng)絡(luò)再次引入語音識別研究領(lǐng)域,開啟了語音識別的深度學(xué)習(xí)時代。
這項工作(將深度學(xué)習(xí)的方法引入語音識別領(lǐng)域)一開始受到很多懷疑,很多同事或者朋友都經(jīng)歷過 80 年代末 90 年代初,神經(jīng)網(wǎng)絡(luò)從高潮跌落到低潮的過程,所以他們都對此有一定的懷疑。
俞棟回顧道,但在兩年后,許多公司卻開始重復(fù)他們的研究工作,并發(fā)現(xiàn)那對識別率有很大幫助。隨后,通過深度學(xué)習(xí),微軟團隊在語音識別上也在不斷突破:
2016 年 9 月中旬,微軟報告了在語音識別方面取得的新里程碑:在 Switchboard 這一電話交談基準測試集上新系統(tǒng)的識別詞錯率降至 6.3%;一個月后,微軟又公布了在這一基準測試集上成功實現(xiàn)了歷史性突破:他們的語音識別系統(tǒng)詞錯率(WER)和專業(yè)轉(zhuǎn)錄員相當甚至更低,達到 5.9%。
當被問及為何會選擇和騰訊合作,俞棟表示,他認為騰訊在研究語音識別方面有自己的優(yōu)勢:騰訊具有大數(shù)據(jù)來源,同時也具備運算能力,有出口形成反饋機制進而優(yōu)化產(chǎn)品,有落地的嘲。與之同時,騰訊還能滿足他更偏向研究的喜好。
更偏研究的西雅圖實驗室
在 2016 年 4 月,騰訊正式成立 AI Lab,旨在推進人工智能技術(shù)研究,且發(fā)展相關(guān)應(yīng)用嘲。
AI Lab 聚焦四大領(lǐng)域的基礎(chǔ)研究,包括:計算機視覺、語音識別、自然語言處理與機器學(xué)習(xí)。并將相關(guān)技術(shù)應(yīng)用于具有騰訊特色的四大業(yè)務(wù)嘲中的應(yīng)用能力:內(nèi)容 AI、社交 AI、游戲 AI 和平臺工具 AI。
深圳 AI Lab 注重將基礎(chǔ)研究結(jié)果和應(yīng)用嘲快速結(jié)合。相比之下,由俞棟帶領(lǐng)的西雅圖 AI Lab 將承擔一些語音識別和 NLP 的基礎(chǔ)和前沿研究工作,并試圖解決這些領(lǐng)域更困難的問題。
雖然這個研究方向下,研究結(jié)果和實際應(yīng)用結(jié)合過程可能會比較漫長,但語音識別的基礎(chǔ)性研究與騰訊重社交和交互的業(yè)務(wù)來說非常重要,無論是游戲、微信、QQ、物聯(lián)網(wǎng)等,都可用上語音識別。因此這次布局也是戰(zhàn)略之舉。
如果要在技術(shù)研究上取得突破,確實需要有一定耐心,相對來說長期穩(wěn)定的投入,西雅圖這邊基本上秉持這樣的理念。
我們希望長遠來講,能夠創(chuàng)新性地攻克關(guān)鍵的、主要的技術(shù)難題,在真實應(yīng)用嘲里有很大的性能提升。但是因為我們沒有辦法預(yù)測到底哪天能成功,我們希望在每一個階段都會有一些進步,這是我們 可以定義的一些進步,但是這個進步會有多大,也是沒有辦法比較明確說出來的。
俞棟如此說道。而作為西雅圖實驗室負責人的 任務(wù),俞棟目前正在招攬團隊成員中。
投稿郵箱:chuanbeiol@163.com 詳情請訪問川北在線:http://m.sanmuled.cn/