歡迎您來到西安西安復華網絡技術有限公司官網!
您現在的位置:西安百度公司 > 新聞動態 > 行業動態 >

百度語音公布四項重大技術突破


在百度輸入法發布會現場,百度公布了語音領域的四項重大突破,其中在線語音領域全球首創的流式多級的截斷注意力模型(SMLTA),尤為矚目,打破了注意力模型在語音業界大規模部署的良久沉寂。

眾所周知,語音領域Attention模型(注意力模型)的提出已有好幾年的時間了。注意力模型的核心思想,是通過機器學習的方法,把一句話中每個音節或者漢字的音頻特征,從整句話的音頻特征中,通過機器學習的方法,自動的挖掘出來。這樣建模過程,其實是在一句話的一段時間長度是上百幀的連續音頻流和十幾個漢字識別結果之間,建立了直接基于深度學習的直接映射關系。語音識別過程,也變成了一個字一個字的滾動生成過程。這樣的建模完全拋棄了傳統語音識別的狀態建模和按語音幀進行解碼等傳統技術框架。直接實現了語音和文本一體化的端到端建模,從而公認的有更高的建模精度。

近幾年,不少專家和學者都在語音識別任務中嘗試了注意力模型,實驗室環境下,相對于傳統技術,也獲得到了一系列的提升。但是截止目前,注意力模型在在線語音服務中的大規模使用,一直鮮有成功案例。究其原因,是因為語音識別的注意力模型存在如下的兩個問題:

1. 流式解碼的問題。傳統的Attention模型大都是基于整句的建模,比較有代表性的是谷歌的LAS模型。如果在線語音識別采用整句Attention建模,這就客觀上要求語音都上傳到服務器后,才能開始聲學打分計算和解碼,這樣勢必引入較長的用戶等待時間,影響用戶體驗,同時也沒辦法完成實時語音交互的任務。一些研究工作雖然能夠實現流式注意力模型,也就是說可以一邊上傳語音,一邊根據局部上傳的語音片段,來計算注意力模型的得分(比如谷歌的Neural Transducer技術),從而得到部分的識別結果。但是這些技術的模型精度都會低于整句的注意力模型,最終也影響用戶體驗。

2. 長句建模的精度下降問題。傳統注意力模型的核心思想是基于整句的全局信息,通過機器學習的方法,選擇出和當前建模單元最匹配的特征。句子越長,進行特征選擇的難度越大。出錯的概率越高,錯誤前后傳導的概率也越高。

基于以上兩個因素,工業界需要一種全新的注意力模型,能夠隨著語音數據的流式的上傳,實現流式的注意力建模和解碼,從而減少用戶等待識別結果的時間,使得實時的在線語音交互成為可能。同時隨著輸入語音數據的不停的加長,能夠對連續語音流進行截斷,保證注意力模型更加聚焦,提升長句語音識別的建模的精度。

百度在業界第一次創新性的提出了流式多級的截斷注意力模型SMLTA,這是全世界范圍內,第一次基于Attention技術的在線語音識別服務的大規模上線。也是百度AI技術的工業落地,領跑全行業的重要例證。這項技術的四大創新點在于:截斷、流式、多級、基于CTC &Attention。

具體而言,是使用CTC(一種語音識別算法)的尖峰信息對連續語音流進行截斷,然后在每一個截斷的語音小段上進行當前建模單元的注意力建模。這樣把原來的全局的整句Attention建模,變成了局部語音小段的Attention的建模。同時,為了克服CTC模型的不可避免的插入刪除錯誤對系統造成的影響,該算法引入一種特殊的多級Attention機制,實現特征層層遞進的更精準的特征選擇。最終,這種創新的建模方法的識別率不但超越了傳統的全局Attention建模,同時還能夠保持計算量、解碼速度等在線資源耗費和傳統CTC模型持平。這也是第一次有公開報道,局部的Attention建模,有可能超過全局的Attention建模。

百度已成功將這種注意力模型部署上線到語音輸入法全線產品,服務中國數億用戶。這是世界范圍內已知的第一次大規模部署的用于在線語音輸入的注意力模型。在工程上,實現了低成本上線,所有計算全部通過CPU實現,不需要額外增加GPU,機器的耗費和傳統CTC模型相當。最后在輸入法精度上,大量數據測試結果顯示,相對于原有的Deep peak2的CTC系統,相對準備率提升了15%。

高性能、低功耗,百度這次推出的流式多級的截斷注意力模型SMLTA,無疑是中文在線語音識別歷史上的又一次突破。

除在線語音領域以外,百度的語音技術還在離線語音、中英混合輸入、普通話方言混合輸入方面取得了突破。目前百度輸入法離線語音輸入準確率已高于行業平均水平35%,保證你在沒網的情況下實現輸入法的流暢快速使用。技術創新還使得百度輸入法「中英自由說」成為在完全不影響中文語音輸入準確率的情況下,唯一實現高精準的中英文混合語音識輸入?!阜窖宰杂烧f」還將普通話和六大方言融合成一個語音識別模型,不單普通話和方言之間不再需要切換,方言和方言之間也不用再切換,隨時隨地,想咋說咋說。

自2012年以來,百度語音識別技術一直在該領域不斷深入探索、創新突破。不單是實現識別準確率的提升,其技術路徑的選擇亦在引領行業。去年也是在輸入法發布會上,百度語音發布的Deep Peak 2模型突破了沿用十幾年的傳統模型,能夠更充分地發揮神經網絡模型的參數優勢,大幅提升各場景下識別準確率。時隔一年,百度語音技術團隊再次實現重大技術創新。

“我們有一個理念,技術只有在產品上使用、讓用戶真正體驗到才是真正的技術,我們絕不會為了技術而技術。”百度語音技術部總監高亮發布會上如是說。

 

在線語音領域,百度發布流式截斷多層注意力建模(SMLTA),這是中文在線語音識別歷史上的兩個重大突破:世界上首次實現了局部注意力建模識別精度超過全局注意力模型;世界上第一次大規模部署在線語音交互注意力模型。這一技術能夠解決傳統Attention模型在識別中的時延性,以及因此導致的無法進行大規模在線語音實時交互的問題,并將在線語音識別精度提升了15%,超越行業最高水平15%。

離線語音識別領域,為解決用戶多元輸入場景的需求,百度持續優化Deep Peak 2系統,讓離線語音輸入相對準確率再次提升,高于行業平均水平35%。即使用戶處于地鐵、電梯、隧道或人流密集等離線場景中,依然可以借助百度輸入法進行精準的語音輸入。

中英文混合語音輸入技術,以及方言與方言、方言與普通話的混合語音輸入技術突破,讓用戶真正實現“自由說”,無論是中英文夾雜,還是普通話家鄉話來回切換,百度輸入法都能準確識別。據介紹,百度輸入法是目前唯一實現了高精度“中英自由說”和“方言自由說”的輸入法產品。

數據顯示,截至2018年底,百度輸入法月活躍人數已達5億,語音日請求量峰值突破5.5億,AR表情使用次數超過1億。同時,百度海外輸入法全球安裝量超過1億,支持120種語言,覆蓋全球190個國家地區,并已與超過100個全球知名IP達成合作。

發布會上,百度海外輸入法展示了日語識別、印地語識別和印英混輸功能,據第三方評測顯示,百度日文輸入法的語音識別精度位列行業第一,識別結果用戶可接受度占比高達 90%,已成為日本最大的第三方輸入法產品;印度用戶語音功能的使用率已達21%,百度輸入法幫助印度用戶實現了自由溝通。

伴隨著百度語音、視覺、自然語言處理、知識圖譜等百度AI技術落地輸入法,“全感官”的輸入變成現實。除了語音輸入,百度輸入法AI探索版還推出了拍立活、秀場、凌空手寫等新功能玩法。無論是心愛的偶像,還是日夜陪伴的寵物,“拍立活”功能都可以讓用戶通過自己的動作“驅動”對方做出相同表情;“秀場”功能運用圖像分割技術,讓用戶“穿越”到不同的虛擬場景之中,科技、清新、賽博朋克多種風格隨意挑選,表情創作更具場景感、更加生活化;凌空手寫如同隔空打怪,在空中書寫也能被流暢識別,目前整體識別率已達到大規模應用的要求。

百度輸入法全感官交互潮流也已進入海外并獲得認可。據悉,借助AI技術的加持,百度海外輸入法已經在全球建立起活躍的表情社區。超級IP《變形金剛》系列首部獨立電影《大黃蜂》已與百度海外輸入法聯手推出“大黃蜂”系列主題貼圖和AR表情。截止目前,百度海外輸入法已經和Hello Kitty、小黃鴨、小王子、格林奇等全球100余個知名IP達成合作,推出了一系列深受用戶喜愛的IP皮膚和表情,同時深耕本地化運營,針對海外用戶還設計了本地網紅合作推廣等定制化傳播。

软萌小仙女水手服自慰-国产学生强奷漂亮老师视频-日本熟妇乱子a片