Google發表最新將人工智慧應用在音訊解編碼器的研究,釋出端到端神經解編碼器SoundStream,這是一個應用神經網路的音訊解編碼器,可以提供高音質的音訊,並且支援清楚的語音、有雜音和回聲的語音,甚至是混雜音樂、語音和環境音的音訊,Google提到,SoundStream是第一個可以處理語音和音樂的神經網路解編碼器,可以在智慧型手機上即時執行。

音訊解編碼器用於有效率地壓縮音訊,以減少儲存和網路頻寬需求,而理想的情況,音訊解編碼器的存在,應該要讓使用者無感,包括無法察覺解碼後的音訊,與原始音訊間存在差異,而且解編碼的過程,也不能產生可察覺的延遲。

市面上以及Google的各種影音服務,大量使用了音訊解編碼器,像是Opus和增強型語音服務(Enhanced Voice Services,EVS)。Opus是一種多功能語音和音訊解編碼器,支援從6 kbps到510 kbps的位元率,已經被Google用於視訊會議平臺Meet,還有串流媒體服務YouTube等應用程式中。而EVS則是3GPP標準化機構所開發,是針對行動電話所開發的解編碼器,和Opus相同,是能夠處理多種位元率的多功能解編碼器。

這兩種解編碼器雖然可以在中低位元率中表現出色,但是在極低位元率,像是小於等於3 kbps的情況,音質就會急轉直下,Google提到,過去人類利用專業知識,以及增加壓縮演算法的效率,來最佳化音訊的處理,但最近研究人員開始使用機器學習來代替人工設計,以資料驅動的方法學習解編碼音訊。

Google發布最新的端到端神經解編碼器SoundStream,其主要技術便是使用神經網路,由編碼器、解碼器和量化器組合而成,所有這些都經過端到端訓練。編碼器會將輸入的音訊,串流為編碼訊號,接著使用量化器對其進行壓縮,並且使用解碼器將訊號轉換回音訊。

研究人員提到,SoundStream使用了神經音訊合成領域中,目前最先進的解決方案,透過訓練判別器(Discriminator),計算對抗性和重建損失函式的組合,讓重建的音訊聽起來就像是未壓縮的原始音訊,進而提供高品質音訊輸出。

經過訓練後,解碼器和編碼器可以分別在單獨的客戶端運作,以提高網路傳輸高品質音訊的效率。SoundStream處理音訊的效率非常好,特別是在低位元率的情況,研究人員解釋,SoundStream使用3 kbps位元率所提供的音訊品質,超過使用12 kbps位元率的Opus,以及9.6 kbps的EVS,位元率是這些解編碼器的三分之一到四分之一,這代表SoundStream可以使用更小的頻寬,提供類似的音訊品質。

在早前,Google發表了基於回歸網路的Lyra音訊解編碼器,而與SoundStream比起來,SoundStream仍然優於Lyra當前的版本,研究人員也提到,在傳統音訊處理工作管線中,壓縮和增強使用不同模組進行,但這樣的方法會增加系統延遲。而Google採取不同的策略,將壓縮和增強功能綜合在同一個模型中,能夠同時進行壓縮和背景降噪,但又不增加延遲。

Google表示,SoundStream是將機器學習技術,應用在音訊解編碼器中重要的一步,比目前最先進的解編碼器Opus和EVS效果更好,而且只需要部署一個可擴展的模型。SoundStream會與下一版本的Lyra一起發布,藉由整合SoundStream與Lyra,開發人員可以利用現有的Lyra API和工具,來提供更好的音質。


熱門新聞

Advertisement