微軟在其Azure語音服務新增發音評估(Pronunciation Assessment)功能,該功能可以評估語音發音,提供說話者有關語音準確性和流暢度的回饋,現在該功能美國英語已經正式上市,其他語言則提供預覽版本。

發音評估是Azure認知服務中,語音服務的一項功能,可提供主觀與客觀語音評估回饋,有助於以電腦輔助語言學習的效果,微軟提到,對語言學習者來說,練習發音能夠獲得即時的回饋,可以有效提高語言技能。過去發音評估都需要交由老師進行,但這需要花費大量的時間和精力,學習者必須要付出較高的學習成本,而發音評估是一個由人工智慧驅動的語音功能,讓學習者可更容易地獲得發音校正指導。

發音評估能夠給出接近人類專家品質的綜合評價,以不同精細度評估用戶的發音,從單音素到完整段落輸入。在音素層面,發音評估會提供每個音素的準確度分數,幫助學習者更好地理解語音發音細節,而在單詞等級,發音評估可以自動檢測錯誤提供準確度分數,以及遺漏、重複和錯誤發音等詳細資訊。

而在全文層級,發音評估提供額外的流暢度和完整度分數,流暢度則是和母語者比較,在單詞之間中斷無聲的程度,而完整度則代表所輸入的參考文本中,用戶唸出單詞的比例,然後從準確度、流暢度和完整性匯總分數,給出整體的發音品質評估,學習者可以利用這些評估,改進口說弱點。

語音評估的核心,是使用發音錯誤檢測和診斷(Mispronunciation Detection and Diagnose,MDD)技術,對單詞層級的發音準確度進行評分,提供錯誤判斷並且有助於整體評估,官方提到,為了提供準確且一致的結果,發音評估採用新的神經網路進行建模,利用分層架構從較低的單詞粒度,處理到更高的單詞粒度訊息。官方提到,這樣的設計讓發音評估,可以從微小的模式中,充分利用詳細的發音資訊,使得錯誤發音檢測更準確。

發音評估模型使用超過10萬小時,來自不同口音、地區和年齡的語音訓練資料,發音評估可以處理各種類型用戶溝通的場景,像是成人到小孩,或是非母語人士到母語人士,提供一致的評估效能。官方提到,發音評估支援自由式談話,也就是說話者在說話之前沒有任何前綴參照,像是演講或是口語考試,透過使用Azure Speech-to-Text服務,發音評估可以自動準確地轉錄語音,並提供各種粒度評估結果。


熱門新聞

Advertisement