Google旗下人工智慧公司DeepMind釋出原音頻生成模型WaveNet相關論文,其採用以神經網路技術模擬真人聲音系統,一次性產生原始音頻訊號波形,學習多種聲音特色,如女人、男人,音樂的音訊等,且能學習人類說話呼吸及嘴唇動作,加入情感或口音,增加語音多樣性,比現今文字轉語音系統更自然、接近真人聲音。DeepMind表示,WaveNet製作原始音頻模型通常需每秒處理1萬6千個以上樣本音訊,即建立真實語音資訊必備條件。
資料來源:http://www.ithome.com.tw/news/108411
責任編輯:黃品儒(政大傳播所)