產業新聞


【產業動態】只需 3 秒音訊,微軟新 AI 模型就能模仿某人聲音念稿

日期
2023-01-12
新聞來源
科技新報
內容

微軟研究人員推出全新VALL-E文字轉語音(Text-to-Speech)AI人工智慧模型,只要給它三秒某人的音訊,它就能模擬出此聲音用任何語調、情緒講話。VALL-E是神經編碼解碼器語言模型(Neural Codec Language Model),它能從文字與聲音提示分析人如何發音。微軟使用內含七千多人約六萬小時說話內容的LibriLight音訊庫訓練,VALL-E除了可模仿聲音,還可以模擬範例音訊的聲音環境,如此強大的功能,不免令人擔心它與Deepfake一樣淪為有心人惡作劇的工具。

 

資料來源:reurl.cc/91mKnO

責任編輯:沈思妤(就讀於:政治大學 傳播碩士學位學程)

關鍵字
VALL-E、微軟、文字轉語音、AI