TCS 臺灣傳播調查資料庫

【產業動態】只需 3 秒音訊，微軟新 AI 模型就能模仿某人聲音念稿

日期

2023-01-12

新聞來源

科技新報

內容

微軟研究人員推出全新VALL-E文字轉語音（Text-to-Speech）AI人工智慧模型，只要給它三秒某人的音訊，它就能模擬出此聲音用任何語調、情緒講話。VALL-E是神經編碼解碼器語言模型（Neural Codec Language Model），它能從文字與聲音提示分析人如何發音。微軟使用內含七千多人約六萬小時說話內容的LibriLight音訊庫訓練，VALL-E除了可模仿聲音，還可以模擬範例音訊的聲音環境，如此強大的功能，不免令人擔心它與Deepfake一樣淪為有心人惡作劇的工具。

資料來源：reurl.cc/91mKnO

責任編輯：沈思妤（就讀於：政治大學傳播碩士學位學程）

關鍵字

VALL-E、微軟、文字轉語音、AI

產業新聞

【產業動態】只需 3 秒音訊，微軟新 AI 模型就能模仿某人聲音念稿