近年來語音辨識技術大幅邁進,但機器仍難以從吵雜環境中認出單一聲音。人類具有聽力選擇能力,可將注意力集中於某人談話上,忽略背景裡其他對話或噪音,此即所謂「雞尾酒會效應」。Google為了加強機器判讀音訊的能力,提出模擬人類「雞尾酒會效應」的深度學習視聽模型,機器將可利用影音內容的視覺訊號來辨識聽覺訊號,例如,機器可以憑藉人類嘴部運動獲悉相應的說話聲音,並將這說話聲音從週遭的雜音中提取出來。
資料來源:https://www.inside.com.tw/2018/04/16/google-cocktail-parties-listen-audio-visual-speech
責任編輯:林薇晨(政大傳播所)