微軟VALL-E只需3秒模擬真實(shí)聲音恐成詐騙利器

2023-02-10 上午 09:44 記者陳士勳 / 綜合報(bào)導(dǎo)

微軟VALL-E只需3秒模擬真實(shí)聲音。圖片來源：VALL-E

微軟新的AI模型「VALL-E」帶來新革命，用戶僅提供3秒鐘的音訊，該模型便能模擬本人說話的聲音、語調(diào)及說話時(shí)的情緒，甚至連音訊背景的「聲音環(huán)境」，也能如法炮製，不過如此功能可能被詐騙人士利用，微軟也開發(fā)檢測模型，區(qū)分該音訊是否經(jīng)由VALL-E合成，且制定相關(guān)AI原則，避免惡意濫用。

微軟研究人員表示，VALL-E基於Meta在2022年10月發(fā)表的EnCodec技術(shù)，所打造而成的「神經(jīng)編碼解碼器語言模型」，不同於一般透過操控波形合成語音的常見文字轉(zhuǎn)語音法，而是從文字與聲音提示，產(chǎn)生個(gè)別音訊編碼解碼器程式碼，並透過EnCodec，將資訊分解成可稱為「標(biāo)記」（Token）的個(gè)別元件，進(jìn)而分析人類發(fā)音。

微軟指出，VALL-E能對比訓(xùn)練資料與「學(xué)會」的聲音，只要上傳3秒鐘的音檔，即可複製該語調(diào)來說話，為了建構(gòu)VALL-E的語音合成能力，微軟採用內(nèi)含7千多人、約 6 萬小時(shí)說話內(nèi)容的LibriLight音訊庫訓(xùn)練，以提供用戶數(shù)十個(gè)的AI模型執(zhí)行範(fàn)例音訊。

微軟強(qiáng)調(diào)，由於VALL-E還可模擬音訊背景的「聲音環(huán)境」，簡單來說，如果音訊來自不同場合，像講電話、搭乘交通工具、開車等背景，接聽者會感覺音訊是經(jīng)該背景所傳遞而來，因此，微軟準(zhǔn)備應(yīng)對的檢測模型，辨別真假音訊，預(yù)防VALL-E成為詐騙和網(wǎng)路攻擊的武器。

延伸閱讀：
在中國購買Android手機(jī) 走到天涯海角都被追蹤
蘋果屹立不搖關(guān)鍵庫克：用人4原則成很好公式
 張忠謀的禁忌！年後面試臺積電不能這樣回答
 迪士尼裁員7千人考慮將作品授權(quán)給對手

1指點(diǎn)入看錢景：
找工作快上1111人力銀行 http://www.myqueenbquilts.com/
想找更多兼職打工 https://parttime.1111.com.tw/
科技新知請上科技島https://www.technice.com.tw
youtube強(qiáng)檔影音 1111人力銀行一次滿足 http://www.myqueenbquilts.com/162804/
1111產(chǎn)經(jīng)新聞網(wǎng) 職場產(chǎn)業(yè)最核心 http://www.myqueenbquilts.com/news

微軟 VALL-E 人工智慧 AI模型

新版Bing結(jié)合ChatGPT 微軟表現(xiàn)...

任天堂全員加薪10% 社長：保障現(xiàn)有員工...

以太坊钱包最新版本下载

微軟VALL-E只需3秒模擬真實(shí)聲音 恐成詐騙利器

微軟VALL-E只需3秒模擬真實(shí)聲音恐成詐騙利器