文字可生成音樂！Meta發(fā)布的AI工具AudioCraft有何不同之處？

來源：科創(chuàng)板日?qǐng)?bào) 時(shí)間：2023-08-03 06:06:19

財(cái)聯(lián)社8月3日訊（編輯牛占林）美東時(shí)間周三，Meta發(fā)布了一款開源人工智能(AI)工具AudioCraft(直譯為音頻技藝)，該工具可以幫助用戶根據(jù)文本提示創(chuàng)作音樂和音頻。

(相關(guān)資料圖)

（來源：Meta官網(wǎng)）

Meta表示，這款人工智能工具將AudioGen、EnCodec和MusicGen三種模型或技術(shù)融為一爐，可用文本內(nèi)容生成高質(zhì)量、逼真的音頻和音樂。

Meta在官網(wǎng)介紹稱，MusicGen接受過Meta擁有的和特別授權(quán)的音樂訓(xùn)練，可以從文本提示生成音樂，而AudioGen接受過公共音效訓(xùn)練，可從文本提示生成音頻，比如模擬狗叫或腳步聲；再加上EnCodec編解碼器的改進(jìn)版本，用戶可以更高效率地生成更高質(zhì)量的音樂。

在6月初，Meta推出了名為MusicGen的開源人工智能模型，這是一種深度學(xué)習(xí)語言模型，可以根據(jù)文本提示生成音樂。

Meta的EnCodec是一個(gè)基于深度學(xué)習(xí)的音頻編解碼器，由人工智能驅(qū)動(dòng)，可以在音頻質(zhì)量沒有損失的前提下，將音頻壓縮到比MP3格式還要小10倍的程度。

AudioGen則是一個(gè)來自Meta和耶路撒冷希伯來大學(xué)的研究團(tuán)隊(duì)的人工智能模型，可以通過輸入文本來生成音頻，亦可以擴(kuò)展現(xiàn)有音頻。AudioGen可以區(qū)分不同的聲音對(duì)象，并在聲學(xué)上將它們分開。

Meta還演示了MusicGen和AudioGen工作的流程圖，并表示將讓這些模型開源，讓研究人員和從業(yè)人員可以用自己的數(shù)據(jù)集訓(xùn)練適合自己的模型，并幫助推進(jìn)人工智能生成音頻和音樂領(lǐng)域的發(fā)展。

與其他音樂模型相比，AudioCraft系列模型能夠生成長期一致的高質(zhì)量音樂和音頻，還簡(jiǎn)化了音頻生成模型的整體設(shè)計(jì)，使得該工具簡(jiǎn)單易用。

Meta相信它的模型可以引領(lǐng)新一波歌曲潮流，就像合成器改變音樂一樣。“我們認(rèn)為MusicGen可以變成一種新型的樂器，就像最初出現(xiàn)的合成器一樣。”

當(dāng)然，Meta也承認(rèn)創(chuàng)作復(fù)雜而又優(yōu)秀的音樂還是比較困難的，因此它選擇將AudioCraft開源，以使用于訓(xùn)練它的數(shù)據(jù)多樣化。

今年早些時(shí)候，谷歌也發(fā)布了名為MusicLM的音樂生成模型，并于5月向上月向所有用戶開放。除此之外，目前較為常見的音樂模型還有Riffusion、Mousai和Noise2Music等。

關(guān)鍵詞：

資訊

河北6市消防救援力量緊急馳援涿州 記者從河北省消防救援總隊(duì)獲悉，8...
隆基綠能業(yè)績(jī)快報(bào)：上半年凈利潤同比增長41.63% （記者孔子元）隆基綠能發(fā)布業(yè)績(jī)快...
健康飲食從看懂配料表開始，跟著長輕學(xué)習(xí)營養(yǎng)食療健康知識(shí) 健康飲食從看懂配料表開始，跟著長...
先惠技術(shù)：約4342.04萬股限售股8月11日解禁 先惠技術(shù)（SH688155，收盤價(jià)：元）...

文章排行

圖賞

突破游戲行業(yè)天花板，“技術(shù)外溢”成趨勢(shì) 文|螳螂觀察作者|余一受游戲版號(hào)發(fā)...
華康生物醫(yī)學(xué)(08622.HK)委任周靖文為獨(dú)立非執(zhí)行董事 格隆匯8月2日丨華康生物醫(yī)學(xué)(08622...
古脊椎所等研究證實(shí)古鳥類葉食性的起源 近日，《自然-通訊》（NatureCommu...
《京津冀林業(yè)和草原行政執(zhí)法協(xié)作備忘錄》簽署 7月26日，首次京津冀林業(yè)和草原行...