亚洲欧洲日本国产_欧美亚洲精品一区_亚洲欧美成人影院_在线看欧美成人中文字幕视频

SpeechGen:用Prompt解鎖語(yǔ)音語(yǔ)言模型生成能力

  • CSDN
  • 2023-06-19 22:04:40


(資料圖片)

本文分享了一個(gè)創(chuàng)新的統(tǒng)一框架,SpeechGen,旨在激發(fā)語(yǔ)音語(yǔ)言模型進(jìn)行生成任務(wù)的潛力。提出該框架的團(tuán)隊(duì)是來(lái)自臺(tái)灣大學(xué)李宏毅老師團(tuán)隊(duì),作者均是臺(tái)灣大學(xué)在讀博士,分別是語(yǔ)音實(shí)驗(yàn)室成員吳海斌、Kai-Wei Chang和Yuan-Kuei Wu。

論文鏈接:https://arxiv.org/pdf/2306.02207.pdf

Demo: https://ga642381.github.io/SpeechPrompt/speechgen.html

Code: https://github.com/ga642381/SpeechGen

作者 | 臺(tái)灣大學(xué)語(yǔ)音實(shí)驗(yàn)室責(zé)編 | 夏萌出品 | CSDN(ID:CSDNnews)引言與動(dòng)機(jī)大型語(yǔ)言模型 (LLMs)在人工智能生成內(nèi)容(AIGC)方面引起了相當(dāng)大的關(guān)注,特別是隨著 ChatGPT 的出現(xiàn)。然而,如何用大型語(yǔ)言模型處理連續(xù)語(yǔ)音仍然是一個(gè)未解決的挑戰(zhàn),這一挑戰(zhàn)阻礙了大型語(yǔ)言模型在語(yǔ)音生成方面的應(yīng)用。因?yàn)檎Z(yǔ)音信號(hào)包含豐富的信息,包括說(shuō)話者和情感,超越了純文本數(shù)據(jù),基于語(yǔ)音的語(yǔ)言模型 (Speech Language Model, Speech LM)不斷涌現(xiàn)。雖然與基于文本的語(yǔ)言模型相比,語(yǔ)音語(yǔ)言模型仍處于早期階段,但由于語(yǔ)音數(shù)據(jù)中蘊(yùn)含著比文本更豐富的信息,它們具備巨大的潛力,令人充滿期待。研究人員們正積極探索提示 (prompt) 范式的潛力,以發(fā)揮預(yù)訓(xùn)練語(yǔ)言模型的能力。這種提示通過(guò)微調(diào)少量參數(shù),引導(dǎo)預(yù)訓(xùn)練語(yǔ)言模型做特定的下游任務(wù)。這種技術(shù)因其高效和有效而在 NLP領(lǐng)域備受青睞。在語(yǔ)音處理領(lǐng)域,SpeechPrompt 展示出了在參數(shù)效率方面的顯著改進(jìn),并在各種語(yǔ)音分類任務(wù)中取得了競(jìng)爭(zhēng)性的表現(xiàn)。然而,提示能否幫助語(yǔ)音語(yǔ)言模型做生成任務(wù)仍是未解之謎。在本文中,我們提出一個(gè)創(chuàng)新的統(tǒng)一框架,SpeechGen,旨在激發(fā)語(yǔ)音語(yǔ)言模型進(jìn)行生成任務(wù)的潛力。如下圖所示,將一段語(yǔ)音、一個(gè)特定的提示(prompt)喂給 speech LM 作為輸入,speech LM就能做特定的任務(wù)。比如將紅色的 prompt 當(dāng)作輸入,speech LM 就能做 speech translation 的任務(wù)。我們提出的框架有以下優(yōu)點(diǎn):無(wú)文本 (Textless):我們的框架以及其所依賴的語(yǔ)音語(yǔ)言模型獨(dú)立于文字?jǐn)?shù)據(jù),擁有無(wú)可估量的價(jià)值。畢竟,獲取標(biāo)記文本與語(yǔ)音配對(duì)的過(guò)程耗時(shí)繁瑣,而且在某些語(yǔ)言中甚至無(wú)法找到合適的文本。無(wú)需文字的特性使得我們的強(qiáng)大語(yǔ)音生成能力得以覆蓋各種語(yǔ)言需求,讓全人類受益匪淺。多功能性 (Versatility):我們開(kāi)發(fā)的框架通用性極高,能應(yīng)用于各種各樣的語(yǔ)音生成任務(wù)。文章中的實(shí)驗(yàn)使用語(yǔ)音翻譯、語(yǔ)音修復(fù)、語(yǔ)音連續(xù)當(dāng)作例子。簡(jiǎn)易性 (Easy to follow):我們提出的框架為各類語(yǔ)音生成任務(wù)提供了通用解決方案,讓設(shè)計(jì)下游模型和損失函數(shù)變得輕而易舉。可遷移性 (Transferability):我們的框架不僅容易適應(yīng)未來(lái)更先進(jìn)的語(yǔ)音語(yǔ)言模型,還蘊(yùn)藏著巨大的潛力,讓效率和效果得到進(jìn)一步提升。尤其令人振奮的是,隨著先進(jìn)語(yǔ)音語(yǔ)言模型即將問(wèn)世,我們的框架將迎來(lái)更為強(qiáng)大的發(fā)展。經(jīng)濟(jì)性 (Affordability):我們的框架經(jīng)過(guò)精心的設(shè)計(jì),只需訓(xùn)練少量參數(shù),而不是整個(gè)龐大的語(yǔ)言模型。這極大地減輕了計(jì)算負(fù)擔(dān),并允許在GTX 2080 GPU上執(zhí)行訓(xùn)練過(guò)程。大學(xué)的實(shí)驗(yàn)室也能負(fù)擔(dān)得起這樣的運(yùn)算開(kāi)銷。SpeechGen我們的研究方法在于構(gòu)建一個(gè)全新的框架 SpeechGen,該框架主要用于利用語(yǔ)音語(yǔ)言模型 (Speech Language Model, Speech LM)進(jìn)行各種下游語(yǔ)音生成任務(wù)的微調(diào)。在訓(xùn)練過(guò)程中,Speech LMs的參數(shù)保持不變,我們的方法側(cè)重于學(xué)習(xí)任務(wù)特定的提示(Prompt)向量。Speech LMs通過(guò)同時(shí)對(duì)提示向量和輸入單元進(jìn)行條件設(shè)置,有效地生成特定語(yǔ)音生成任務(wù)所需的輸出。然后,這些離散單元輸出被輸入到基于單元的語(yǔ)音合成器中,生成對(duì)應(yīng)的波形。我們的 SpeechGen 框架由三個(gè)元素組成:語(yǔ)音編碼器、Speech LM 和語(yǔ)音解碼器(Speech Decoder)。首先,語(yǔ)音編碼器將波形作為輸入,并將其轉(zhuǎn)換為由有限詞匯表導(dǎo)出的單位序列。為了縮短序列長(zhǎng)度,會(huì)移除重復(fù)的連續(xù)單位以生成壓縮的單位序列。然后,Speech LM 作為單位序列的語(yǔ)言模型,通過(guò)預(yù)測(cè)前一單位和單位序列的后續(xù)單位來(lái)優(yōu)化可能性。我們對(duì) Speech LM 進(jìn)行提示調(diào)整,以引導(dǎo)其根據(jù)任務(wù)生成適當(dāng)?shù)膯挝弧W詈螅琒peech LM生成的標(biāo)記由語(yǔ)音解碼器處理,將其轉(zhuǎn)換回波形。在我們的提示調(diào)整策略中,提示向量會(huì)在輸入序列的開(kāi)始處插入,這將引導(dǎo) Speech LMs 在生成過(guò)程中的方向。具體插入的提示數(shù)量,則取決于 Speech LMs 的架構(gòu)。在序列到序列的模型中,編碼器輸入和解碼器輸入都會(huì)加入提示,但在只有編碼器或只有解碼器的架構(gòu)中,只會(huì)在輸入序列前面添加一個(gè)提示。在序列到序列的 Speech LMs(如mBART)中,我們采用了自我監(jiān)督學(xué)習(xí)模型(如HuBERT)來(lái)處理輸入和目標(biāo)語(yǔ)音。這樣做可以為輸入生成離散單元,并為目標(biāo)生成對(duì)應(yīng)的離散單元。我們?cè)诰幋a器和解碼器輸入的前面都添加了提示向量,以構(gòu)造輸入序列。此外,我們還通過(guò)替換注意力機(jī)制中的關(guān)鍵值對(duì),以進(jìn)一步增強(qiáng)提示的指導(dǎo)能力。在模型訓(xùn)練中,我們以交叉熵?fù)p失作為所有生成任務(wù)的目標(biāo)函數(shù),通過(guò)比較模型的預(yù)測(cè)結(jié)果和目標(biāo)離散單元標(biāo)簽來(lái)計(jì)算損失。在這個(gè)過(guò)程中,提示向量是模型中唯一需要訓(xùn)練的參數(shù),而Speech LMs的參數(shù)在訓(xùn)練過(guò)程中保持不變,這確保了模型行為的一致性。我們通過(guò)插入提示向量,引導(dǎo) Speech LMs 從輸入中提取任務(wù)特定信息,并提高產(chǎn)生符合特定語(yǔ)音生成任務(wù)的輸出的可能性。這種方法允許我們微調(diào)并調(diào)整 Speech LMs 的行為,而無(wú)需修改其基礎(chǔ)參數(shù)。總的來(lái)說(shuō),我們的研究方法基于一種全新的框架 SpeechGen,通過(guò)訓(xùn)練提示向量,引導(dǎo)模型的生成過(guò)程,并使其能有效地產(chǎn)生符合特定語(yǔ)音生成任務(wù)的輸出。實(shí)驗(yàn)我們的框架可以用于任意的 speech LM 及各類生成任務(wù),具有很好的潛力。在我們的實(shí)驗(yàn)中,由于 VALL-E 和 AudioLM 不是開(kāi)源的,我們選擇使用 Unit mBART 作為 speech LM 進(jìn)行案例研究。我們用語(yǔ)音翻譯 (speech translation)、語(yǔ)音修復(fù) (speech inpainting)、語(yǔ)音連續(xù) (speech continuation) 當(dāng)作例子,來(lái)展示我們的框架的能力。這三個(gè)任務(wù)的示意圖如下圖所示。所有的任務(wù)都是語(yǔ)音輸入,語(yǔ)音輸出,無(wú)需文本的幫助。語(yǔ)音翻譯我們?cè)谟?xùn)練語(yǔ)音翻譯 (speech translation) 時(shí),用的時(shí)西班牙文轉(zhuǎn)英文的任務(wù)。我們給模型輸入西班牙語(yǔ)的語(yǔ)音,希望模型產(chǎn)生英文的語(yǔ)音,整個(gè)過(guò)程無(wú)需文本幫助。以下是幾個(gè)語(yǔ)音翻譯的例子,我們會(huì)展示正確答案 (ground truth) 與模型的預(yù)測(cè) (model prediction)。這些演示示例表明模型的預(yù)測(cè)捕捉到了正確答案的核心含義。語(yǔ)音修補(bǔ)在我們進(jìn)行語(yǔ)音修補(bǔ) (speech inpainting) 的實(shí)驗(yàn)中,我們特別選取超過(guò) 2.5 秒的音頻片段作為后續(xù)處理的目標(biāo)語(yǔ)音,并通過(guò)隨機(jī)選擇過(guò)程挑選出一段時(shí)長(zhǎng)介于 0.8 至 1.2 秒的語(yǔ)音片段。然后我們對(duì)選出的片段進(jìn)行遮蔽,模擬語(yǔ)音修補(bǔ)任務(wù)中缺失或受損的部分。我們使用詞錯(cuò)誤率 (WER) 和字符錯(cuò)誤率 (CER) 作為評(píng)估受損片段修復(fù)程度的指標(biāo)。對(duì) SpeechGen 生成的輸出與受損語(yǔ)音進(jìn)行比較分析,我們的模型可以顯著重建口語(yǔ)詞匯,將 WER 從 41.68% 降低到 28.61%,將 CER 從 25.10% 降低到 10.75%,如下表所示。這意味著我們提出的方法能夠顯著提高語(yǔ)音重建的能力,最終促進(jìn)語(yǔ)音輸出的準(zhǔn)確性和可理解性。下圖是一個(gè)展示樣例,上面的子圖是受損的語(yǔ)音,下面的子圖是 SpeechGen 產(chǎn)生的語(yǔ)音,可以看到,SpeechGen 很好地修復(fù)了受損的語(yǔ)音。語(yǔ)音連續(xù)我們將通過(guò) LJSpeech 展示語(yǔ)音連續(xù)任務(wù)的實(shí)際應(yīng)用。在訓(xùn)練提示(prompt)期間,我們的策略是讓模型只看到片段的種子片段(seed segment),這個(gè) seed segment 占據(jù)了語(yǔ)音總長(zhǎng)度的一個(gè)比例,我們將其稱為條件比率(condition ratio, r),并讓模型繼續(xù)產(chǎn)生后續(xù)的語(yǔ)音。以下,我們?yōu)槟故疽恍?shí)例。黑色的文字代表種子片段(seed segment),而紅色的文字則是 SpeechGen 生成的句子(這里的文字首先經(jīng)過(guò)語(yǔ)音識(shí)別得到的結(jié)果。在訓(xùn)練和推理過(guò)程中,模型完全進(jìn)行的是語(yǔ)音到語(yǔ)音的任務(wù),且完全不接收任何文字信息)。不同的條件比率使 SpeechGen 能夠生成不同長(zhǎng)度的語(yǔ)句以實(shí)現(xiàn)連貫性,并完成一句完整的話。從質(zhì)量角度看,可以觀察到生成的句子與種子片段在語(yǔ)法上基本一致,并且語(yǔ)義相關(guān)。雖然,生成的語(yǔ)音仍然無(wú)法完美地傳達(dá)一個(gè)完整的意思。我們預(yù)期這個(gè)問(wèn)題將在未來(lái)更強(qiáng)大的語(yǔ)音模型中得到解決。不足與未來(lái)方向語(yǔ)音語(yǔ)言模型和語(yǔ)音生成正處于蓬勃發(fā)展的階段,而我們的框架則提供了一種巧妙地利用強(qiáng)大語(yǔ)言模型進(jìn)行語(yǔ)音生成的可能性。然而,這個(gè)框架仍有一些尚待完善之處,也有許多值得我們深入研究的問(wèn)題。與基于文本的語(yǔ)言模型相比,語(yǔ)音語(yǔ)言模型目前還處于發(fā)展的初級(jí)階段。雖然我們提出的提示框架能激發(fā)語(yǔ)音語(yǔ)言模型做語(yǔ)音生成任務(wù),但并不能達(dá)到卓越的性能。不過(guò),隨著語(yǔ)音語(yǔ)言模型的不斷進(jìn)步,比如從 GSLM 到 Unit mBART 的大轉(zhuǎn)身,提示的表現(xiàn)有了明顯的提升。特別是以前對(duì) GSLM 而言具有挑戰(zhàn)性的任務(wù),現(xiàn)在在 Unit mBART 下表現(xiàn)出更好的性能。我們預(yù)計(jì)未來(lái)會(huì)出現(xiàn)更多先進(jìn)的語(yǔ)音語(yǔ)言模型嶄露頭角。超越內(nèi)容信息:當(dāng)前的語(yǔ)音語(yǔ)言模型并不能完全捕捉到說(shuō)話者和情感信息,這給當(dāng)前的語(yǔ)音提示框架在有效處理這些信息方面帶來(lái)了挑戰(zhàn)。為了克服這個(gè)限制,我們有一個(gè)方法:引入即插即用的模塊,專門為框架注入說(shuō)話者和情感信息。展望未來(lái),我們預(yù)計(jì)未來(lái)的語(yǔ)音語(yǔ)言模型將整合和利用這些內(nèi)容之外的信息,以提高性能并更好地處理語(yǔ)音生成任務(wù)中的說(shuō)話者和情感相關(guān)方面。提示生成的可能性:對(duì)于提示生成,我們有著靈活多變的選擇,可以集成各種類型的指示,包括文本和圖像指示。想象一下,我們可以訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),讓它用圖像或文本作為輸入,而不是像本文中那樣使用訓(xùn)練好的 embedding 當(dāng)作提示。這個(gè)訓(xùn)練好的網(wǎng)絡(luò)將成為我們的提示生成器,為框架增添了更多的多樣性。這樣的方式會(huì)讓提示生成變得更加有趣和豐富多彩。結(jié)論在本文中,我們探索了使用提示來(lái)解鎖語(yǔ)音語(yǔ)言模型在各種生成任務(wù)中的性能。我們提出了一個(gè)名為 SpeechGen 的統(tǒng)一框架,該框架僅有約 10M 的可訓(xùn)練參數(shù)。我們所提出的框架具有幾個(gè)令人滿意的特性,包括無(wú)需文本、多功能性、高效性、可轉(zhuǎn)移性和可負(fù)擔(dān)性。為了展示我們框架的能力,我們以 Unit mBART 為案例研究,并在三個(gè)不同的語(yǔ)音生成任務(wù)上進(jìn)行實(shí)驗(yàn):語(yǔ)音翻譯、語(yǔ)音修復(fù)和語(yǔ)音延續(xù)。當(dāng)這篇論文提交到 arXiv時(shí),Google 提出了一種更先進(jìn)的語(yǔ)音語(yǔ)言模型——SPECTRON,它為我們展示了語(yǔ)音語(yǔ)言模型在建模說(shuō)話人和情感等信息的可能性。這無(wú)疑是一個(gè)令人興奮的消息,隨著先進(jìn)語(yǔ)音語(yǔ)言模型的不斷提出,我們的統(tǒng)一框架具有巨大的潛力。

關(guān)鍵詞:

分享到:
?
  • 至少輸入5個(gè)字符
  • 表情

熱門資訊

亚洲欧洲日本国产_欧美亚洲精品一区_亚洲欧美成人影院_在线看欧美成人中文字幕视频

                欧美一区二区在线不卡| 国产精品一区二区男女羞羞无遮挡| 国产精品免费视频一区| 国产精品丝袜一区| 亚洲色图在线视频| 亚洲乱码中文字幕| 亚洲va韩国va欧美va精品| 日韩精品欧美精品| 精品一区二区三区在线播放| 国产成人综合视频| 91一区在线观看| 国产精品三级久久久久三级| 亚洲人成网站在线| 色综合天天天天做夜夜夜夜做| 欧美亚洲一区三区| 精品日韩在线一区| 一区在线观看视频| 亚洲成a人在线观看| 韩国中文字幕2020精品| yourporn久久国产精品| 国产精品日产欧美久久久久| 亚洲影院在线观看| 在线亚洲欧美专区二区| 日韩视频123| 国产精品网站在线播放| 亚洲综合色在线| 另类的小说在线视频另类成人小视频在线 | 蜜桃一区二区三区在线| 国产盗摄视频一区二区三区| 久久在线免费观看| 亚洲精品免费在线| 欧美性受xxxx黑人xyx性爽| 日韩精品在线一区二区| 国产精品久久久久久久久久免费看| 亚洲二区在线观看| 国产mv日韩mv欧美| 国产精品美女www爽爽爽| 午夜影院久久久| 欧美成人精精品一区二区频| 亚洲图片欧美激情| 久久国产日韩欧美精品| 2021久久国产精品不只是精品| 中文字幕一区二区在线观看| 欧美性色欧美a在线播放| 久久新电视剧免费观看| 亚洲一区二区五区| 国产精品456| 亚洲欧洲日产国码二区| 欧美日韩激情在线| 国产精品久久久久久久午夜片| 午夜精品一区二区三区电影天堂| 国产69精品一区二区亚洲孕妇| 亚洲欧洲日本在线| 欧美人牲a欧美精品| 中文字幕av在线一区二区三区| 日韩成人一区二区三区在线观看| 99久久久无码国产精品| 一二三区精品视频| 精品剧情在线观看| 午夜激情久久久| 91猫先生在线| 色婷婷久久综合| 国产日韩综合av| 六月丁香婷婷色狠狠久久| 国产蜜臀av在线一区二区三区| 欧美午夜片在线看| 亚洲欧美综合在线精品| 国产美女在线观看一区| 中文字幕一区二区三区不卡| 91精品免费观看| 亚洲国产精品一区二区久久恐怖片| 成人免费看的视频| 亚洲成人www| 久久精品一区二区三区不卡| 免费观看一级特黄欧美大片| 久久精品无码一区二区三区 | 精品动漫一区二区三区在线观看| 亚洲一级不卡视频| 91在线视频18| 欧美系列在线观看| 夜夜揉揉日日人人青青一国产精品| 成人午夜激情视频| 色综合色狠狠综合色| 中文字幕一区av| 国产成人精品影院| 五月婷婷欧美视频| 亚洲欧洲av在线| 成人黄色在线视频| 在线亚洲免费视频| 亚洲免费观看高清完整版在线观看| 成人国产精品免费观看动漫 | 久久精品视频免费| 国产一区二区三区在线观看免费 | 国产精品美女久久久久久久| 国产精品一级在线| 午夜电影一区二区三区| 亚洲天堂免费在线观看视频| 波多野结衣欧美| 欧美午夜精品一区| 亚洲成国产人片在线观看| 亚洲国产高清aⅴ视频| 欧美大片一区二区三区| 久久成人久久爱| 亚洲最新在线观看| 国产精品盗摄一区二区三区| 9色porny自拍视频一区二区| 欧美性一二三区| 午夜视频在线观看一区二区三区| 国产精品少妇自拍| 久久久国产一区二区三区四区小说| 国产一区二区三区四| 色哟哟一区二区在线观看| 夜夜爽夜夜爽精品视频| 国产精品久久久久久久久图文区 | 欧美顶级少妇做爰| 日本不卡视频在线| 一区二区三区精品视频| 亚洲桃色在线一区| 国产欧美一区二区三区在线老狼| 精品人伦一区二区色婷婷| 国产精品一区在线| 欧美日韩中文一区| 美女免费视频一区| 香蕉加勒比综合久久| 亚洲五码中文字幕| 亚洲免费观看在线视频| 亚洲欧洲www| 国产精品污www在线观看| 久久精品一区二区| 久久综合久久综合久久| 精品国内二区三区| 成人av电影在线| 日韩欧美视频一区| 国产 日韩 欧美大片| 制服丝袜日韩国产| 狠狠色狠狠色综合| 欧美日韩一区二区在线观看 | 91亚洲精品久久久蜜桃网站| 日韩欧美专区在线| 国产成人精品免费在线| 555夜色666亚洲国产免| 国产乱人伦偷精品视频免下载| 欧美性三三影院| 久久99国产精品成人| 欧美图片一区二区三区| 久久超碰97中文字幕| 欧美午夜精品免费| 国产在线看一区| 欧美巨大另类极品videosbest| 黄页网站大全一区二区| 欧美日韩国产大片| 国产成人午夜精品影院观看视频| 91精品国产91久久久久久一区二区| 国产一区二区三区| 91精品国产一区二区三区蜜臀 | 国产精品丝袜一区| 欧美国产丝袜视频| 国产精品电影一区二区三区| 国产精品久久毛片| 亚洲精品亚洲人成人网| 一区二区三区四区在线播放 | 日韩女同互慰一区二区| a级高清视频欧美日韩| 久久日韩粉嫩一区二区三区| 久久久91精品国产一区二区三区| 亚洲国产精品av| 国产精品成人在线观看| 一区二区三区免费| 亚洲国产精品久久久久婷婷884| 日韩专区欧美专区| 欧美日韩一区三区| 岛国一区二区三区| 国产亚洲一二三区| 国产精品免费av| 亚洲二区在线视频| 色狠狠av一区二区三区| 国产一区二区三区精品欧美日韩一区二区三区 | 激情综合网天天干| 日韩精品综合一本久道在线视频| 99精品国产热久久91蜜凸| 国产欧美日韩亚州综合| 中文字幕一区二区三区av| 婷婷开心激情综合| 欧美日韩aaaaaa| 91麻豆国产在线观看| 亚洲人成影院在线观看| 亚洲成av人片在www色猫咪| 美女网站视频久久| 日韩三级在线免费观看| 日本一区二区免费在线| 亚洲国产cao| 欧美日韩国产综合一区二区三区| 成人黄色一级视频| 国产精品伦一区二区三级视频| 一区二区视频在线| 久久国产精品色| 久久色成人在线| 一区二区三区四区中文字幕| 国产一区二区三区在线观看精品| 久久蜜桃av一区精品变态类天堂|