INTERSPEECH2025 多語言會(huì)話語音語言模型研討會(huì)
大語言模型(LLMs)在多種下游任務(wù)中展示了卓越的能力,成為語言理解和生成的強(qiáng)大基礎(chǔ)模型。此外,越來越多的研究關(guān)注將大語言模型應(yīng)用于語音和音頻處理任務(wù),如自動(dòng)語音識(shí)別(ASR)、音頻描述和語音對話模型等新興領(lǐng)域。
然而,現(xiàn)實(shí)世界的對話語音數(shù)據(jù)對于開發(fā)基于LLM的語音對話模型至關(guān)重要,因?yàn)檫@些數(shù)據(jù)能夠體現(xiàn)人類交流的復(fù)雜性,包括自然的停頓、打斷、說話者重疊以及多樣的對話風(fēng)格。此類數(shù)據(jù)的稀缺性,尤其是在多語言環(huán)境下,成為推動(dòng)該領(lǐng)域發(fā)展的重大挑戰(zhàn)。
現(xiàn)實(shí)世界對話語音的重要性不僅限于技術(shù)進(jìn)步——它對于構(gòu)建能夠在多語言、動(dòng)態(tài)和豐富語境的環(huán)境中自然理解和響應(yīng)的人工智能系統(tǒng)至關(guān)重要。對于下一代人機(jī)交互系統(tǒng)尤為重要,因?yàn)樵谶@些系統(tǒng)中,口語對話是主要的交流方式。
因此,本次研討會(huì)旨在通過舉辦構(gòu)建多語言對話語音語言模型的挑戰(zhàn),并發(fā)布一個(gè)真實(shí)世界的多語言對話語音數(shù)據(jù)集,來彌合這一差距。
正在報(bào)名