依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時具備了從外部獲取知識的能力。
多知7月30日消息,近日,字節(jié)跳動 ByteDance Research 團隊的研究人員推出了端到端同聲傳譯智能體:CLASI(Cross Language Agent - Simultaneous Interpretation) ,效果已接近專業(yè)人工水平的同聲傳譯。
此前,市面上傳統(tǒng)的同聲傳譯軟件通常采用級聯(lián)模型(cascaded model)的方法,即先進行自動語音識別(Automatic Speech Recognition, ASR),然后再進行機器翻譯(Machine Translation, MT)。這種方法存在一個顯著的問題——錯誤傳播。ASR 過程中的錯誤會直接影響到后續(xù)的翻譯質(zhì)量,導(dǎo)致嚴(yán)重的誤差累積。此外,傳統(tǒng)的同聲傳譯系統(tǒng)由于受限于低延時的要求,通常只使用了性能較差的小模型,這在應(yīng)對復(fù)雜多變的實際應(yīng)用場景時存在瓶頸。
而CLASI 采用了端到端的架構(gòu),規(guī)避了級聯(lián)模型中錯誤傳播的問題,依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時具備了從外部獲取知識的能力。從字節(jié)方面釋出的幾則視頻中可以看到,無論是繞口令、文言文,還是充滿即興和靈感的隨意聊天,模型都能流暢自然地給出準(zhǔn)確的翻譯結(jié)果。
系統(tǒng)架構(gòu)上,CLASI 采用了基于 LLM 智能體的架構(gòu),將同聲傳譯定義為一系列簡單且協(xié)調(diào)的操作,包括讀入音頻流,檢索(可選),讀取記憶體,更新記憶體,輸出等。整個流程由大語言模型自主控制,從而在實時性和翻譯質(zhì)量之間達到了高效的平衡。該系統(tǒng)能夠根據(jù)實際需求靈活調(diào)整各個環(huán)節(jié)的處理策略,確保在高效傳遞信息的同時,保持翻譯內(nèi)容的準(zhǔn)確性和連貫性。CLASI 底層模型是一個 Encoder-conditioned LLM,在海量的無監(jiān)督和有監(jiān)督數(shù)據(jù)上進行了預(yù)訓(xùn)練。