依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時具備了從外部獲取知識的能力。

字節(jié)跳動推出大模型同傳智能體,“接近人類同聲傳譯水平”

2024-07-30 09:13:35發(fā)布     來源:多知網    作者:哆啦  

  多知7月30日消息,近日,字節(jié)跳動 ByteDance Research 團隊的研究人員推出了端到端同聲傳譯智能體:CLASI(Cross Language Agent - Simultaneous Interpretation) ,效果已接近專業(yè)人工水平的同聲傳譯。

  此前,市面上傳統(tǒng)的同聲傳譯軟件通常采用級聯(lián)模型(cascaded model)的方法,即先進行自動語音識別(Automatic Speech Recognition, ASR),然后再進行機器翻譯(Machine Translation, MT)。這種方法存在一個顯著的問題——錯誤傳播。ASR 過程中的錯誤會直接影響到后續(xù)的翻譯質量,導致嚴重的誤差累積。此外,傳統(tǒng)的同聲傳譯系統(tǒng)由于受限于低延時的要求,通常只使用了性能較差的小模型,這在應對復雜多變的實際應用場景時存在瓶頸。

  而CLASI 采用了端到端的架構,規(guī)避了級聯(lián)模型中錯誤傳播的問題,依托于豆包基座大模型和豆包大模型語音組的語音理解能力,同時具備了從外部獲取知識的能力。從字節(jié)方面釋出的幾則視頻中可以看到,無論是繞口令、文言文,還是充滿即興和靈感的隨意聊天,模型都能流暢自然地給出準確的翻譯結果。

  系統(tǒng)架構上,CLASI 采用了基于 LLM 智能體的架構,將同聲傳譯定義為一系列簡單且協(xié)調的操作,包括讀入音頻流,檢索(可選),讀取記憶體,更新記憶體,輸出等。整個流程由大語言模型自主控制,從而在實時性和翻譯質量之間達到了高效的平衡。該系統(tǒng)能夠根據實際需求靈活調整各個環(huán)節(jié)的處理策略,確保在高效傳遞信息的同時,保持翻譯內容的準確性和連貫性。CLASI 底層模型是一個 Encoder-conditioned LLM,在海量的無監(jiān)督和有監(jiān)督數據上進行了預訓練。

截屏2024-07-30 09.14.49.png