吳恩達還分享了一個對構建智能體的設計模式進行分類的框架,包括反思、工具使用、規(guī)劃和多智能體協(xié)作。

吳恩達:AI 智能體工作流今年將有巨大進展

2024-03-25 09:16:51發(fā)布     來源:多知網    作者:Mint  

  多知網3月25日消息,人工智能著名學者、斯坦福大學教授吳恩達近日在社交平臺X上發(fā)文稱,AI 智能體工作流將在今年推動人工智能取得巨大進步,甚至可能超過下一代基礎模型。

371.jpeg

  吳恩達認為,AI智能體是一個重要的趨勢,并呼吁所有從事 AI工作的人都應該關注它。為了更好地解釋AI智能體,吳恩達發(fā)布了一篇博客簡單闡述了原因。

  博客中提到,目前主要在零樣本模式下使用大型語言模型(LLM),但通過智能體工作流,可以要求 LLM 進行多次迭代文檔,包括規(guī)劃大綱、網絡搜索、寫初稿、修改草稿等步驟,這種迭代過程對于寫出好的文本至關重要。

  同時,吳恩達還分享了一個對構建智能體的設計模式進行分類的框架,包括反思、工具使用、規(guī)劃和多智能體協(xié)作。

  https://www.deeplearning.ai/the-batch/issue-241/

  以下為博客內容:

  當前,我們主要在零樣本模式下使用 LLM,提供 prompt,逐個 token 地生成最終輸出,沒有進行調整。

  這類似于要求某人從頭到尾寫一篇文章,直接打字,不允許退格,并期望得到高質量的結果。盡管有困難,LLM 在這項任務上仍然表現(xiàn)得非常好!

  然而,通過智能體工作流,我們可以要求 LLM 多次迭代文檔。例如,它可能需要執(zhí)行一系列步驟:

  規(guī)劃大綱;

  決定需要進行哪些網絡搜索(如果需要),來收集更多信息;

  寫初稿;

  通讀初稿,找出不合理的論點或無關信息;

  修改草稿;

  ......

  這個迭代過程對于大多數(shù)人類作家寫出好的文本至關重要。對于人工智能來說,這種迭代工作流會比單次編寫產生更好的結果。

  Cognition AI 團隊發(fā)布的首個 AI 軟件工程師 Devin 最近在社交媒體上引起了廣泛關注。吳恩達的團隊一直密切關注 AI 編寫代碼的發(fā)展,并分析了多個研究團隊的結果,重點關注算法在廣泛使用的 HumanEval 編碼基準上的表現(xiàn)。

  如下圖所示,吳恩達的團隊發(fā)現(xiàn):GPT-3.5(零樣本)的正確率為 48.1%,GPT-4(零樣本)的表現(xiàn)更好,為 67.0%。然而,相比于迭代智能體工作流,從 GPT-3.5 到 GPT-4 的改進不大。事實上,在智能體循環(huán)(agent loop)中,GPT-3.5 的正確率高達 95.1%。

unnamed--55-.jpeg

  開源智能體工具和有關智能體的學術文獻正在激增。這是一個令人興奮的時刻,也是一個令人困惑的時刻。為了幫助人們正確看待這項工作,吳恩達分享了一個對構建智能體的設計模式進行分類的框架。

  簡單來說,這個框架包括:

  反思:LLM 檢查自己的工作,以提出改進方法。

  工具使用:LLM 擁有網絡搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動或處理數(shù)據(jù)。

  規(guī)劃:LLM 提出并執(zhí)行一個多步驟計劃來實現(xiàn)目標(例如,撰寫論文大綱,然后進行在線研究,然后撰寫草稿......)。

  多智能體協(xié)作:多個 AI 智能體一起工作,分配任務并討論和辯論想法,以提出比單個智能體更好的解決方案。

  吳恩達表示 AI Fund 已在許多應用程序中成功使用這些模式,后續(xù)他將詳細闡述這些設計模式。