商學院

多知商學院創(chuàng)辦于2017年，面向教育行業(yè)創(chuàng)業(yè)者、從業(yè)者、投資人，課程體系涵蓋系統(tǒng)課、專題課、大講堂，旨在連接行業(yè)頭部，直擊深度思考，提升商業(yè)認知，催生自我迭代。

Open Talk

OpenTalk是多知組織的定期線下活動，邀請行業(yè)細分賽道頭部選手，分享行業(yè)新趨勢、時下最前沿的觀點和玩法，提供線上、線下多維度互動，也為多知讀者提供暢聊的見面機會。

吳恩達：AI 智能體工作流今年將有巨大進展

2024-03-25 09:16:51發(fā)布來源：多知網(wǎng) 作者：Mint

　　多知網(wǎng)3月25日消息，人工智能著名學者、斯坦福大學教授吳恩達近日在社交平臺X上發(fā)文稱，AI 智能體工作流將在今年推動人工智能取得巨大進步，甚至可能超過下一代基礎(chǔ)模型。

　　吳恩達認為，AI智能體是一個重要的趨勢，并呼吁所有從事 AI工作的人都應該關(guān)注它。為了更好地解釋AI智能體，吳恩達發(fā)布了一篇博客簡單闡述了原因。

　　博客中提到，目前主要在零樣本模式下使用大型語言模型(LLM)，但通過智能體工作流，可以要求 LLM 進行多次迭代文檔，包括規(guī)劃大綱、網(wǎng)絡(luò)搜索、寫初稿、修改草稿等步驟，這種迭代過程對于寫出好的文本至關(guān)重要。

　　同時，吳恩達還分享了一個對構(gòu)建智能體的設(shè)計模式進行分類的框架，包括反思、工具使用、規(guī)劃和多智能體協(xié)作。

　　https://www.deeplearning.ai/the-batch/issue-241/

　　以下為博客內(nèi)容：

　　當前，我們主要在零樣本模式下使用 LLM，提供 prompt，逐個 token 地生成最終輸出，沒有進行調(diào)整。

　　這類似于要求某人從頭到尾寫一篇文章，直接打字，不允許退格，并期望得到高質(zhì)量的結(jié)果。盡管有困難，LLM 在這項任務(wù)上仍然表現(xiàn)得非常好!

　　然而，通過智能體工作流，我們可以要求 LLM 多次迭代文檔。例如，它可能需要執(zhí)行一系列步驟：

　　規(guī)劃大綱;

　　決定需要進行哪些網(wǎng)絡(luò)搜索(如果需要)，來收集更多信息;

　　寫初稿;

　　通讀初稿，找出不合理的論點或無關(guān)信息;

　　修改草稿;

　　......

　　這個迭代過程對于大多數(shù)人類作家寫出好的文本至關(guān)重要。對于人工智能來說，這種迭代工作流會比單次編寫產(chǎn)生更好的結(jié)果。

　　Cognition AI 團隊發(fā)布的首個 AI 軟件工程師 Devin 最近在社交媒體上引起了廣泛關(guān)注。吳恩達的團隊一直密切關(guān)注 AI 編寫代碼的發(fā)展，并分析了多個研究團隊的結(jié)果，重點關(guān)注算法在廣泛使用的 HumanEval 編碼基準上的表現(xiàn)。

　　如下圖所示，吳恩達的團隊發(fā)現(xiàn)：GPT-3.5(零樣本)的正確率為 48.1%，GPT-4(零樣本)的表現(xiàn)更好，為 67.0%。然而，相比于迭代智能體工作流，從 GPT-3.5 到 GPT-4 的改進不大。事實上，在智能體循環(huán)(agent loop)中，GPT-3.5 的正確率高達 95.1%。

　　開源智能體工具和有關(guān)智能體的學術(shù)文獻正在激增。這是一個令人興奮的時刻，也是一個令人困惑的時刻。為了幫助人們正確看待這項工作，吳恩達分享了一個對構(gòu)建智能體的設(shè)計模式進行分類的框架。

　　簡單來說，這個框架包括：

　　反思：LLM 檢查自己的工作，以提出改進方法。

　　工具使用：LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動或處理數(shù)據(jù)。

　　規(guī)劃：LLM 提出并執(zhí)行一個多步驟計劃來實現(xiàn)目標(例如，撰寫論文大綱，然后進行在線研究，然后撰寫草稿......)。

　　多智能體協(xié)作：多個 AI 智能體一起工作，分配任務(wù)并討論和辯論想法，以提出比單個智能體更好的解決方案。

　　吳恩達表示 AI Fund 已在許多應用程序中成功使用這些模式，后續(xù)他將詳細闡述這些設(shè)計模式。

商學院

Open Talk

吳恩達：AI 智能體工作流今年將有巨大進展

相關(guān)閱讀