智能體(AI Agent)是一種能夠自主行動、感知環境、做出決策并與環境交互的計算機系統或實體,通常依賴大型語言模型作為其核心決策和處理單元,具備獨立思考、調用工具去逐步完成給定目標的能力。作為未來大模型最主流的使用方式,智能體備受業界關注。2024年智能體技術被納入《國家人工智能產業綜合標準化體系建設指南(征求意見稿)》,在標準引領下未來智能體技術將高質量發展并助推大模型加速賦能千行百業。本文通過闡述智能體技術、應用現狀及產品演進,分析了智能體技術未來發展方向和面臨的挑戰。

1、智能體技術
1.1 智能體工作原理
大腦(Brain):大腦主要由一個大型語言模型LLM組成,不僅存儲知識和記憶,還承擔著信息處理和決策等功能,并可以呈現推理和規劃的過程,能很好地應對未知任務。感知(Perception):感知模塊的核心目的是將智能體的感知空間從純文字領域擴展到包括文字、聽覺和視覺模式在內的多模態領域。
行動(Action):在智能體的構建過程中,行動模塊接收大腦模塊發送的行動序列,并執行與環境互動的行動。
1.2 智能體技術特點
大模型通常通過Prompt(提示)與用戶進行交互,輸出效果受限于用戶提問的清晰度。信息處理方面,僅處理靜態或流式數據輸入,不涉及直接的環境交互,不能自主地采取行動。技術應用方面,行業知識缺乏、易出現幻覺、提示詞工程學習門檻高成為大模型破圈的阻礙。而基于大模型的智能體,其設計目標是實現對環境的有效互動,通過感知模塊收集環境信息,并通過行動模塊來改變環境狀態,整合了感知、決策、行動等多個環節,因而智能體在自主能力、決策能力、協作交互等方面展現出優勢,彌補了大模型的不足,成為人工智能界的“行動派”。
2、智能體技術應用
根據面向的對象、流程不同,智能體主要應用在三種場景:
2.1 單智能體應用
一個特定的環境中,僅有一個智能體進行感知、學習和行動,需要獨立地與環境進行交互,并根據環境的反饋來優化其行為策略,以實現預設的目標。可應用在交互性質場景,如游戲AI(如圍棋、電子游戲等)、自動駕駛汽車、機器人控制等。單智能體系統的復雜性相對較低,某些任務中更容易實現和部署。
2.2 多智能體系統
由多個智能體(軟件程序、機器人或其他具有自治性的實體)組成的復雜的分布式系統,每個智能體都具有自己的感知、決策和行動能力,并且可以與其他智能體進行通信、信息共享、交互和協作,以實現共同的目標或任務。通常后端設定不同角色的智能體,前端通過對話鏈協同工作,能夠完成單個智能體難以完成或無法完成的任務,具有更高的靈活性、可擴展性和魯棒性。可應用在分布式控制、智能交通、智能制造、自然語言處理等領域。
2.3 智能體平臺
構建智能體系統的集成化平臺,用戶在平臺上定義并部署各類智能體,平臺通過策略性流程,優化智能體組合以適應特定任務需求,各智能體可扮演不同專業角色,在任務協商和角色分配后,協同執行任務并完成結果整合。適用于智能體開發、企業定制化解決方案場景。
3、智能體產品演進從時間維度智能體主流產品的演進大致可劃分為三個階段:
3.1 構建智能體框架階段
內2023年3月AutoGPT框架項目發布,包括需求下發、自主運行、結果輸出三個核心模塊。功能上主要是通過Prompt向ChatGPT下發任務,ChatGPT通過大模型對語義內容理解,輸出詳細的解決方案,經過邏輯判斷選擇優先執行的步驟,生成可執行的操作或指令,并調用外部資源或工具完成指令操作。AutoGPT框架把大模型的自然語言理解、內容生成、邏輯推理等核心能力外推到具體場景,輔以感知與行動技術,有端到端解決問題的潛力,被認為是大模型落地的重要模式。
3.2 GPTs智能體雛形階段
2023年11月OpenAI推出Assistant API,后續發布GPTs服務,允許用戶構建個人自定義GPT助手,無需編碼,用戶通過上傳個人數據以及自定義訓練,能實現垂類模型的快速搭建,大幅度降低AI應用的創作門檻,進一步推高智能體的熱潮。
3.3 個人智能體孵化階段
2023年12月聯想公布了個人智能體“小樂同學”的進展。個人智能體,基于內嵌于終端的本地大模型打造,精準理解用戶意圖,并將意圖轉換為相應的任務組合,分解任務并識別任務完成的路徑,通過查詢本地知識庫、調用設備API以及合適的模型或應用來執行相應的任務,并將相應的結果返回給智能體,智能體完成整合后反饋給用戶。與云端模型能力相比,整個過程完全不用上云,不侵犯用戶個人隱私,并對硬件有很強的控制能力。
4、發展方向和面臨的挑戰
在不久的將來,智能體將成為AI OS系統的最小工作單元,嵌入自主智能體的軟件極有可能改變現有的使用方式,從用戶適應軟件變成軟件適應用戶習慣,真正成為個人助理。進而系統級別的智能體有望直接操作App或者子智能體,在PC、手機、自動駕駛領域預計有廣泛的應用場景。盡管大語言模型智能體已經取得了重要的進展,但是在實際應用中仍然面臨安全、倫理、計算資源消耗、復雜工具使用、多智能體交互機制、模型適配方法、面向真實世界的智能體模擬等一系列技術挑戰。
關注官方微信

