史丹佛 Smallville 虛擬小鎮 Part.4 驗證
筆記第四部分對應「Generative Agents: Interactive Simulacra of Human Behavior」中的 Evaluation 和 End-to-End Evaluation,第一部分主要驗證他們在設計的框架下,是否可以按照三個機制(memory stream, reflection, and plan) 來運作;第二部分是實驗團隊模擬這 25 個 Agent 持續互動兩天後,觀察他們的變化。
Evaluation
-
評估方法: 透過訪談 Agent 來測試。Agent 需要針對自然語言問題進行回答,這考驗了他們 Retrieve 與 Synthesize 資訊的能力。
-
核心依變項: Believability。
-
訪談的五大類別:
- Self-knowledge: 測試對自身人設的理解。
- 舉例: 「請自我介紹」或「描述你典型的平日行程」。
- Memory: 測試檢索特定事件或對話的能力。
- 舉例: 「誰在競選市長?」
- Plans: 測試檢索長期計畫的能力。
- 舉例: 「明天早上十點你在做什麼?」
- Reactions: 測試對突發狀況的反應是否符合邏輯。
- 舉例: 「你的早餐燒焦了!你會怎麼辦?」
- Reflections: 測試對他人與自我關係的深層理解。
- 舉例: 「如果你要跟最近見過的一個人相處一小時,會是誰?為什麼?」
實驗控制條件
- 舉例: 「如果你要跟最近見過的一個人相處一小時,會是誰?為什麼?」
- Self-knowledge: 測試對自身人設的理解。
研究將完整架構與以下幾種消融架構以及人類表現進行比較:
- No Observation, No Reflection, No Planning: 完全沒有記憶庫,代表過去 LLM Agent 的技術水準。
- No Reflection, No Planning: 僅有 Observation記憶。
- No Reflection: 擁有觀察與計畫,但沒有反思能力。
- Human-authored: 由人類(Crowdworker)代入角色撰寫的回答,作為基準線。
Analysis and Results
- 評分機制: 使用 TrueSkill 評分系統(類似 Elo 等級分)。
-
排名結果: Full Architecture (μ = 29.89) > No Reflection > No Reflection/Planning > Human (μ = 22.95) > No Obs/Ref/Plan。
- 關鍵發現: 完整的 AI 架構表現竟然優於人類代寫的表現,且每一種機制的加入都顯著提升了 Believability。
- 補充說明:這並不代表 AI 在角色扮演的智力上已全面超越人類。人類受試者分數較低,是因為他們受限於「短期記憶閱讀」,在閱讀長篇背景設定後反而容易忘記細節。相較之下,Agent 系統配備了「外部記憶庫與檢索(Retrieval)系統」,能精準提取資訊。這證明的是「系統架構的有效性」,而非單純的 AI 智力大於人類。
- 關鍵發現: 完整的 AI 架構表現竟然優於人類代寫的表現,且每一種機制的加入都顯著提升了 Believability。
定性分析結論:
-
Memory with Embellishments: Agent 能記住事情,但有時會產生 Hallucination。
- 舉例: Isabella 記得 Sam 在競選,但卻「幻想」出 Sam 明天要發表聲明。
- 舉例(知識混淆): Agent Yuriko 將鄰居 Adam Smith 誤認為是寫《國富論》的那位 18 世紀經濟學家。
-
Reflection is Required for Synthesis:
- 舉例: 當詢問要送 Wolfgang 什麼生日禮物時,沒有 Reflection 的 Maria 說她不知道對方喜歡什麼;但有 Reflection 的 Maria 能推論出對方喜歡數學音樂,並建議送相關書籍或軟體。
End-to-End Evaluation
此階段讓 25 個 Agent 在 Smallville 持續互動兩天,觀察社群行為的演變。
Emergent Social Behaviors
研究者針對三個維度進行測量:
-
Information Diffusion
- 實驗設計: 初始狀態只有兩人知道特定訊息(Sam 要競選市長、Isabella 要辦情人節派對)。兩天後訪談所有 Agent 是否知情。
- 結果: * 市長競選訊息:從 4%(1人)傳播至 32%(8人)。
- 派對訊息:從 4%(1人)傳播至 52%(13人)。
- 驗證: 透過檢查 Memory Stream 確認 Agent 是透過對話得知,而非 Hallucination(幻覺)。
- Relationship Formation
- 測量方式: 計算 Network Density(網路密度)。公式如下: \(\eta = \frac{2 \cdot |E|}{|V| \cdot (|V| - 1)}\)
-
where 𝑉 is the number of vertices, and 𝐸 is the number of edges in the graph - 結果: 網路密度從初始的 0.167 增加到 0.74。
- 發現: Agent 不僅記住了原本認識的人,還在互動中建立了新關係。
-
Agent Coordination
- 實驗: 觀察 Agent 是否會因為聽說派對而調整計畫準時出席。
- 結果: 12 位受邀者中有 5 位 實際出席。
- 未出席原因: 有些 Agent 因為計畫衝突(如:忙於作畫)而拒絕,有些則在當天忘記將其排入計畫中。
Boundaries and Errors
研究者發現了三種常見的異常行為模式,需特別注意的是,這些問題很大程度受限於當時實驗使用的 2023 年早期 gpt-3.5-turbo 模型能力的時代限制,如 Context Window 僅約 4K 且受制於過度的 RLHF 調整):
-
Retrieval 與空間推理挑戰:
隨著記憶量增加,Agent 有時難以檢索到最精確的場域資訊。
- 舉例: Agent 原本習慣在 Cafe 吃午餐,但後來聽說附近有個酒吧,就決定去酒吧吃午餐,即使 酒吧在設定上是傍晚聚會的場所(產生了「下午就開始喝酒」的怪異行為)。
-
物理與社會規範的誤判 :
某些環境規範很難單純透過自然語言精確傳達。
- 舉例 1: 宿舍浴室雖然標註為「Dorm Bathroom」,但其實只能容納一人,Agent 卻因為現實中宿舍浴室通常很大,而選擇在有人使用時進入。
- 舉例 2: Agent 有時會無視營業時間,在下午 5 點關門後進入商店。
-
Instruction Tuning的副作用:
LLM 受過人類安全與禮貌指令的微調,導致 Agent 表現得「太過有禮貌」且「過度合作」。
- 對話風格: 即使是夫妻間(Mei 與 John)的對話也顯得異常正式與客套。
- 失去自我: Isabella 為了保持合作,接受了許多不符合她人設的派對建議(如:莎士比亞朗誦會),這導致她的個人特質在長時間模擬中被他人的興趣所稀釋。
留言
Loading comments...