史丹佛 Smallville 虛擬小鎮 Part.4 驗證

筆記第四部分對應「Generative Agents: Interactive Simulacra of Human Behavior」中的 Evaluation 和 End-to-End Evaluation,第一部分主要驗證他們在設計的框架下,是否可以按照三個機制(memory stream, reflection, and plan) 來運作;第二部分是實驗團隊模擬這 25 個 Agent 持續互動兩天後,觀察他們的變化。

Evaluation

  • 評估方法: 透過訪談 Agent 來測試。Agent 需要針對自然語言問題進行回答,這考驗了他們 Retrieve 與 Synthesize 資訊的能力。

  • 核心依變項: Believability。

  • 訪談的五大類別:

    1. Self-knowledge: 測試對自身人設的理解。
      • 舉例: 「請自我介紹」或「描述你典型的平日行程」。
    2. Memory: 測試檢索特定事件或對話的能力。
      • 舉例: 「誰在競選市長?」
    3. Plans: 測試檢索長期計畫的能力。
      • 舉例: 「明天早上十點你在做什麼?」
    4. Reactions: 測試對突發狀況的反應是否符合邏輯。
      • 舉例: 「你的早餐燒焦了!你會怎麼辦?」
    5. Reflections: 測試對他人與自我關係的深層理解。
      • 舉例: 「如果你要跟最近見過的一個人相處一小時,會是誰?為什麼?」

        實驗控制條件

研究將完整架構與以下幾種消融架構以及人類表現進行比較:

  1. No Observation, No Reflection, No Planning: 完全沒有記憶庫,代表過去 LLM Agent 的技術水準。
  2. No Reflection, No Planning: 僅有 Observation記憶。
  3. No Reflection: 擁有觀察與計畫,但沒有反思能力。
  4. Human-authored: 由人類(Crowdworker)代入角色撰寫的回答,作為基準線。

Analysis and Results

  • 評分機制: 使用 TrueSkill 評分系統(類似 Elo 等級分)。
  • 排名結果: Full Architecture (μ = 29.89) > No Reflection > No Reflection/Planning > Human (μ = 22.95) > No Obs/Ref/Plan。

    • 關鍵發現: 完整的 AI 架構表現竟然優於人類代寫的表現,且每一種機制的加入都顯著提升了 Believability
      • 補充說明:這並不代表 AI 在角色扮演的智力上已全面超越人類。人類受試者分數較低,是因為他們受限於「短期記憶閱讀」,在閱讀長篇背景設定後反而容易忘記細節。相較之下,Agent 系統配備了「外部記憶庫與檢索(Retrieval)系統」,能精準提取資訊。這證明的是「系統架構的有效性」,而非單純的 AI 智力大於人類。

定性分析結論:

  • Memory with Embellishments: Agent 能記住事情,但有時會產生 Hallucination

    • 舉例: Isabella 記得 Sam 在競選,但卻「幻想」出 Sam 明天要發表聲明。
    • 舉例(知識混淆): Agent Yuriko 將鄰居 Adam Smith 誤認為是寫《國富論》的那位 18 世紀經濟學家。
  • Reflection is Required for Synthesis:

    • 舉例: 當詢問要送 Wolfgang 什麼生日禮物時,沒有 Reflection 的 Maria 說她不知道對方喜歡什麼;但有 Reflection 的 Maria 能推論出對方喜歡數學音樂,並建議送相關書籍或軟體。

End-to-End Evaluation

此階段讓 25 個 Agent 在 Smallville 持續互動兩天,觀察社群行為的演變。

Emergent Social Behaviors

研究者針對三個維度進行測量:

  1. Information Diffusion

    • 實驗設計: 初始狀態只有兩人知道特定訊息(Sam 要競選市長、Isabella 要辦情人節派對)。兩天後訪談所有 Agent 是否知情。
    • 結果: * 市長競選訊息:從 4%(1人)傳播至 32%(8人)。
      • 派對訊息:從 4%(1人)傳播至 52%(13人)。
    • 驗證: 透過檢查 Memory Stream 確認 Agent 是透過對話得知,而非 Hallucination(幻覺)。
  2. Relationship Formation
    • 測量方式: 計算 Network Density(網路密度)。公式如下: \(\eta = \frac{2 \cdot |E|}{|V| \cdot (|V| - 1)}\)
    • where 𝑉 is the number of vertices, and 𝐸 is the number of edges in the graph
    • 結果: 網路密度從初始的 0.167 增加到 0.74
    • 發現: Agent 不僅記住了原本認識的人,還在互動中建立了新關係。
  3. Agent Coordination

    • 實驗: 觀察 Agent 是否會因為聽說派對而調整計畫準時出席。
    • 結果: 12 位受邀者中有 5 位 實際出席。
    • 未出席原因: 有些 Agent 因為計畫衝突(如:忙於作畫)而拒絕,有些則在當天忘記將其排入計畫中。

Boundaries and Errors

研究者發現了三種常見的異常行為模式,需特別注意的是,這些問題很大程度受限於當時實驗使用的 2023 年早期 gpt-3.5-turbo 模型能力的時代限制,如 Context Window 僅約 4K 且受制於過度的 RLHF 調整):

  1. Retrieval 與空間推理挑戰:

    隨著記憶量增加,Agent 有時難以檢索到最精確的場域資訊。

    • 舉例: Agent 原本習慣在 Cafe 吃午餐,但後來聽說附近有個酒吧,就決定去酒吧吃午餐,即使 酒吧在設定上是傍晚聚會的場所(產生了「下午就開始喝酒」的怪異行為)。
  2. 物理與社會規範的誤判 :

    某些環境規範很難單純透過自然語言精確傳達。

    • 舉例 1: 宿舍浴室雖然標註為「Dorm Bathroom」,但其實只能容納一人,Agent 卻因為現實中宿舍浴室通常很大,而選擇在有人使用時進入。
    • 舉例 2: Agent 有時會無視營業時間,在下午 5 點關門後進入商店。
  3. Instruction Tuning的副作用:

    LLM 受過人類安全與禮貌指令的微調,導致 Agent 表現得「太過有禮貌」且「過度合作」。

    • 對話風格: 即使是夫妻間(Mei 與 John)的對話也顯得異常正式與客套。
    • 失去自我: Isabella 為了保持合作,接受了許多不符合她人設的派對建議(如:莎士比亞朗誦會),這導致她的個人特質在長時間模擬中被他人的興趣所稀釋。

留言

Loading comments...