筆記第四部分對應「Generative Agents: Interactive Simulacra of Human Behavior」中的 Evaluation 和 End-to-End Evaluation，第一部分主要驗證他們在設計的框架下，是否可以按照三個機制（memory stream, reflection, and plan) 來運作；第二部分是實驗團隊模擬這 25 個 Agent 持續互動兩天後，觀察他們的變化。

Evaluation

評估方法： 透過訪談 Agent 來測試。Agent 需要針對自然語言問題進行回答，這考驗了他們 Retrieve 與 Synthesize 資訊的能力。
核心依變項： Believability。
訪談的五大類別：
1. Self-knowledge： 測試對自身人設的理解。
  - 舉例： 「請自我介紹」或「描述你典型的平日行程」。
2. Memory： 測試檢索特定事件或對話的能力。
  - 舉例： 「誰在競選市長？」
3. Plans： 測試檢索長期計畫的能力。
  - 舉例： 「明天早上十點你在做什麼？」
4. Reactions： 測試對突發狀況的反應是否符合邏輯。
  - 舉例： 「你的早餐燒焦了！你會怎麼辦？」
5. Reflections： 測試對他人與自我關係的深層理解。
  - 舉例： 「如果你要跟最近見過的一個人相處一小時，會是誰？為什麼？」
    實驗控制條件

研究將完整架構與以下幾種消融架構以及人類表現進行比較：

No Observation, No Reflection, No Planning： 完全沒有記憶庫，代表過去 LLM Agent 的技術水準。
No Reflection, No Planning： 僅有 Observation記憶。
No Reflection： 擁有觀察與計畫，但沒有反思能力。
Human-authored： 由人類（Crowdworker）代入角色撰寫的回答，作為基準線。

Analysis and Results

評分機制： 使用 TrueSkill 評分系統（類似 Elo 等級分）。
排名結果： Full Architecture (μ = 29.89) > No Reflection > No Reflection/Planning > Human (μ = 22.95) > No Obs/Ref/Plan。
- 關鍵發現： 完整的 AI 架構表現竟然優於人類代寫的表現，且每一種機制的加入都顯著提升了 Believability。
  - 補充說明：這並不代表 AI 在角色扮演的智力上已全面超越人類。人類受試者分數較低，是因為他們受限於「短期記憶閱讀」，在閱讀長篇背景設定後反而容易忘記細節。相較之下，Agent 系統配備了「外部記憶庫與檢索（Retrieval）系統」，能精準提取資訊。這證明的是「系統架構的有效性」，而非單純的 AI 智力大於人類。

定性分析結論：

Memory with Embellishments： Agent 能記住事情，但有時會產生 Hallucination。
- 舉例： Isabella 記得 Sam 在競選，但卻「幻想」出 Sam 明天要發表聲明。
- 舉例（知識混淆）： Agent Yuriko 將鄰居 Adam Smith 誤認為是寫《國富論》的那位 18 世紀經濟學家。
Reflection is Required for Synthesis：
- 舉例： 當詢問要送 Wolfgang 什麼生日禮物時，沒有 Reflection 的 Maria 說她不知道對方喜歡什麼；但有 Reflection 的 Maria 能推論出對方喜歡數學音樂，並建議送相關書籍或軟體。

End-to-End Evaluation

此階段讓 25 個 Agent 在 Smallville 持續互動兩天，觀察社群行為的演變。

研究者針對三個維度進行測量：

Information Diffusion
- 實驗設計： 初始狀態只有兩人知道特定訊息（Sam 要競選市長、Isabella 要辦情人節派對）。兩天後訪談所有 Agent 是否知情。
- 結果： * 市長競選訊息：從 4%（1人）傳播至 32%（8人）。
  - 派對訊息：從 4%（1人）傳播至 52%（13人）。
- 驗證： 透過檢查 Memory Stream 確認 Agent 是透過對話得知，而非 Hallucination（幻覺）。

Relationship Formation

測量方式： 計算 Network Density（網路密度）。公式如下： \(\eta = \frac{2 \cdot |E|}{|V| \cdot (|V| - 1)}\)

where

𝑉

is the number of vertices, and

𝐸

is the number of edges in the graph

結果： 網路密度從初始的 0.167 增加到 0.74。
發現： Agent 不僅記住了原本認識的人，還在互動中建立了新關係。

Agent Coordination
- 實驗： 觀察 Agent 是否會因為聽說派對而調整計畫準時出席。
- 結果： 12 位受邀者中有 5 位 實際出席。
- 未出席原因： 有些 Agent 因為計畫衝突（如：忙於作畫）而拒絕，有些則在當天忘記將其排入計畫中。

Boundaries and Errors

研究者發現了三種常見的異常行為模式，需特別注意的是，這些問題很大程度受限於當時實驗使用的 2023 年早期 gpt-3.5-turbo 模型能力的時代限制，如 Context Window 僅約 4K 且受制於過度的 RLHF 調整）：

Retrieval 與空間推理挑戰：

隨著記憶量增加，Agent 有時難以檢索到最精確的場域資訊。
- 舉例： Agent 原本習慣在 Cafe 吃午餐，但後來聽說附近有個酒吧，就決定去酒吧吃午餐，即使酒吧在設定上是傍晚聚會的場所（產生了「下午就開始喝酒」的怪異行為）。
物理與社會規範的誤判：

某些環境規範很難單純透過自然語言精確傳達。
- 舉例 1： 宿舍浴室雖然標註為「Dorm Bathroom」，但其實只能容納一人，Agent 卻因為現實中宿舍浴室通常很大，而選擇在有人使用時進入。
- 舉例 2： Agent 有時會無視營業時間，在下午 5 點關門後進入商店。
Instruction Tuning的副作用：

LLM 受過人類安全與禮貌指令的微調，導致 Agent 表現得「太過有禮貌」且「過度合作」。
- 對話風格： 即使是夫妻間（Mei 與 John）的對話也顯得異常正式與客套。
- 失去自我： Isabella 為了保持合作，接受了許多不符合她人設的派對建議（如：莎士比亞朗誦會），這導致她的個人特質在長時間模擬中被他人的興趣所稀釋。

史丹佛 Smallville 虛擬小鎮 Part.4 驗證

Evaluation

實驗控制條件

Analysis and Results

定性分析結論：

End-to-End Evaluation

Boundaries and Errors

留言

Evaluation

實驗控制條件

Analysis and Results

定性分析結論：

End-to-End Evaluation

Emergent Social Behaviors

Boundaries and Errors

留言