Skip to content

AI 代理时代的记忆:形式、功能与动态 — 综述(中文翻译)

原文信息

原文:"Memory in the Age of AI Agents: A Survey — Forms, Functions and Dynamics" 原文链接:https://arxiv.org/abs/2512.13564

摘要

记忆已成为基于基础模型(foundation model)的智能体的核心能力之一,并将在未来持续发挥关键作用。记忆支撑着长时推理、持续适应以及与复杂环境的有效交互。随着关于智能体记忆的研究迅速扩展并获得前所未有的关注,该领域也变得日益碎片化:现有工作在动机、实现、假设与评估协议上往往差异显著,且大量松散使用的“记忆”术语进一步降低了概念清晰性。传统的长/短期记忆分类已不足以覆盖当代智能体记忆系统的多样性与动态性。本文旨在提供对当前智能体记忆研究的最新且全面的景观概述。

我们首先明确界定智能体记忆的范围,并将其与相关概念(如 LLM 记忆、检索增强生成 RAG、以及上下文工程)区分开来。随后,我们从“形式、功能与动态”三个统一视角审视智能体记忆:在形式层面,我们识别三类主流实现——令牌级(token-level)、参数化(parametric)与潜隐(latent)记忆;在功能层面,我们超越粗糙的时间划分,提出更细粒度的分类:事实性记忆、经验性记忆与工作记忆;在动态层面,我们分析记忆在智能体与环境交互下如何被构建、演化与检索。

为支持实证研究与工程实践,我们还汇总了代表性基准与开源记忆框架。除了整合现有工作外,我们对若干前沿方向提出展望,包括面向自动化的记忆设计、强化学习与记忆系统的深度整合、多模态记忆、多智能体共享记忆以及可置信性问题。我们希望本综述不仅能作为既有工作的参考,也能为将记忆作为未来智能体设计中的一等公民提供概念基础。

1 引言

近两年,随着越来越强大的大型语言模型(LLMs)演变为功能强大的 AI 智能体(agents),记忆作为其中的核心能力之一日益重要(引用若干近期工作)。这些由基础模型驱动的智能体在深度研究、软件工程、科学发现等众多领域显示出显著进展,推动了朝向更通用人工智能(AGI)的发展轨迹。智能体通常被视为不仅仅具有 LLM 主体,还配备推理、计划、感知、记忆与工具使用等能力。其中,记忆尤为关键:它使得参数难以快速更新的静态 LLM 能够通过环境交互实现持续适应。

从应用角度看,个性化聊天机器人、推荐系统、社会模拟与金融调查等场景,都要求智能体具备积极管理记忆的能力,而不是短暂遗忘的行为。从发展的角度看,AGI 的一个标志性目标是赋予智能体通过环境交互持续演化的能力,而这正是以记忆为基础的。

鉴于智能体记忆研究的重要性与爆发性增长,提供一个更新的分类与综述是及时且必要的。本文的动机包括两个方面:一是现有分类在方法学快速演进后显得不足,二是概念上的分裂使得“记忆”这一术语在不同工作中含义差异很大。因此,我们提出了一个基于“形式—功能—动态”的系统框架,以统一、澄清并指引未来研究。

接下来本文将:2 节形式化 LLM 基智能体与记忆系统,并与 LLM 记忆、RAG、上下文工程等相关概念比较;3 节讨论记忆的三类形式(令牌级、参数化、潜隐);4 节分析记忆的功能(事实性、经验性、工作记忆);5 节研究记忆的生命周期(形成、演化、检索);6 节汇总代表性基准与框架;7 节展望未来研究方向;8 节总结要点。

注:本文为翻译进行中版本。当前该文的中文翻译正逐节补齐,本文档会在每个里程碑完成后更新状态并保存最终校对版。

2 预备知识:对智能体与记忆的形式化

为研究在时间维度上运行、操控外部工具并与人或其他代理协作的 LLM 智能体系统,我们从形式化描述入手,将单智能体与多智能体场景统一在同一框架下。令 I={1,...,N} 为智能体索引集合,当 N=1 时为单智能体,N>1 表示多智能体情形。环境由状态空间 S 描述,时间步 t 时刻环境遵循受控随机转移模型 st+1 ∼ Ψ(st+1 | st, at),其中 at 为执行动作。每个智能体 i 在时刻 t 接收观测 oi_t = Oi(st, hi_t, Q),其中 hi_t 表示对交互历史的可见部分(如先前消息、中间工具输出、推理痕迹或共享工作区),Q 表示任务说明(例如用户指令或目标描述),通常在一次任务中保持固定。

与传统生成模型不同,LLM 智能体的动作空间通常是多模态与语义结构化的,既包括自然语言生成(解释、回答、说明等),也包括工具调用(API、搜索、计算器等)、规划动作(任务分解与子目标输出)、环境控制(在具身任务中的导航或编辑操作)以及代理间通信动作(协作消息)。通常将策略写为 at = πi(oi_t, mi_t, Q),其中 mi_t 表示来自记忆系统的信号。

交互过程以轨迹 τ = (s0, o0, a0, s1, o1, a1, …, sT) 表征,轨迹反映了观测、(可选)记忆检索、LLM 推理以及动作执行的交替过程。

2.2 智能体记忆系统

记忆被形式化为随时间演化的记忆状态 Mt ∈ M(M 为允许的记忆配置空间)。Mt 可采用任意内部结构:文本缓冲、键值数据库、向量数据库、图结构或混合表征皆可。任务开始时 Mt 可能含有来自先前轨迹的跨任务记忆(cross-trial);任务执行过程中新信息可作为短期记忆积累。记忆生命周期由三个算子定义:

  • 记忆形成(Formation):智能体在时刻 t 产出信息工件 ϕt(如工具输出、推理痕迹、局部计划或环境反馈);形成算子 F 将这些工件筛选并转换为记忆候选 Mform_{t+1} = F(Mt, ϕt)。
  • 记忆演化(Evolution):将形成的候选整合到记忆库中 Mt+1 = E(Mform_{t+1}),该过程可能包括冗余合并、冲突解决、低效信息抛弃或重构等操作。
  • 记忆检索(Retrieval):当选择动作时,智能体以 mi_t = R(Mt, oi_t, Q) 的形式检索相关记忆信号,R 构造任务感知查询并返回适合 LLM 使用的记忆内容(文本片段、结构化摘要等)。

时序上,这三类操作并不必然在每一时刻发生;不同系统通过不同的调用频率产生短期或长期记忆效应。例如有些系统仅在任务初始化时检索一次,而有些系统会根据触发条件间歇性检索或持续检索;记忆形成也可能是简单日志追加或复杂抽象提取与精炼。

2.3 智能体记忆与相关概念的比较

为澄清术语与范畴,本节将智能体记忆与 LLM 记忆、RAG(检索增强生成)、上下文工程三者进行比较:

  • 与 LLM 内部记忆(如 transformer 的 KV 缓存、架构级长期上下文机制)相比,智能体记忆更侧重于作为持久、可演化的外部或混合记忆库,支持跨任务持久化与基于环境的适应。某些工作仍确实关注模型内部状态(例如 RWKV、Mamba 等),这些更多地属于 LLM 记忆范畴而非智能体记忆。
  • 与传统 RAG 相比,RAG 多用于在单次推断中从静态知识库检索外部证据来增强生成,而智能体记忆通常发生在连续交互语境中,记忆库随智能体与环境的互动而更新。尽管近年来“agentic RAG”使二者边界模糊,但可实践的区分仍在于:RAG 通常面向一次性推理的知识注入,智能体记忆强调跨回合积累与自我演化。
  • 上下文工程关注的是如何在有限上下文窗口内高效组织与呈现信息(资源管理的工程化视角),而智能体记忆则更强调记忆作为认知基质:记录事实、经验与工作态信息并支持学习与适应。两者在短期工作记忆的实现上高度重合,但目标侧重点不同。

3 形式:记忆以何种形态存在?

记忆可以以多种结构形式实现。我们将其划分为三大类:令牌级(Token-level)、参数化(Parametric)与潜隐(Latent)记忆,每类又包含若干实现细分。

3.1 令牌级记忆(Token-level Memory)

定义:以可见、离散的单位(例如文本片段、图像 token、音频帧)存储信息,外部可查、可编辑,便于检索与解释。按结构复杂度可进一步分为:

  • 平坦(Flat, 1D):简单序列或集合,无显式内部拓扑(例如对话日志、原始轨迹、按时间顺序的条目)。
  • 平面(Planar, 2D):单层结构拓扑,如树或图,用以表达节点间关系(例如知识图、对话树)。
  • 分层(Hierarchical, 3D):多层级结构,支持跨层抽象与垂直检索(例如金字塔/多层图结构)。

每种组织形式在检索效率、抽象与推理能力之间存在不同权衡:平坦结构实现简单、可扩展性强,但缺乏显式关系限制组合推理能力;平面结构支持关系检索与多跳推理,但当场景复杂时单层架构可能不胜其任;分层结构提供粗细结合的检索能力,但实现与维护更复杂。

3.2 参数化记忆(Parametric Memory)

定义:将记忆编码入模型参数或附加参数模块中。按位置可分为:

  • 内部参数化记忆(Internal):直接改变基础模型权重(预训练/持续训练/微调阶段),以吸收领域知识或角色风格。优点:无需额外部署开销;缺点:更新昂贵、易遗忘。适用于长期的、通用性强的知识注入。
  • 外部参数化记忆(External):通过 adapter、LoRA、辅助小模型等外部参数集保存记忆,支持可插拔、可回滚的记忆更新,兼顾稳定性与可更新性。

3.3 潜隐记忆(Latent Memory)

定义:以模型内部的隐含表示(如隐藏态、KV 缓存、连续向量)保存信息,通常不可直接以人类可读形式查看。按来源或操作方式可分为:

  • 生成型(Generate):由独立模块生成紧凑的连续表示(软 token 或嵌入)并保存以供后续重用。
  • 重用型(Reuse):直接保存并复用先前前向传播得到的 KV 对或隐藏态(例如 Memorizing Transformers 所做)。
  • 转换型(Transform):通过剪枝、聚合或压缩将现有激活重整为更紧凑的记忆表示(如 Scissorhands、SnapKV 等)。

潜隐记忆在保持信息密度与推理效率方面有显著优势,但可解释性与长期稳定性是挑战。

4 功能:智能体为何需要记忆?

我们从功能角度将记忆分为三大支柱:事实性记忆(Factual Memory)、经验性记忆(Experiential Memory)与工作记忆(Working Memory)。它们分别回答“智能体知道什么?”,“智能体如何改进?”,以及“智能体现在在处理什么?”三个问题。

4.1 事实性记忆

事实性记忆负责持久地存储可陈述的事实(用户个人信息、对话历史、外界事实、文档状态等),以保证交互的一致性、上下文连贯性和可适应性。可进一步分为用户事实性记忆与环境事实性记忆:

  • 用户事实性记忆:保存用户身份、偏好、长期承诺等,使对话保持角色与目标一致,例:MemoryBank、AI Persona、MPC 等。关键操作包括选择性保留(按重要性/新颖度/近期性排序)、语义抽象(将零散对话压缩为高层描述)以及一致性治理(避免前后矛盾)。
  • 环境事实性记忆:记录外部世界状态(文档、代码仓库、工具能力、共享资源),用于跨任务的一致性维护与协同场景中的共享知识。

4.2 经验性记忆

经验性记忆源自智能体的行为轨迹、成功/失败案例与策略探索,目标是将具体经验抽象为可重用的技能、工作流或启发性知识,从而实现能力的持续改进。常见形式包括:

  • 轨迹存储:保存过去行动序列以便类比、复用或案例检索。
  • 抽象化经验:将具体轨迹提炼为可重用模板、规则或工作流(例如 Reflexion、Expel、H2R、AWM 等)。
  • 可执行技能库:在编程或工具使用场景中,经验转化为可执行代码或脚本,支持在线复用与迭代改进。

4.3 工作记忆

工作记忆是任务内的短期、受限容量的缓冲区,用于组织当前推理过程中的中间状态、局部上下文与临时表征。其关键需求是高效的上下文折叠与摘要机制(如递归总结、重要性筛选、分层打包等),以便在有限上下文窗口内支持长时推理与多步骤规划。

5 动态:记忆如何形成、演化与检索?

记忆的生命周期包括形成(何时、以何种方式写入)、演化(如何更新、压缩或删除)与检索(如何在推理时索引与返回)。在检索层面,常见操作包含检索前的候选筛选、语义检索或向量搜索、检索后重排序与压缩聚合等。

检索前(Pre-Retrieval)通常会根据任务意图构建检索查询,采用检索触发器决定何时检索;检索过程中(Retrieval)会使用向量索引、图遍历或混合检索策略;检索后(Post-Retrieval)需要重排与压缩以剔除噪声、合并碎片化证据并生成紧凑上下文供 LLM 使用(例如 re-ranking、aggregation、LLM 驱动的过滤器等)。

记忆演化涉及去重、冲突解析、可证伪性检测以及随时间的遗忘或重整。对于开放式、长期运行的智能体,自动化的记忆管理(如基于 RL 的记忆写入策略、层次化自组织索引)是当前重要研究方向。

当前进展: 第 2 至第 5 节的中文翻译已完成并追加到本文件中。以下已一次性补译并追加第 6 至第 8 节主要内容、参考文献说明、翻译署名与许可声明,并完成初步校对与格式整理。

6 资源与框架(Resources and Frameworks)

为了支持实验研究与工程开发,社区已经建立了大量的基准、数据集与开源框架,以评估与实现智能体记忆系统。我们在此将重要资源分为两类:记忆/终身学习导向的基准,以及其他对长时和多步交互有重要相关性的评测套件;同时列举并比较了若干开源记忆框架。

6.1 基准与数据集

记忆导向的基准通常关注跨回合记忆保持、个性化建模、记忆编辑与长期适应等能力。代表性基准包括 MemBench、LoCoMo、LongMemEval、MemoryBank、PersonaMem、StreamBench 等。这类基准常以模拟或真实多回合对话、长期任务序列或自我演化场景来检验记忆的持续性、可迁移性与抗遗忘能力。除专门基准外,诸如 ALFWorld、ScienceWorld、WebArena、SWE-Bench、GAIA、xBench 等长时或多步骤任务套件,也常被用于隐含地测试记忆相关能力,因为成功完成这些任务需要对早期观察或行动的有效回溯与整合。

6.2 开源记忆框架

开源生态迅速发展:诸如 MemGPT、Mem0、MemOS、Zep、Memary、Memobase、LangMem(LangChain 的扩展层)、SuperMemory、Cognee、MemU、MemEngine 等框架,为开发者提供了多样化的记忆抽象(向量数据库、分层存储、知识图、实体流等)与管理工具。这些框架通常支持短/中/长期存储分层、检索管道、压缩与聚合操作,并与常见的向量数据库(Pinecone、Chroma、Weaviate)集成。选择框架时应结合任务需求,例如是否需要多模态支持、是否要求可插拔的策略学习接口、是否重视隐私与访问控制等。

7 立场与研究前沿(Positions and Frontiers)

在综述中我们强调了若干跨越性方向,这些方向正在并将继续重塑智能体记忆研究的未来:记忆检索向生成的迁移、自动化的记忆管理、强化学习与记忆的深度融合、多模态记忆、共享记忆在多智能体系统中的应用、用于世界模型的记忆结构,以及记忆的可信性问题。

7.1 从检索到生成的记忆(Memory Retrieval vs. Memory Generation)

历史上,研究侧重于检索:构建高质量索引、语义检索与重排序以精确召回已有记忆。近年则出现“记忆生成”思潮:智能体不仅检索,还依据当前情境合成新的记忆表示(自适应摘要、任务专用压缩表示或可复用的潜隐 token)。未来可期望的能力包括:上下文自适应的生成(按将来使用场景调节粒度与抽象程度)、异构信号的融合(文本、图像、代码、工具输出一体化)、以及基于优化目标(如任务成功率)学到的自我优化的生成策略。

7.2 自动化记忆管理

当前系统多依赖人工规则或启发式策略(阈值、预设聚类或基于提示的写入),而要支持开放式、长期演化的智能体,记忆管理需更“自我驱动”。未来方向包括:把记忆操作(写入/更新/删除/同步)作为智能体可调用的工具,由智能体基于长期绩效自主决策;以及发展自组织的层次化记忆结构,使存储自身能随时间自适应重构,支持更高效的检索与推理。

7.3 强化学习与记忆(Reinforcement Learning Meets Memory)

RL 已被用于记忆写入或排序的若干子任务(例如重排序器或写入控制器),并正向完全以 RL 驱动整个记忆生命周期演进的方向发展。未来目标是尽量减少手工先验,让智能体通过长期奖励信号学会创造最适合其任务与环境的记忆架构与策略,实现端到端的自我优化记忆体系。

7.4 多模态记忆

随着多模态大模型的发展,记忆系统必须支持跨模态的信息存储与检索(视觉、音频、触觉等),并能在多模态推理中统一表示与抽象。当前多模态记忆在视觉领域进展较快(视频理解、实体跟踪、持久场景表示),但音频与更广泛的感知流仍有大量空间可拓展。

7.5 多智能体系统中的共享记忆

共享记忆为多智能体协作提供持久的共同基础,但引入了写入冲突、访问控制与信任问题。未来方向包含基于角色/权限的可解释共享机制、学习驱动的共享策略以及跨模态的汇聚与一致性维护。

7.6 用于世界模型的记忆

世界模型强调对环境进行高保真模拟,记忆在其中承担长期状态维护的角色。新的架构趋势包括状态空间模型与显式记忆库结合的“双系统”方案(快速反应的短期系统与慢速的全局一致性层),以及主动式记忆管理策略以防止感知漂移并保持长时一致性。

7.7 可置信性与伦理(Trustworthy Memory)

记忆系统须考虑隐私(差分隐私、用户可控遗忘)、可解释性(检索来源可追溯、记忆影响可审计)与幻觉/错误信息的鲁棒性(冲突检测、低置信时回退或多代理交叉验证)。长期运行的记忆尤其需要提供版本控制、访问日志与用户主导的删除/更正机制。

7.8 与人类认知的连接

工程实践日益借鉴认知科学(短时工作记忆 vs 长期记忆、情节-语义-程序性划分、离线巩固机制等)。未来有望引入类似“睡眠化”的离线巩固周期,使智能体在交互间歇对记忆进行重组与压缩,从而在稳定性-可塑性之间取得更好的折衷。

8 结论

本文通过“形式—功能—动态”这一统一视角系统梳理了智能体记忆的研究进展,明确了令牌级、参数化与潜隐三类核心形式,并提出了事实性、经验性与工作记忆三大功能支柱。我们指出了自动化记忆管理、生成式记忆、RL 驱动的记忆策略、多模态与共享记忆、以及可信性保障等关键研究前沿。随着智能体能力的不断提升,记忆将不再是附属组件,而应成为设计长期自主智能体时的一等公民。