AI Agent 时代如何落地 SDD：从规范编写到运行时诊断的实践框架

Spec-Driven Development（SDD）在 AI Agent 时代的价值，不是“多写几份文档”，而是把意图、约束、实现、验证和运维反馈放到同一条可追溯链路里。本文基于原文完整阅读后重写，目标是给出可执行、可推广、可度量的团队实践框架。

1 人机分工：先解决“谁做判断，谁做生成”

SDD 的第一原则是把“业务判断”与“机械实现”拆开。

AI 负责机械完整性：代码生成、测试补齐、边界覆盖、格式一致性。
人类负责判断性决策：fail-open 或 fail-close、一致性或可用性、性能或成本。
规范评审必须由人类把关，尤其是业务规则、抽象边界、用户体验与合规要求。

一个可直接使用的协作流程如下：

text

1. AI 起草 spec（保证结构和覆盖）
2. 人类评审业务意图与成功标准
3. AI 修订 spec / plan / tasks
4. 人类批准关键设计决策
5. AI 实现代码与测试
6. 人类做上线前风险确认

2 规范治理：把规范当成“代码级资产”

如果规范不进入版本管理，SDD 会很快退化为“会过期的说明文”。

2.1 版本管理最小纪律

每次 spec.md 更新都必须提交版本库。
规范变更采用语义化粒度：major、minor、patch。
规范修改走独立分支评审，不在主分支直接改写。
保留可追溯链路，让 AI 可以通过 git diff 与 git blame 解释生成依据。

2.2 活文档更新触发器

以下事件发生时，规范必须同步更新，而不是“代码先行、文档补票”：

数据模型调整
API 合约变化
性能压测暴露瓶颈
安全审计新增规则
集成联调发现接口不兼容

3 渐进采用：从单一服务试点，不做一刀切改造

原文最值得借鉴的一点是“先试点验证价值，再组织扩散”。

试点阶段（1-2 个月）：选择新服务或重构服务，验证代码评审效率和集成返工率。
扩展阶段（3-6 个月）：扩展到相邻服务，建立跨团队规范共享与引用机制。
标准化阶段（6-12 个月）：沉淀模板、工具链、培训机制和度量看板。

与“行政推动全员上车”相比，“先让愿意尝试的团队跑通并形成示范”通常更有效。

4 知识资产化：规范是组织记忆，不只是开发输入

SDD 的组织价值在于把隐性知识从“人脑”迁移到“规范库”。

架构决策进入 constitution.md 与 plan.md。
业务规则进入 spec.md，并映射到测试。
集成约定以跨规范引用的方式显式表达。
安全与合规规则前置到规范层，而不是上线前临时补丁。

为了提高可发现性，建议在规范中加入结构化元数据，例如 owner、depends-on、security-level、tags，使检索与影响分析可自动化。

5 上下文工程：控制上下文噪声，提升 Agent 命中率

原文明确指出：大模型上下文窗口很大，但注意力资源有限。一次性灌入超长规范会导致注意稀释。

5.1 三层上下文架构

宪法层：不可违背的全局约束（安全、架构、合规）。
共享层：跨模块规则（数据模型、性能基线、公共 API 约定）。
功能层：当前任务的局部规范与实现细节。

5.2 三种注入策略

渐进式加载：先约束，再功能，再实现。
检索增强：按任务关键词检索相关规范片段并限制 token 预算。
模块化提示词：每次任务只绑定必要上下文，避免“全量喂料”。

6 双层约束：隐式意图 + 显式验证

SDD 的质量上限，来自“隐式约束”与“显式约束”的协同。

隐式约束：业务目标、用户旅程、架构原则、安全红线。
显式约束：类型系统、OpenAPI、测试用例、静态检查规则。

一个可执行的转换路径是：先用自然语言表达意图，再落地为可验证工件，让 AI 的“语义理解”最终接受自动化验证。

7 运行时闭环：把 SDD 延伸到诊断与修复

原文的关键升级点是“从构建期规范走向运行期规范”。

通过 MCP 暴露日志、指标和错误摘要给 AI。
在 spec/runtime.md 中定义延迟、错误率、告警阈值与常见故障诊断路径。
线上问题出现时，AI 结合运行时数据与规范给出根因分析、修复建议与回写项。

这让研发流程从线性过程升级为闭环系统：

text

设计规范 → 生成实现 → 运行监控 → 问题诊断 → 修复与回写规范 → 再验证

8 适用性判断：不是所有项目都要“全量 SDD”

8.1 强适用场景

多团队协作、生命周期长、业务复杂、合规压力大。
典型场景：企业级 SaaS、金融科技、医疗健康、跨组织开源协作。

8.2 弱适用场景

快速原型、一次性脚本、探索性研究项目。
这些场景更适合“轻量规范 + 实验记录”，先保证试错速度。

8.3 成熟度演进路径

text

Level 0: 传统开发
Level 1: AI 辅助开发
Level 2: 规范增强（部分 SDD）
Level 3: 完整 SDD（Specify → Plan → Tasks → Implement）

9 团队落地模板：30 天可执行动作

选择 1 个试点服务，定义明确边界和成功指标。
建立最小规范集：constitution、spec、plan、tasks。
明确人机边界：业务和架构关键决策必须人工批准。
规范变更强制入库，建立变更日志与分支评审。
加入一致性检查：规范、API、测试三方对齐。
建立跨规范依赖图，启用变更影响分析。
将关键运行时指标纳入规范，打通故障回写流程。
每两周复盘一次：评审时间、集成返工率、规范同步率。

10 总结

在 AI Agent 时代，SDD 的本质不是“写得更像文档”，而是“让规范成为真实且可执行的系统事实来源（Single Source of Truth）”。

当团队完成三件事——规范版本化、约束可验证、运行时可回写——AI 才能从“会写代码”升级为“能稳定交付”。

参考链接

XCapit. (2026). Spec-Driven Development with AI Agents. https://www.xcapit.com/en/blog/spec-driven-development-ai-agents ^[1]
O'Reilly Radar. (2026). How to Write a Good Spec for AI Agents. https://www.oreilly.com/radar/how-to-write-a-good-spec-for-ai-agents/ ^[2]
Patten, D. (2026). Spec-Driven Development with AI Agents: From Build to Runtime Diagnostics. Medium. https://medium.com/@dave-patten/spec-driven-development-with-ai-agents-from-build-to-runtime-diagnostics-415025fb1d62 ^[3]
Linguista. (2026). Spec-Driven Future: AI Agents & Software Engineering. https://linguista.bearblog.dev/spec-driven-future-ai-agents-software-engineering/ ^[4]
OpenAI. (2026). Harness Engineering: Leveraging Codex in an Agent-First World. https://openai.com/index/harness-engineering/ ^[5]

XCapit 关于 AI Agent 时代 SDD 的实践指南。 ↩︎
O'Reilly Radar 关于如何为 AI Agent 编写良好规范的指南。 ↩︎
Dave Patten 关于 SDD 从构建到运行时诊断的深度文章。 ↩︎
Linguista 关于 SDD 和 AI Agent 在软件工程中未来的分析。 ↩︎
OpenAI 的 Harness Engineering 博客文章，介绍了规范驱动开发的实际案例。 ↩︎

代码编辑器

Python 工程化指南

《Python 实现 AsyncIO HTTP 服务器》章节大纲

数学引擎

NCNN 教程

IM 系统设计指南

AI Agent 时代如何落地 SDD：从规范编写到运行时诊断的实践框架 ​

1 人机分工：先解决“谁做判断，谁做生成” ​

2 规范治理：把规范当成“代码级资产” ​

2.1 版本管理最小纪律 ​

2.2 活文档更新触发器 ​

3 渐进采用：从单一服务试点，不做一刀切改造 ​

4 知识资产化：规范是组织记忆，不只是开发输入 ​

5 上下文工程：控制上下文噪声，提升 Agent 命中率 ​

5.1 三层上下文架构 ​

5.2 三种注入策略 ​

6 双层约束：隐式意图 + 显式验证 ​

7 运行时闭环：把 SDD 延伸到诊断与修复 ​

8 适用性判断：不是所有项目都要“全量 SDD” ​

8.1 强适用场景 ​

8.2 弱适用场景 ​

8.3 成熟度演进路径 ​

9 团队落地模板：30 天可执行动作 ​

10 总结 ​

参考链接 ​

AI Agent 时代如何落地 SDD：从规范编写到运行时诊断的实践框架

1 人机分工：先解决“谁做判断，谁做生成”

2 规范治理：把规范当成“代码级资产”

2.1 版本管理最小纪律

2.2 活文档更新触发器

3 渐进采用：从单一服务试点，不做一刀切改造

4 知识资产化：规范是组织记忆，不只是开发输入

5 上下文工程：控制上下文噪声，提升 Agent 命中率

5.1 三层上下文架构

5.2 三种注入策略

6 双层约束：隐式意图 + 显式验证

7 运行时闭环：把 SDD 延伸到诊断与修复

8 适用性判断：不是所有项目都要“全量 SDD”

8.1 强适用场景

8.2 弱适用场景

8.3 成熟度演进路径

9 团队落地模板：30 天可执行动作

10 总结

参考链接