Skip to content

AI 研发

1. Vibe Coding(氛围式编程)

Vibe Coding 指从"编写代码"进化为"与代码对话",开发者在沉浸式环境中用自然语言驱动编码、调试与重构。价值体现在三点:

  • 降低门槛:以对话替代模板化样板代码与文档查找。
  • 加速反馈:即时原型、即时单测、即时修复,形成"思维即代码"的闭环。
  • 能力外延:从代码片段生成升级为"重构 + 解释 + 搜索 + 运行"的组合技。

代表产品含 Cursor(AI IDE 原型)、Claude Code(Anthropic 官方代码助手)、Cline(智能协作编辑器)、Bolt.new(零配置快速原型)、GitHub Copilot(代码生成助手)、阿里 Qoder(企业级 Agentic Coding)、腾讯 CodeBuddy(双模型高性价比方案)。趋势关键词:从 Tool → Partner,AI IDE 正在成为"协作型工程伙伴"。

2025 年生态呈现多元化竞争:Cursor 以流畅的 Agent 模式交互赢得开发者青睐,响应延迟低于 380ms;GitHub Copilot X 依托生态整合优势和 GitHub 仓库深度联动,支持 37 种编程语言并减少 73% 的代码漏洞风险;Qoder 通过上下文工程(Context Engineering)实现"Repo Wiki + Quest Mode"(自主编程模式),代码审查耗时减少 50%,代码质量提升一倍;国内 CodeBuddy 基于混元 + DeepSeek 双模型架构,中文提示理解准确率领先竞品 15%,端到端响应延迟仅 120ms。

一个典型的对话式开发工作流:

  1. 用中文描述意图 → 2) 生成骨架与单测 → 3) 运行失败用日志回溯 → 4) 代理自动修复 → 5) MCP 工具调用与权限隔离 → 6) 推送 MR 并附带评审要点与风险提示。

核心工程考量:

  • 上下文工程:Qoder、Claude Code 等工具已将缓存视为降低成本、提升性能的核心能力,高命中率缓存可显著减少模型计算开销,尤其在 Agent 场景(高频、前序请求重复)效果显著。
  • MCP 标准化:Model Context Protocol 已成为 AI 客户端与外部服务交互的标准协议,通过 MCP 将应用能力、资源查询、提示模板暴露给模型,支持安全的工具调用与交互反馈确认机制。
  • Quest 模式(自主编程):Qoder 等工具支持 Spec 驱动的任务委派,让 AI 自主完成开发、测试、重构与 Bug 修复,无需开发者深度介入。

2. Deep Research / AI Scientist(深度研究)

Deep Research 强调让 AI 具备"科研能力"的范式:假设生成、文献回顾、数据建模、对照实验与证据链输出。价值点:缩短科研周期、扩大知识边界,实现"机器共研"。代表方向包括 OpenAI Deep Research 与 Perplexity Pro Research。

2025 年趋势关键词:从 Retrieval → Reasoning → 神经符号融合。检索不再是终点,链式/图式推理与工具使用(如 Python、搜索、表格、计算)成为标准能力。设计一个"可复现"的研究代理,建议包含:

  • 证据溯源与可核验引用(Citation):每条信息都可追溯到来源 URL 与引用编号。
  • 反驳与对比实验(Counterfactual/Ablation):提供多个假设对比与局限性说明。
  • 数据与 Prompt 版本化,确保复现实验:类似代码版本管理的评估数据管理。
  • 神经符号 AI 融合:2025 年研究已证明,LLM 幻觉具有数学上的不可完全消除性(源于 Gödel 不完备定理),应通过知识图谱、逻辑规则与神经网络协同,而非单纯依赖微调或 RAG。

3. AI OS / AI Runtime(AI 自动化系统)

AI Runtime 将 AI 下沉至操作系统与运行时,让代理直接跨应用执行任务,用户以“意图”描述目标。代表方向:Anthropic Computer Use、OpenDevin、A2A/MCP 工具生态。趋势关键词:从 Copilot → Autopilot,AI 从协助走向自主执行。

工程落地要点:

  • 工具编排与权限隔离:为高风险操作设置“二次确认 + 回滚点”。
  • 观察与可追踪性:全链路追踪(如 OpenTelemetry)记录每一步工具调用与上下文。
  • 安全护栏:越权检测、提示注入防护、数据脱敏与输出合规。

4. AI x DevOps(AI 研发自动化)

定义:AI 深度介入研发运维周期,从代码生成、测试、部署到监控,形成自优化闭环。价值:实现"自驱动研发系统",提升研发效率与可靠性,降低重复劳动与人力依赖。趋势:从 CI/CD → CI/AI/CD。2025 年 Gartner 警告:由于成本上升、风险管理不足和投资回报率不明确,预计 40% 以上的 Agent AI 项目将被取消,需要从一开始做好 ROI 衡量与风险控制。

推荐的 CI/AI/CD 流水线骨架:

实践要点:

  1. 质量关口左移:生成的代码与 prompt 进入仓库前,先过静态扫描、单测与"评测即门禁"(如 LLM 回答质量分数门限 ≥ 0.85)。采用 Ragas 等框架进行 RAG 质量评测,设置最低门限如 context_precision ≥ 0.8faithfulness ≥ 0.85answer_relevancy ≥ 0.85
  2. 一致性环境:容器化开发 → 容器化评测 → 容器化部署,将"不可预测"变为"可复制"。引入容器镜像签名与 SBOM(软件物料清单)确保供应链可追踪。
  3. 渐进发布:蓝绿/金丝雀与自动回滚,结合"成本与延迟"基线报警。Agentic AI DevOps 工具可持续扫描可观测性数据,检测多种类型异常(包括上下文异常),支持根本原因分析(RCA)与自动关联告警,减少告警风险。

代表工具与能力(2024-2025 更新):

5. AI Native Product Design(AI 原生产品设计)

AI 原生产品以 AI 为中枢,从交互、视觉到逻辑生成均可由 AI 实时驱动。代表方向包含 Framer AI、Uizard、Runway、Pika 等。关键在于"生成与编辑并重",保持人机共创而非全自动生成,从而在速度与可控性之间取得平衡。

2025 年 AI 原生应用架构核心演进(参考阿里云《AI 原生应用架构白皮书》):

  • 应用形态升级:从"数字化工具"进化为"智能化助手"。以 Agent 为编排执行单元,通过工具感知与多模态交互完成任务。
  • 编排范式转变:从传统"复杂代码逻辑"下沉为"模型推理过程"。Workflow 编排逐步由 LLM 编排替代,多 Agent 协作成为主流方向(而非单 Agent)。
  • 数据飞轮建设:沉淀客户/行业数据、行为反馈数据,通过强化学习持续自进化,形成"护城河"。

建议配套能力:

  • Prompt 设计版本化与对比试验(A/B):类似代码版本控制。
  • 交互中内嵌评测与反馈采集(隐性打分 + 显性评价)。
  • 生成内容的事实核查与合规校验(多维度安全护栏)。
  • 多 Agent 协作框架:支持跨系统、跨应用的工具调用与权限隔离。

6. LLMOps 与 RAGOps:从原型到生产

2025 年实践共识:对 90%+ 企业场景,优先采用"检索增强生成(RAG)",仅当"模型本身即产品"或领域极窄、数据闭环强时才考虑从零训练/深调优。RAGOps 被提出用于覆盖 RAG 的全生命周期运维:数据引入 → 嵌入与索引 → 检索 → 生成 → 观测与评测 → 迭代优化(参见 arXiv"RAGOps"论述 https://arxiv.org/html/2506.03401v1)。

RAG 技术进展(2025):

  • 简化与复杂之争:基础 RAG 流程简单(文档切割 → 向量嵌入 → 相似性检索 → LLM 生成),但知识库"过期"问题凸显。应对方向包括增量更新机制、知识库版本化与衰减策略。
  • 混合检索 + 重排:向量相似性检索 + 关键词 BM25 检索 + 语义重排序,显著提升检索精准度。GraphRAG(知识图谱增强检索)适用于强关系领域知识。
  • 多模态 RAG:RAG-Anything 框架支持文本、表格、图像、公式等多模态知识检索与关联分析。

RAG 生产级架构要点:

  • 数据层:来源治理、清洗与增量更新(避免知识库"过期")。定期回归评测确保数据质量。
  • 检索层:混合检索与重排序;GraphRAG 适用于强关系知识(参考 https://docs.cloud.google.com/architecture/gen-ai-graphrag-spanner);上下文缓存减少重复检索开销。
  • 评测层:优先使用"上下文精准度(Context Precision)、事实一致性(Faithfulness)、答案相关性(Answer Relevancy)"等指标(Ragas/TruLens/DeepEval)。设置最低门限并纳入 CI/AI/CD 流程。
  • 观测层:全链路追踪(OpenTelemetry)与成本/延迟/质量仪表盘(Langfuse、云厂商 Observability)。

评测门禁建议(以 Ragas 为例,参考 https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/):

  • 设置最低门限:context_precision ≥ 0.8faithfulness ≥ 0.85answer_relevancy ≥ 0.85
  • 将评测分数纳入 CI/AI/CD 质量关口,低于门限禁止上线。
  • 按不同模型/用例/环境维度监控评测指标,识别性能衰减点。

7. 模型服务与基础设施选型

自建 vs 云托管:如果需要数据主权/成本可控/灵活优化,自建更合适;对极致稳定性与运维极简,云托管更省心。对比要点:

  • vLLM:PagedAttention、连续批处理、推理吞吐领先,OpenAI 兼容,支持多种量化(INT8/INT4/FP8)。适合对成本敏感、需要自定义优化的企业。参见 https://docs.vllm.ai/
  • NVIDIA Triton:动态批处理、Ensemble、业务逻辑脚本,适合多模型流水线与复杂推理图。成熟度高,但学习曲线陡。参见上文链接。
  • KServe:Kubernetes 原生推理平台,支持 GenAI 负载的自动伸缩与观测注入。与云平台(GCP、阿里云等)集成良好。参见 https://kserve.github.io/website/
  • BentoML:统一推理平台,易于与 vLLM/自定义服务组合部署。API 设计友好,适合快速原型到生产的演进。参见 https://docs.bentoml.com/
  • 云厂商托管(AWS Bedrock、Azure OpenAI、Google Vertex AI、阿里云):开箱即用,按使用量计费,无运维负担,但成本可能较高且供应商锁定风险。

模型选择 2025 年最佳实践

  • 分层部署:关键路径(用户体验敏感)用大模型(GPT-4o、Claude 3.5);大众路径用中等模型(GPT-4o mini、Claude 3.5 Haiku);后台任务/非实时用小模型(Llama 3, DeepSeek)或开源模型。
  • 多模型路由:根据请求复杂度、成本预算、延迟要求实时选择最优模型。这需要建立模型性能基准与成本评测体系。
  • 开源 vs 闭源平衡:开源模型(Llama 3 70B、DeepSeek-V3)成本低、可控性强,但需自建运维;闭源模型(OpenAI、Anthropic)效果先进但成本高、数据隐私风险。实践建议:核心业务用开源 + 关键任务按需付费闭源。

部署示例(KServe InferenceService,节选):

text
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
    name: llama3-serve
spec:
    predictor:
        model:
            modelFormat:
                name: huggingface
            args:
                - --model_id=meta-llama/Meta-Llama-3-70B-Instruct
        minReplicas: 1
        maxReplicas: 5

8. 观测、评估与质量度量

观测的目标是"看见不可见"。建议以 OpenTelemetry 为统一数据面,结合 Langfuse/云厂商观测基座沉淀指标、日志与追踪。

OpenTelemetry GenAI 语义约定(参考 https://opentelemetry.io/docs/concepts/semantic-conventions/https://www.dynatrace.com/news/blog/opentelemetry-trends-2025/、Dynatrace 2025 趋势报告)已成为行业标准,统一了 LLM Span 属性定义:

典型 LLM Span 属性示例:

text
llm.model=llama-3-70b
llm.input_tokens=1024
llm.output_tokens=256
genai.prompt_template=rag-v2
rag.context_docs=5
rag.context.document.id=doc-123
latency.ms=480
cost.usd=0.0031
error.type=hallucination_detected

2025 年可观测关键洞察:

  • 数据质量放大效应:"垃圾进,垃圾出"在 AI 时代被显著放大。错误的可观测数据不仅导致错误的报表,还引发错误的决策和执行,后果更严重。需要重视语义标注完整性与数据治理的长期投入。
  • 上下文工程重要性:对 AI Agent 提供精确、充分的 context 是前提。缺乏上下文信息(如可观测字段的含义、系统运行流程、业务知识)会严重影响 Agent 的理解与决策能力。
  • AI 增强的 SRE 角色升维:Agentic AI 接管告警、常规排查等琐碎事务后,SRE 从"救火员"升级为"高可用架构师",负责解决新问题、建立 SOP、审批关键变更。真正的专家型 SRE 因"能带 AI 小弟"而价值倍增。

评测框架速览:

Context Engineering 实践:类似 Qoder 的做法,通过缓存、向量检索与上下文压缩,确保给模型的 context 既精确又足够。这不仅提升推理效果,还显著降低 Token 成本与延迟。

9. 安全、合规与治理

治理框架:参考 NIST AI RMF 1.0 与生成式 AI Profile(https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1331.ipd.pdf)。

工程控制:

  • 护栏与过滤:NVIDIA NeMo Guardrails(多维度安全控制、内容审核、提示注入防护,2024-2025 持续更新,https://developer.nvidia.com/nemo-guardrails)、Guardrails AI(结构化输出验证、Reask 策略、PII 脱敏,https://guardrailsai.com/docs/getting_started/quickstart)。
  • 数据与权限:特征/数据访问 RBAC、PII 脱敏、最小权限、审计日志。
  • 人在回路:对高风险任务启用人工复核与双签。关键决策(如生成的代码进入主分支、关键业务逻辑变更)需人工审批。
  • AI 原生应用网关:阿里云 AgentRun 等平台提供 AI 网关层,无侵入接入多维度安全护栏、Token 流控与配额管理、语义缓存、智能路由等,统一管理 AI 应用的安全与成本。

影子 AI 风险:在组织内大量未授权创建与运行的 AI Agent 可能形成"影子 AI",难以监管。应建立 AI Agent 注册表、审批流程、权限隔离、API 调用审计机制。

幻觉与事实性问题(2025 年新认识):

  • OpenAI 2025 年研究证明,LLM 幻觉在数学上具有不可完全消除性,源于 Gödel 不完备定理、数据覆盖有限性、概率生成机制的不确定性。
  • 对策:不追求 100% 消除幻觉,而是采用多层防护——RAG 检索支撑(提供事实依据)+ 事实一致性评测(设置门限)+ 神经符号 AI 融合(融入逻辑规则与知识图谱)。
  • 引用输出:生成的每条信息都应附带引用来源 URL 与可验证证据,便于人工核查。

10. 成本与性能优化

常用优化手段:

  • 推理侧优化:动态批处理(Triton/KServe)、PagedAttention 与连续批处理(vLLM)、量化(INT8/INT4/FP8)、上下文缓存(降低重复计算)、批量推理与请求合并。
  • 模型选择:按任务复杂度路由大小模型(高频简单任务用小模型降成本,复杂任务用大模型保效果);考虑开源模型(如 DeepSeek、Llama)与云托管模型的成本-效果 Trade-off。
  • 智能路由:基于请求特征、响应时间、成本实时选择最优模型组合(参考 AWS 多模型路由文章 https://aws.amazon.com/blogs/machine-learning/multi-llm-routing-strategies-for-generative-ai-applications-on-aws/)。
  • 缓存策略:语义缓存(相同或相似请求复用之前的结果)、Prompt 缓存(长文本重复提示通过缓存降低 Token 成本)。

成本估算公式:

Costreq=TinPin+ToutPout\text{Cost}_{req} = T_{in} \cdot P_{in} + T_{out} \cdot P_{out}

其中 Tin,ToutT_{in}, T_{out} 为输入/输出 token 数,Pin,PoutP_{in}, P_{out} 为单价。建议为每个版本/用户/功能打点 tokencost,并用仪表盘按环境维度拆分。按月度/用户进行成本分析,识别成本驱动因素与优化空间。

2025 年成本挑战

  • 大模型推理成本因量增而下降,但企业如无成本管理意识可能陷入"成本爆炸"。
  • Claude 3.5、GPT-4o mini 等高效小模型的出现,使"模型成本 + 管理开销"成为总成本的关键变量。
  • Gartner 预测 2027 年 40%+ Agent 项目失败,一大原因是成本控制不力。

11. 落地路线图(90 天)

  1. 0-30 天:挑选 1-2 个高价值用例,搭建最小可用 RAG/Agent,接入 Langfuse 追踪与 Ragas 评测;建立 CI/AI/CD 雏形与安全护栏。
  2. 31-60 天:接入特征/检索数据管线,完善混合检索与重排;上线金丝雀发布与回滚;将评测门禁纳入流水线;引入成本/延迟 SLO。
  3. 61-90 天:打通全链路观测,按业务指标做对齐优化;扩展多模型路由与量化;补齐合规审计与应急预案。

12. 常见风险与对策

  • 幻觉与不实:采用多层防护——启用检索支撑与引用输出 + 事实一致性评测与阈值门禁(Faithfulness ≥ 0.85)+ 神经符号 AI 融合(知识图谱 + 逻辑规则)。根据 OpenAI 2025 年研究,LLM 幻觉具有数学上的不可完全消除性,应采取可接受的容错策略而非追求 100% 消除。
  • 提示注入与越权:上下文分层、工具白名单、越权检测(权限校验)与内容安全策略。通过 NeMo Guardrails 等进行多维度防护。
  • 数据漂移与知识过期:知识库增量更新与自动回归评测。监控知识库中文档的发布时间与更新频率,定期对比生产质量指标与基线,及时发现性能衰减。
  • 供应链风险:模型/依赖签名与 SBOM(软件物料清单),镜像与权重来源可追踪。选择有官方签名与来源验证的模型(如 Hugging Face 官方模型)。
  • 成本爆炸:Token 计价透明化、使用量预算管理、按环境分级模型选型(大模型用于关键路径,小模型用于简单任务)、上下文缓存与智能路由。
  • Agent 失控:权限隔离、二次确认机制、可回滚部署、可观测追踪。Agent 对关键资源的操作应有明确的审批流程与回滚点。

13. AI 工程师的角色升维与最佳实践

2025 年 Gartner 等业界机构预测,虽然 40%+ 的 Agent AI 项目会被取消,但真正掌握 AI 开发的工程师价值倍增。AI 时代不是淘汰,而是"升维":

角色转变

  • 从"单兵作战"到"AI 小队指挥":不再是实现某个特定功能,而是用 AI Agent 协助完成复杂任务。工程师成为 Agent 的设计者、教练与验证者。
  • 从"编写代码"到"编程意图":借助 Vibe Coding,用自然语言描述需求,AI 生成代码骨架,人工审核与精化。这要求工程师具备"上下文工程"思维——如何提供充足、精确的 context。
  • 从"救火员"到"架构师":特别是 SRE,不再是被动响应告警,而是用 Agentic AI 进行根本原因分析(RCA)与系统架构优化。
  • 从"不可解释"到"可验证":所有 AI 生成的内容(代码、分析结果、决策)都应有可追踪的证据链与可核查的来源引用。

核心能力要求

  • Prompt 工程与上下文管理:学会用结构化思维设计 Prompt、版本管理 Prompt、A/B 对比评测 Prompt 效果。
  • 评测与度量体系:建立 RAG、Agent、生成式 AI 系统的质量评测体系。掌握 Ragas、DeepEval 等框架,设置合理门限。
  • 可观测性与追踪:深入理解 OpenTelemetry、Langfuse 等,设计有效的 Span 属性与指标,实现全链路可见性。
  • 安全与合规:了解 NIST AI RMF、幻觉风险、提示注入攻击、PII 脱敏等,能独立设计安全护栏。
  • 数据治理与飞轮:重视数据质量、版本管理、强化学习反馈闭环,将"垃圾进垃圾出"的风险最小化。
  • 成本意识:理解不同模型、优化手段的成本-效果 Trade-off,能做出数据驱动的决策。

学习路线建议(90 天快速入门)**:

  1. 0-20 天:掌握 RAG 基础,用开源框架(如 LangChain、LlamaIndex)搭建第一个 RAG 原型。
  2. 21-40 天:学习 Prompt 工程与上下文优化,体验 Cursor/Qoder 等 AI IDE,理解 Vibe Coding 工作流。
  3. 41-60 天:深入可观测性与评测,用 Langfuse + Ragas 构建评测系统,发现质量问题并迭代优化。
  4. 61-90 天:设计完整的 CI/AI/CD 流水线,接入安全护栏与成本管理,实现从原型到生产的闭环。

14. 参考与延伸阅读(部分 2024-2025)