AI 研发
1. Vibe Coding(氛围式编程)
Vibe Coding 指从"编写代码"进化为"与代码对话",开发者在沉浸式环境中用自然语言驱动编码、调试与重构。价值体现在三点:
- 降低门槛:以对话替代模板化样板代码与文档查找。
- 加速反馈:即时原型、即时单测、即时修复,形成"思维即代码"的闭环。
- 能力外延:从代码片段生成升级为"重构 + 解释 + 搜索 + 运行"的组合技。
代表产品含 Cursor(AI IDE 原型)、Claude Code(Anthropic 官方代码助手)、Cline(智能协作编辑器)、Bolt.new(零配置快速原型)、GitHub Copilot(代码生成助手)、阿里 Qoder(企业级 Agentic Coding)、腾讯 CodeBuddy(双模型高性价比方案)。趋势关键词:从 Tool → Partner,AI IDE 正在成为"协作型工程伙伴"。
2025 年生态呈现多元化竞争:Cursor 以流畅的 Agent 模式交互赢得开发者青睐,响应延迟低于 380ms;GitHub Copilot X 依托生态整合优势和 GitHub 仓库深度联动,支持 37 种编程语言并减少 73% 的代码漏洞风险;Qoder 通过上下文工程(Context Engineering)实现"Repo Wiki + Quest Mode"(自主编程模式),代码审查耗时减少 50%,代码质量提升一倍;国内 CodeBuddy 基于混元 + DeepSeek 双模型架构,中文提示理解准确率领先竞品 15%,端到端响应延迟仅 120ms。
一个典型的对话式开发工作流:
- 用中文描述意图 → 2) 生成骨架与单测 → 3) 运行失败用日志回溯 → 4) 代理自动修复 → 5) MCP 工具调用与权限隔离 → 6) 推送 MR 并附带评审要点与风险提示。
核心工程考量:
- 上下文工程:Qoder、Claude Code 等工具已将缓存视为降低成本、提升性能的核心能力,高命中率缓存可显著减少模型计算开销,尤其在 Agent 场景(高频、前序请求重复)效果显著。
- MCP 标准化:Model Context Protocol 已成为 AI 客户端与外部服务交互的标准协议,通过 MCP 将应用能力、资源查询、提示模板暴露给模型,支持安全的工具调用与交互反馈确认机制。
- Quest 模式(自主编程):Qoder 等工具支持 Spec 驱动的任务委派,让 AI 自主完成开发、测试、重构与 Bug 修复,无需开发者深度介入。
2. Deep Research / AI Scientist(深度研究)
Deep Research 强调让 AI 具备"科研能力"的范式:假设生成、文献回顾、数据建模、对照实验与证据链输出。价值点:缩短科研周期、扩大知识边界,实现"机器共研"。代表方向包括 OpenAI Deep Research 与 Perplexity Pro Research。
2025 年趋势关键词:从 Retrieval → Reasoning → 神经符号融合。检索不再是终点,链式/图式推理与工具使用(如 Python、搜索、表格、计算)成为标准能力。设计一个"可复现"的研究代理,建议包含:
- 证据溯源与可核验引用(Citation):每条信息都可追溯到来源 URL 与引用编号。
- 反驳与对比实验(Counterfactual/Ablation):提供多个假设对比与局限性说明。
- 数据与 Prompt 版本化,确保复现实验:类似代码版本管理的评估数据管理。
- 神经符号 AI 融合:2025 年研究已证明,LLM 幻觉具有数学上的不可完全消除性(源于 Gödel 不完备定理),应通过知识图谱、逻辑规则与神经网络协同,而非单纯依赖微调或 RAG。
3. AI OS / AI Runtime(AI 自动化系统)
AI Runtime 将 AI 下沉至操作系统与运行时,让代理直接跨应用执行任务,用户以“意图”描述目标。代表方向:Anthropic Computer Use、OpenDevin、A2A/MCP 工具生态。趋势关键词:从 Copilot → Autopilot,AI 从协助走向自主执行。
工程落地要点:
- 工具编排与权限隔离:为高风险操作设置“二次确认 + 回滚点”。
- 观察与可追踪性:全链路追踪(如 OpenTelemetry)记录每一步工具调用与上下文。
- 安全护栏:越权检测、提示注入防护、数据脱敏与输出合规。
4. AI x DevOps(AI 研发自动化)
定义:AI 深度介入研发运维周期,从代码生成、测试、部署到监控,形成自优化闭环。价值:实现"自驱动研发系统",提升研发效率与可靠性,降低重复劳动与人力依赖。趋势:从 CI/CD → CI/AI/CD。2025 年 Gartner 警告:由于成本上升、风险管理不足和投资回报率不明确,预计 40% 以上的 Agent AI 项目将被取消,需要从一开始做好 ROI 衡量与风险控制。
推荐的 CI/AI/CD 流水线骨架:
实践要点:
- 质量关口左移:生成的代码与 prompt 进入仓库前,先过静态扫描、单测与"评测即门禁"(如 LLM 回答质量分数门限 ≥ 0.85)。采用 Ragas 等框架进行 RAG 质量评测,设置最低门限如
context_precision ≥ 0.8、faithfulness ≥ 0.85、answer_relevancy ≥ 0.85。 - 一致性环境:容器化开发 → 容器化评测 → 容器化部署,将"不可预测"变为"可复制"。引入容器镜像签名与 SBOM(软件物料清单)确保供应链可追踪。
- 渐进发布:蓝绿/金丝雀与自动回滚,结合"成本与延迟"基线报警。Agentic AI DevOps 工具可持续扫描可观测性数据,检测多种类型异常(包括上下文异常),支持根本原因分析(RCA)与自动关联告警,减少告警风险。
代表工具与能力(2024-2025 更新):
- 模型服务与推理:vLLM(PagedAttention、连续批处理,OpenAI 兼容 API,支持 INT8/INT4/FP8 量化)参见 https://docs.vllm.ai/;NVIDIA Triton(动态批处理、Ensemble、业务逻辑脚本,适合多模型流水线)参见 https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/batcher.html 与 https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/ensemble_models.html;KServe v0.15+(面向 GenAI 的自动伸缩与观测集成,Kubernetes 原生,支持多模型管理)参见 https://kserve.github.io/website/;BentoML(统一推理平台,易于与 vLLM/自定义服务组合部署)参见 https://docs.bentoml.com/;TensorRT-LLM(NVIDIA 生产级推理引擎,优化推理吞吐与延迟)。
- 观测与度量:OpenTelemetry GenAI 语义约定生态(标准化 LLM Span 属性如
llm.model、llm.input_tokens、rag.context_docs、latency.ms、cost.usd)参见 https://opentelemetry.io/docs/concepts/semantic-conventions/;Langfuse(开源追踪与指标,支持 OTel 导出)参见 https://langfuse.com/docs/observability/overview;Azure AI Foundry Observability 参见 https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/observability;MLflow 追踪与 OTel 兼容。 - 评测与门禁:Ragas(RAG 指标与多轮会话评测)、DeepEval(类 Pytest 的 LLM 单测)、TruLens(RAG Triad 与 OTel 追踪深度集成),支持 RAG/Agent 流水线质量评测。
- 安全与治理:NVIDIA NeMo Guardrails(多维度安全控制、内容审核、prompt 注入防护)参见 https://developer.nvidia.com/nemo-guardrails;Guardrails AI(结构化输出验证、Reask 策略、PII 脱敏)参见 https://guardrailsai.com/docs/;NIST AI RMF 1.0 与生成式 AI Profile 参见 https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1331.ipd.pdf。
5. AI Native Product Design(AI 原生产品设计)
AI 原生产品以 AI 为中枢,从交互、视觉到逻辑生成均可由 AI 实时驱动。代表方向包含 Framer AI、Uizard、Runway、Pika 等。关键在于"生成与编辑并重",保持人机共创而非全自动生成,从而在速度与可控性之间取得平衡。
2025 年 AI 原生应用架构核心演进(参考阿里云《AI 原生应用架构白皮书》):
- 应用形态升级:从"数字化工具"进化为"智能化助手"。以 Agent 为编排执行单元,通过工具感知与多模态交互完成任务。
- 编排范式转变:从传统"复杂代码逻辑"下沉为"模型推理过程"。Workflow 编排逐步由 LLM 编排替代,多 Agent 协作成为主流方向(而非单 Agent)。
- 数据飞轮建设:沉淀客户/行业数据、行为反馈数据,通过强化学习持续自进化,形成"护城河"。
建议配套能力:
- Prompt 设计版本化与对比试验(A/B):类似代码版本控制。
- 交互中内嵌评测与反馈采集(隐性打分 + 显性评价)。
- 生成内容的事实核查与合规校验(多维度安全护栏)。
- 多 Agent 协作框架:支持跨系统、跨应用的工具调用与权限隔离。
6. LLMOps 与 RAGOps:从原型到生产
2025 年实践共识:对 90%+ 企业场景,优先采用"检索增强生成(RAG)",仅当"模型本身即产品"或领域极窄、数据闭环强时才考虑从零训练/深调优。RAGOps 被提出用于覆盖 RAG 的全生命周期运维:数据引入 → 嵌入与索引 → 检索 → 生成 → 观测与评测 → 迭代优化(参见 arXiv"RAGOps"论述 https://arxiv.org/html/2506.03401v1)。
RAG 技术进展(2025):
- 简化与复杂之争:基础 RAG 流程简单(文档切割 → 向量嵌入 → 相似性检索 → LLM 生成),但知识库"过期"问题凸显。应对方向包括增量更新机制、知识库版本化与衰减策略。
- 混合检索 + 重排:向量相似性检索 + 关键词 BM25 检索 + 语义重排序,显著提升检索精准度。GraphRAG(知识图谱增强检索)适用于强关系领域知识。
- 多模态 RAG:RAG-Anything 框架支持文本、表格、图像、公式等多模态知识检索与关联分析。
RAG 生产级架构要点:
- 数据层:来源治理、清洗与增量更新(避免知识库"过期")。定期回归评测确保数据质量。
- 检索层:混合检索与重排序;GraphRAG 适用于强关系知识(参考 https://docs.cloud.google.com/architecture/gen-ai-graphrag-spanner);上下文缓存减少重复检索开销。
- 评测层:优先使用"上下文精准度(Context Precision)、事实一致性(Faithfulness)、答案相关性(Answer Relevancy)"等指标(Ragas/TruLens/DeepEval)。设置最低门限并纳入 CI/AI/CD 流程。
- 观测层:全链路追踪(OpenTelemetry)与成本/延迟/质量仪表盘(Langfuse、云厂商 Observability)。
评测门禁建议(以 Ragas 为例,参考 https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/):
- 设置最低门限:
context_precision ≥ 0.8、faithfulness ≥ 0.85、answer_relevancy ≥ 0.85。 - 将评测分数纳入 CI/AI/CD 质量关口,低于门限禁止上线。
- 按不同模型/用例/环境维度监控评测指标,识别性能衰减点。
7. 模型服务与基础设施选型
自建 vs 云托管:如果需要数据主权/成本可控/灵活优化,自建更合适;对极致稳定性与运维极简,云托管更省心。对比要点:
- vLLM:PagedAttention、连续批处理、推理吞吐领先,OpenAI 兼容,支持多种量化(INT8/INT4/FP8)。适合对成本敏感、需要自定义优化的企业。参见 https://docs.vllm.ai/。
- NVIDIA Triton:动态批处理、Ensemble、业务逻辑脚本,适合多模型流水线与复杂推理图。成熟度高,但学习曲线陡。参见上文链接。
- KServe:Kubernetes 原生推理平台,支持 GenAI 负载的自动伸缩与观测注入。与云平台(GCP、阿里云等)集成良好。参见 https://kserve.github.io/website/。
- BentoML:统一推理平台,易于与 vLLM/自定义服务组合部署。API 设计友好,适合快速原型到生产的演进。参见 https://docs.bentoml.com/。
- 云厂商托管(AWS Bedrock、Azure OpenAI、Google Vertex AI、阿里云):开箱即用,按使用量计费,无运维负担,但成本可能较高且供应商锁定风险。
模型选择 2025 年最佳实践:
- 分层部署:关键路径(用户体验敏感)用大模型(GPT-4o、Claude 3.5);大众路径用中等模型(GPT-4o mini、Claude 3.5 Haiku);后台任务/非实时用小模型(Llama 3, DeepSeek)或开源模型。
- 多模型路由:根据请求复杂度、成本预算、延迟要求实时选择最优模型。这需要建立模型性能基准与成本评测体系。
- 开源 vs 闭源平衡:开源模型(Llama 3 70B、DeepSeek-V3)成本低、可控性强,但需自建运维;闭源模型(OpenAI、Anthropic)效果先进但成本高、数据隐私风险。实践建议:核心业务用开源 + 关键任务按需付费闭源。
部署示例(KServe InferenceService,节选):
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
name: llama3-serve
spec:
predictor:
model:
modelFormat:
name: huggingface
args:
- --model_id=meta-llama/Meta-Llama-3-70B-Instruct
minReplicas: 1
maxReplicas: 58. 观测、评估与质量度量
观测的目标是"看见不可见"。建议以 OpenTelemetry 为统一数据面,结合 Langfuse/云厂商观测基座沉淀指标、日志与追踪。
OpenTelemetry GenAI 语义约定(参考 https://opentelemetry.io/docs/concepts/semantic-conventions/、https://www.dynatrace.com/news/blog/opentelemetry-trends-2025/、Dynatrace 2025 趋势报告)已成为行业标准,统一了 LLM Span 属性定义:
典型 LLM Span 属性示例:
llm.model=llama-3-70b
llm.input_tokens=1024
llm.output_tokens=256
genai.prompt_template=rag-v2
rag.context_docs=5
rag.context.document.id=doc-123
latency.ms=480
cost.usd=0.0031
error.type=hallucination_detected2025 年可观测关键洞察:
- 数据质量放大效应:"垃圾进,垃圾出"在 AI 时代被显著放大。错误的可观测数据不仅导致错误的报表,还引发错误的决策和执行,后果更严重。需要重视语义标注完整性与数据治理的长期投入。
- 上下文工程重要性:对 AI Agent 提供精确、充分的 context 是前提。缺乏上下文信息(如可观测字段的含义、系统运行流程、业务知识)会严重影响 Agent 的理解与决策能力。
- AI 增强的 SRE 角色升维:Agentic AI 接管告警、常规排查等琐碎事务后,SRE 从"救火员"升级为"高可用架构师",负责解决新问题、建立 SOP、审批关键变更。真正的专家型 SRE 因"能带 AI 小弟"而价值倍增。
评测框架速览:
- Ragas:RAG 指标与多轮会话评测,支持自定义评测器(参见 https://docs.ragas.io/en/latest/references/evaluate/)。
- DeepEval:类 Pytest 的 LLM 单测与评测套件,支持 Faithfulness、Answer Relevancy 等多维评测(参见 https://www.datacamp.com/tutorial/deepeval)。
- TruLens:RAG Triad(Context Relevance、Groundedness、Answer Relevance)与 OTel 追踪深度集成(参见 https://www.trulens.org/blog/archive/2025/)。
Context Engineering 实践:类似 Qoder 的做法,通过缓存、向量检索与上下文压缩,确保给模型的 context 既精确又足够。这不仅提升推理效果,还显著降低 Token 成本与延迟。
9. 安全、合规与治理
治理框架:参考 NIST AI RMF 1.0 与生成式 AI Profile(https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1331.ipd.pdf)。
工程控制:
- 护栏与过滤:NVIDIA NeMo Guardrails(多维度安全控制、内容审核、提示注入防护,2024-2025 持续更新,https://developer.nvidia.com/nemo-guardrails)、Guardrails AI(结构化输出验证、Reask 策略、PII 脱敏,https://guardrailsai.com/docs/getting_started/quickstart)。
- 数据与权限:特征/数据访问 RBAC、PII 脱敏、最小权限、审计日志。
- 人在回路:对高风险任务启用人工复核与双签。关键决策(如生成的代码进入主分支、关键业务逻辑变更)需人工审批。
- AI 原生应用网关:阿里云 AgentRun 等平台提供 AI 网关层,无侵入接入多维度安全护栏、Token 流控与配额管理、语义缓存、智能路由等,统一管理 AI 应用的安全与成本。
影子 AI 风险:在组织内大量未授权创建与运行的 AI Agent 可能形成"影子 AI",难以监管。应建立 AI Agent 注册表、审批流程、权限隔离、API 调用审计机制。
幻觉与事实性问题(2025 年新认识):
- OpenAI 2025 年研究证明,LLM 幻觉在数学上具有不可完全消除性,源于 Gödel 不完备定理、数据覆盖有限性、概率生成机制的不确定性。
- 对策:不追求 100% 消除幻觉,而是采用多层防护——RAG 检索支撑(提供事实依据)+ 事实一致性评测(设置门限)+ 神经符号 AI 融合(融入逻辑规则与知识图谱)。
- 引用输出:生成的每条信息都应附带引用来源 URL 与可验证证据,便于人工核查。
10. 成本与性能优化
常用优化手段:
- 推理侧优化:动态批处理(Triton/KServe)、PagedAttention 与连续批处理(vLLM)、量化(INT8/INT4/FP8)、上下文缓存(降低重复计算)、批量推理与请求合并。
- 模型选择:按任务复杂度路由大小模型(高频简单任务用小模型降成本,复杂任务用大模型保效果);考虑开源模型(如 DeepSeek、Llama)与云托管模型的成本-效果 Trade-off。
- 智能路由:基于请求特征、响应时间、成本实时选择最优模型组合(参考 AWS 多模型路由文章 https://aws.amazon.com/blogs/machine-learning/multi-llm-routing-strategies-for-generative-ai-applications-on-aws/)。
- 缓存策略:语义缓存(相同或相似请求复用之前的结果)、Prompt 缓存(长文本重复提示通过缓存降低 Token 成本)。
成本估算公式:
其中 为输入/输出 token 数, 为单价。建议为每个版本/用户/功能打点 token 与 cost,并用仪表盘按环境维度拆分。按月度/用户进行成本分析,识别成本驱动因素与优化空间。
2025 年成本挑战:
- 大模型推理成本因量增而下降,但企业如无成本管理意识可能陷入"成本爆炸"。
- Claude 3.5、GPT-4o mini 等高效小模型的出现,使"模型成本 + 管理开销"成为总成本的关键变量。
- Gartner 预测 2027 年 40%+ Agent 项目失败,一大原因是成本控制不力。
11. 落地路线图(90 天)
- 0-30 天:挑选 1-2 个高价值用例,搭建最小可用 RAG/Agent,接入 Langfuse 追踪与 Ragas 评测;建立 CI/AI/CD 雏形与安全护栏。
- 31-60 天:接入特征/检索数据管线,完善混合检索与重排;上线金丝雀发布与回滚;将评测门禁纳入流水线;引入成本/延迟 SLO。
- 61-90 天:打通全链路观测,按业务指标做对齐优化;扩展多模型路由与量化;补齐合规审计与应急预案。
12. 常见风险与对策
- 幻觉与不实:采用多层防护——启用检索支撑与引用输出 + 事实一致性评测与阈值门禁(Faithfulness ≥ 0.85)+ 神经符号 AI 融合(知识图谱 + 逻辑规则)。根据 OpenAI 2025 年研究,LLM 幻觉具有数学上的不可完全消除性,应采取可接受的容错策略而非追求 100% 消除。
- 提示注入与越权:上下文分层、工具白名单、越权检测(权限校验)与内容安全策略。通过 NeMo Guardrails 等进行多维度防护。
- 数据漂移与知识过期:知识库增量更新与自动回归评测。监控知识库中文档的发布时间与更新频率,定期对比生产质量指标与基线,及时发现性能衰减。
- 供应链风险:模型/依赖签名与 SBOM(软件物料清单),镜像与权重来源可追踪。选择有官方签名与来源验证的模型(如 Hugging Face 官方模型)。
- 成本爆炸:Token 计价透明化、使用量预算管理、按环境分级模型选型(大模型用于关键路径,小模型用于简单任务)、上下文缓存与智能路由。
- Agent 失控:权限隔离、二次确认机制、可回滚部署、可观测追踪。Agent 对关键资源的操作应有明确的审批流程与回滚点。
13. AI 工程师的角色升维与最佳实践
2025 年 Gartner 等业界机构预测,虽然 40%+ 的 Agent AI 项目会被取消,但真正掌握 AI 开发的工程师价值倍增。AI 时代不是淘汰,而是"升维":
角色转变:
- 从"单兵作战"到"AI 小队指挥":不再是实现某个特定功能,而是用 AI Agent 协助完成复杂任务。工程师成为 Agent 的设计者、教练与验证者。
- 从"编写代码"到"编程意图":借助 Vibe Coding,用自然语言描述需求,AI 生成代码骨架,人工审核与精化。这要求工程师具备"上下文工程"思维——如何提供充足、精确的 context。
- 从"救火员"到"架构师":特别是 SRE,不再是被动响应告警,而是用 Agentic AI 进行根本原因分析(RCA)与系统架构优化。
- 从"不可解释"到"可验证":所有 AI 生成的内容(代码、分析结果、决策)都应有可追踪的证据链与可核查的来源引用。
核心能力要求:
- Prompt 工程与上下文管理:学会用结构化思维设计 Prompt、版本管理 Prompt、A/B 对比评测 Prompt 效果。
- 评测与度量体系:建立 RAG、Agent、生成式 AI 系统的质量评测体系。掌握 Ragas、DeepEval 等框架,设置合理门限。
- 可观测性与追踪:深入理解 OpenTelemetry、Langfuse 等,设计有效的 Span 属性与指标,实现全链路可见性。
- 安全与合规:了解 NIST AI RMF、幻觉风险、提示注入攻击、PII 脱敏等,能独立设计安全护栏。
- 数据治理与飞轮:重视数据质量、版本管理、强化学习反馈闭环,将"垃圾进垃圾出"的风险最小化。
- 成本意识:理解不同模型、优化手段的成本-效果 Trade-off,能做出数据驱动的决策。
学习路线建议(90 天快速入门)**:
- 0-20 天:掌握 RAG 基础,用开源框架(如 LangChain、LlamaIndex)搭建第一个 RAG 原型。
- 21-40 天:学习 Prompt 工程与上下文优化,体验 Cursor/Qoder 等 AI IDE,理解 Vibe Coding 工作流。
- 41-60 天:深入可观测性与评测,用 Langfuse + Ragas 构建评测系统,发现质量问题并迭代优化。
- 61-90 天:设计完整的 CI/AI/CD 流水线,接入安全护栏与成本管理,实现从原型到生产的闭环。
14. 参考与延伸阅读(部分 2024-2025)
- AI 原生应用架构:阿里云《AI 原生应用架构白皮书》https://developer.aliyun.com/ebook/8479(覆盖 11 大要素:模型、框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估、安全)。
- RAGOps(arXiv):https://arxiv.org/html/2506.03401v1
- Google Cloud:RAG 检索优化与评测 https://cloud.google.com/blog/products/ai-machine-learning/optimizing-rag-retrieval
- Google Cloud:GraphRAG 架构参考 https://docs.cloud.google.com/architecture/gen-ai-graphrag-spanner
- Vertex AI:生成式 AI 与 RAG 更新 https://docs.cloud.google.com/vertex-ai/generative-ai/docs/release-notes
- Azure AI Foundry:生成式 AI 观测 https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/observability
- AWS Well-Architected:Generative AI Lens(2025)https://docs.aws.amazon.com/pdfs/wellarchitected/latest/generative-ai-lens/generative-ai-lens.pdf
- AI 编程工具生态:国内外主流 AI 辅助编程工具对比(Cursor、GitHub Copilot X、Qoder、CodeBuddy)。
- Agentic AI 与 DevOps:IBM DevOps Accelerate,超越左移的 AI 智能体架构实践。
- vLLM 文档:https://docs.vllm.ai/(PagedAttention、量化支持)
- NVIDIA Triton:动态批处理 https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/batcher.html
- NVIDIA Triton:Ensemble 模型 https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/ensemble_models.html
- KServe:https://kserve.github.io/website/(Kubernetes 原生推理平台)
- BentoML 文档:https://docs.bentoml.com/
- OpenTelemetry:语义约定 https://opentelemetry.io/docs/concepts/semantic-conventions/
- Dynatrace:OpenTelemetry 2025 趋势 https://www.dynatrace.com/news/blog/opentelemetry-trends-2025/
- Langfuse:观测与指标 https://langfuse.com/docs/observability/overview
- Ragas:指标与评测 https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/
- DeepEval:概览 https://www.datacamp.com/tutorial/deepeval
- TruLens:与 OTel 集成 https://www.trulens.org/blog/archive/2025/
- NIST AI RMF 1.0:与生成式 AI Profile https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1331.ipd.pdf
- NVIDIA NeMo Guardrails:https://developer.nvidia.com/nemo-guardrails
- Guardrails AI:https://guardrailsai.com/docs/getting_started/quickstart
- LLM 幻觉最新研究:OpenAI 2025、苹果论文(精准定位幻觉类型)、神经符号 AI 融合方向。
- AI Agent 安全:Agentic AI 工程蓝图、Agent 设计模式、多 Agent 协作框架。
- AWS 多模型路由:https://aws.amazon.com/blogs/machine-learning/multi-llm-routing-strategies-for-generative-ai-applications-on-aws/