采样

协议修订版本：2025-06-18

Model Context Protocol (MCP) 提供了一种标准化方式，让服务器可以通过客户端向语言模型请求 LLM 采样（"补全"或"生成"）。这种流程允许客户端保持对模型访问、选择和权限的控制，同时使服务器能够利用 AI 能力——无需服务器 API 密钥。服务器可以请求基于文本、音频或图像的交互，并可选择在其提示中包含来自 MCP 服务器的上下文。

1. 用户交互模型

MCP 中的采样允许服务器实现智能体行为，通过在其他 MCP 服务器功能内部启用 LLM 调用来实现嵌套。

实现可以自由地通过任何适合其需求的接口模式来公开采样——协议本身不强制任何特定的用户交互模型。

WARNING

出于信任、安全和防护考虑，应该始终有人工参与，并具有拒绝采样请求的能力。

应用程序应该：

提供使审查采样请求变得简单直观的 UI
允许用户在发送前查看和编辑提示
在传递前展示生成的响应供审查

2. 能力声明

支持采样的客户端必须在初始化期间声明 sampling 能力：

json

{
  "capabilities": {
    "sampling": {}
  }
}

3. 协议消息

3.1 创建消息

要请求语言模型生成，服务器发送 sampling/createMessage 请求：

请求：

json

{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What is the capital of France?"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "You are a helpful assistant.",
    "maxTokens": 100
  }
}

响应：

json

{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "The capital of France is Paris."
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}

4. 消息流程

5. 数据类型

5.1 消息

采样消息可以包含：

5.1.1 文本内容

json

{
  "type": "text",
  "text": "The message content"
}

5.1.2 图像内容

json

{
  "type": "image",
  "data": "base64-encoded-image-data",
  "mimeType": "image/jpeg"
}

5.1.3 音频内容

json

{
  "type": "audio",
  "data": "base64-encoded-audio-data",
  "mimeType": "audio/wav"
}

5.2 模型偏好

MCP 中的模型选择需要仔细抽象，因为服务器和客户端可能使用不同的 AI 提供商，具有不同的模型产品。服务器不能简单地按名称请求特定模型，因为客户端可能无法访问该确切模型，或者可能更倾向于使用不同提供商的等效模型。

为了解决这个问题，MCP 实现了一个偏好系统，该系统将抽象能力优先级与可选模型提示相结合：

5.2.1 能力优先级

服务器通过三个标准化优先级值（0-1）表达其需求：

costPriority：最小化成本有多重要？较高的值偏好更便宜的模型。
speedPriority：低延迟有多重要？较高的值偏好更快的模型。
intelligencePriority：高级能力有多重要？较高的值偏好更有能力的模型。

5.2.2 模型提示

虽然优先级有助于根据特征选择模型，但 hints 允许服务器建议特定的模型或模型系列：

提示被视为可以灵活匹配模型名称的子字符串
多个提示按偏好顺序评估
客户端可以将提示映射到来自不同提供商的等效模型
提示是建议性的——客户端做出最终模型选择

例如：

json

{
  "hints": [
    { "name": "claude-3-sonnet" }, // 偏好 Sonnet 级别的模型
    { "name": "claude" } // 回退到任何 Claude 模型
  ],
  "costPriority": 0.3, // 成本不那么重要
  "speedPriority": 0.8, // 速度非常重要
  "intelligencePriority": 0.5 // 中等能力需求
}

客户端处理这些偏好以从其可用选项中选择合适的模型。例如，如果客户端无法访问 Claude 模型但有 Gemini，它可能会根据类似的能力将 sonnet 提示映射到 gemini-1.5-pro。

6. 错误处理

客户端应该为常见故障情况返回错误：

错误示例：

json

{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "User rejected sampling request"
  }
}

7. 安全考虑

客户端应该实现用户批准控制
双方应该验证消息内容
客户端应该尊重模型偏好提示
客户端应该实现速率限制
双方必须适当处理敏感数据

规范说明

MCP 客户端功能概述

MCP 服务器功能概述

其他功能

工具

Python 工程化指南

《Python 实现 AsyncIO HTTP 服务器》章节大纲

数学引擎

NCNN 教程

IM 系统设计指南

采样 ​

1. 用户交互模型 ​

2. 能力声明 ​

3. 协议消息 ​

3.1 创建消息 ​

4. 消息流程 ​

5. 数据类型 ​

5.1 消息 ​

5.1.1 文本内容 ​

5.1.2 图像内容 ​

5.1.3 音频内容 ​

5.2 模型偏好 ​

5.2.1 能力优先级 ​

5.2.2 模型提示 ​

6. 错误处理 ​

7. 安全考虑 ​

采样

1. 用户交互模型

2. 能力声明

3. 协议消息

3.1 创建消息

4. 消息流程

5. 数据类型

5.1 消息

5.1.1 文本内容

5.1.2 图像内容

5.1.3 音频内容

5.2 模型偏好

5.2.1 能力优先级

5.2.2 模型提示

6. 错误处理

7. 安全考虑