采样 
协议修订版本:2025-06-18
Model Context Protocol (MCP) 提供了一种标准化方式,让服务器可以通过客户端向语言模型请求 LLM 采样("补全"或"生成")。这种流程允许客户端保持对模型访问、选择和权限的控制,同时使服务器能够利用 AI 能力——无需服务器 API 密钥。服务器可以请求基于文本、音频或图像的交互,并可选择在其提示中包含来自 MCP 服务器的上下文。
1. 用户交互模型 
MCP 中的采样允许服务器实现智能体行为,通过在其他 MCP 服务器功能内部启用 LLM 调用来实现嵌套。
实现可以自由地通过任何适合其需求的接口模式来公开采样——协议本身不强制任何特定的用户交互模型。
WARNING
出于信任、安全和防护考虑,应该始终有人工参与,并具有拒绝采样请求的能力。
应用程序应该:
- 提供使审查采样请求变得简单直观的 UI
- 允许用户在发送前查看和编辑提示
- 在传递前展示生成的响应供审查
2. 能力声明 
支持采样的客户端必须在初始化期间声明 sampling 能力:
{
  "capabilities": {
    "sampling": {}
  }
}3. 协议消息 
3.1 创建消息 
要请求语言模型生成,服务器发送 sampling/createMessage 请求:
请求:
{
  "jsonrpc": "2.0",
  "id": 1,
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What is the capital of France?"
        }
      }
    ],
    "modelPreferences": {
      "hints": [
        {
          "name": "claude-3-sonnet"
        }
      ],
      "intelligencePriority": 0.8,
      "speedPriority": 0.5
    },
    "systemPrompt": "You are a helpful assistant.",
    "maxTokens": 100
  }
}响应:
{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "role": "assistant",
    "content": {
      "type": "text",
      "text": "The capital of France is Paris."
    },
    "model": "claude-3-sonnet-20240307",
    "stopReason": "endTurn"
  }
}4. 消息流程 
5. 数据类型 
5.1 消息 
采样消息可以包含:
5.1.1 文本内容 
{
  "type": "text",
  "text": "The message content"
}5.1.2 图像内容 
{
  "type": "image",
  "data": "base64-encoded-image-data",
  "mimeType": "image/jpeg"
}5.1.3 音频内容 
{
  "type": "audio",
  "data": "base64-encoded-audio-data",
  "mimeType": "audio/wav"
}5.2 模型偏好 
MCP 中的模型选择需要仔细抽象,因为服务器和客户端可能使用不同的 AI 提供商,具有不同的模型产品。服务器不能简单地按名称请求特定模型,因为客户端可能无法访问该确切模型,或者可能更倾向于使用不同提供商的等效模型。
为了解决这个问题,MCP 实现了一个偏好系统,该系统将抽象能力优先级与可选模型提示相结合:
5.2.1 能力优先级 
服务器通过三个标准化优先级值(0-1)表达其需求:
- costPriority:最小化成本有多重要?较高的值偏好更便宜的模型。
- speedPriority:低延迟有多重要?较高的值偏好更快的模型。
- intelligencePriority:高级能力有多重要?较高的值偏好更有能力的模型。
5.2.2 模型提示 
虽然优先级有助于根据特征选择模型,但 hints 允许服务器建议特定的模型或模型系列:
- 提示被视为可以灵活匹配模型名称的子字符串
- 多个提示按偏好顺序评估
- 客户端可以将提示映射到来自不同提供商的等效模型
- 提示是建议性的——客户端做出最终模型选择
例如:
{
  "hints": [
    { "name": "claude-3-sonnet" }, // 偏好 Sonnet 级别的模型
    { "name": "claude" } // 回退到任何 Claude 模型
  ],
  "costPriority": 0.3, // 成本不那么重要
  "speedPriority": 0.8, // 速度非常重要
  "intelligencePriority": 0.5 // 中等能力需求
}客户端处理这些偏好以从其可用选项中选择合适的模型。例如,如果客户端无法访问 Claude 模型但有 Gemini,它可能会根据类似的能力将 sonnet 提示映射到 gemini-1.5-pro。
6. 错误处理 
客户端应该为常见故障情况返回错误:
错误示例:
{
  "jsonrpc": "2.0",
  "id": 1,
  "error": {
    "code": -1,
    "message": "User rejected sampling request"
  }
}7. 安全考虑 
- 客户端应该实现用户批准控制
- 双方应该验证消息内容
- 客户端应该尊重模型偏好提示
- 客户端应该实现速率限制
- 双方必须适当处理敏感数据