深度推理
thinking(深度推理)档的语义与触发方式、如何显式开关、计价为对应档位溢价的机制说明、不可见推理词元不另计费的口径,以及首个词元时延指标仅适用常规档的标注
平台支持深度推理(thinking):对需要多步分析、严密推断的复杂查询,模型在给出最终回答前先进行一段"思考",通常能得到更稳妥的结果。本页说明 thinking 档的语义、如何在请求中显式开关、它在计量上如何作为档位溢价体现,以及它对首个词元时延指标的影响。
一句话定位。 thinking 是计量档位层面的开关,而非另一类接口——同一个 统一查询入口 既可走常规(no-thinking)档,也可走深度推理(thinking)档,由请求参数与平台研判共同决定。
1. thinking 档的语义
平台对每一次查询按两种推理档处理:
| 推理档 | 含义 | 适用场景 |
|---|---|---|
| no-thinking(常规档) | 模型直接作答,不额外展开思考过程 | 问答、改写、归纳、抽取等可直接作答的查询 |
| thinking(深度推理档) | 模型先进行一段内部推理,再给出最终回答 | 多步推理、严密论证、复杂代码、数学求解等需要分步思考的查询 |
深度推理档下,模型产生的"思考"属于其内部推理过程,对您不可见——平台只把最终回答内容返回给您,不返回中间思考文本。是否走 thinking 档,会随每一次调用记录以二值标识(thinking)标注,您可在 用量明细与计量说明 的逐条记录中按推理档筛选复核。
2. 何时触发 thinking 档
thinking 档由两条路径触发,二者可叠加:
- 平台自动研判。 平台按查询复杂度自动研判(见 文档中心 · 平台如何工作)。被研判为"复杂"的查询,可能由平台择优路由至具备深度推理能力的模型并启用 thinking 档,以提升作答质量。复杂度研判结果随逐条记录的
complexity字段呈现。 - 请求显式开关。 您也可以在请求中显式声明本次是否使用 thinking 档(见下文)。显式声明优先于自动研判:显式关闭时本次按常规档处理,显式开启时本次按深度推理档处理。
能力以模型清单标注为准。 并非所有模型都支持深度推理。某个模型是否具备 thinking 能力,以 模型列表接口 返回的能力标注为准;对不支持深度推理的模型显式开启 thinking,平台会按常规档处理并在响应中据实标注。
3. 如何显式开关
在数据平面 /v1/chat/completions 请求体中,通过 thinking 字段显式声明本次查询的推理档:
curl https://<平台入口地址>/v1/chat/completions \
-H "Authorization: Bearer <您的 API 密钥>" \
-H "Content-Type: application/json" \
-d '{
"model": "<模型名>",
"messages": [
{ "role": "user", "content": "请逐步推导这道题的解法,并说明每一步的依据。" }
],
"thinking": true,
"stream": false
}'| 字段 | 取值 | 含义 |
|---|---|---|
thinking | true | 显式开启深度推理档(模型先思考后作答) |
thinking | false | 显式关闭,按常规档直接作答 |
thinking | 省略 | 由平台按复杂度研判自动决定本次推理档 |
响应在标准 OpenAI 兼容结构之上,于 usage 中据实回填本次的推理档与适用单价档:
{
"object": "chat.completion",
"model": "<本次实际路由的模型名>",
"choices": [
{
"index": 0,
"message": { "role": "assistant", "content": "..." },
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 0,
"completion_tokens": 0,
"total_tokens": 0,
"cached_input_tokens": 0,
"price_tier": "<本次适用单价档>",
"thinking": true
}
}以响应回填为准。 请求中的
thinking是您的诉求,最终是否按深度推理档计量以响应usage.thinking回填为准——当所路由模型不支持深度推理时,本次会落回常规档,usage.thinking据实返回false。
4. 深度推理请求的处理流
下图描述一次查询从进入平台到返回的处理路径,以及推理档在其中的确定时机:
5. 计价:thinking 为档位溢价
深度推理在计价上不是"新增一项收费",而是落入更高的单价档。平台的 6 档统一计价词元口径 中,输入与输出各自再分 thinking 与 no-thinking 两档;thinking 档相对常规档为单价溢价,机制如下:
| 计量方向 | 常规档 | 深度推理档 |
|---|---|---|
| 输入·缓存命中 | 命中档(计价更低) | 命中档 + thinking 溢价 |
| 输入·缓存未命中 | 标准输入档 | 标准输入档 + thinking 溢价 |
| 输出 | 标准输出档 | 标准输出档 + thinking 溢价 |
几条计价口径要点:
- 溢价只体现为单价档差异。 thinking 档的成本差异完全反映在适用单价档(
price_tier)上,逐条调用记录会标注本次落入 6 档中的哪一档;用量明细、月度结算单与逐条记录三处口径一致、数字同源。 - 不可见推理词元不另计费。 模型在深度推理过程中产生的、对您不可见的内部思考词元,平台不另行计量、不向您计费——thinking 的成本差异仅以单价档位溢价的形式呈现,不会额外多出一笔"思考词元"用量。您看到的输入 / 输出统一计价词元数,与常规档采用同一套计量口径。
- 具体单价不在文档中固化。 各档的具体单价、thinking 相对常规档的溢价倍率等商务数值以服务协议价格表与控制台实时口径为准,本页只说明"thinking 为档位溢价"这一计价机制。
如何预估深度推理的费用。 发起查询前,您可用 可核验计数接口 在请求体中带上
thinking: true,按深度推理档预先计数,据此预判本次查询的统一计价词元用量与适用单价档。
6. 对首个词元时延的影响
深度推理档因模型先思考后作答,首个输出词元的返回时间显著长于常规档。因此平台的服务质量指标对二者区别对待:
- 首个词元输出反馈时长 P95 仅适用 no-thinking(常规)档。 该 SLA 指标只就常规档查询测算,thinking 档查询因上游推理特性,首个词元返回时间显著较长,不计入该指标。控制台展示该指标时会明确标注「仅 no-thinking 档」。
- 查询路由处理延时 P95 不受影响。 该指标只考核平台自身的处理开销(复杂度研判、安全护栏、转发),不含上游模型的推理与生成时延,故无论常规档还是深度推理档,平台侧的处理延时考核口径一致。
上述两项指标的含义、统计口径与排除项,详见 服务质量(SLA)说明。
流式可缓解首词元等待。 若对交互体感敏感,可对深度推理查询使用流式(
stream: true),平台以 OpenAI 兼容的分片形态在最终回答可下发时逐段返回,每个分片同样经平台护栏处置。流式用法见 快速接入指南 · 发起流式查询。
相关链接
| 章节 | 内容 |
|---|---|
| 用量明细与计量说明 | 统一计价词元 6 档计量口径、thinking 档的逐条标注与可核验计数 |
| 服务质量(SLA)说明 | 首个词元时延(仅 no-thinking 档)与查询路由处理延时的统计口径 |
| 快速接入指南 | 统一入口、模型列表接口与流式查询 |
| 工具调用 | 在深度推理基础上让模型调用外部函数 |