缓存
平台涉及的两层缓存——上游提示缓存(影响计量档位、据实透传)与平台响应缓存(语义复用、降低时延),两者的口径区别、计费呈现与读法
平台在处理您的查询时,涉及两层彼此独立的缓存:一层来自上游模型供应商,影响您这次查询落在哪个输入计价档;另一层是平台侧的响应复用能力,对相近查询复用历史响应以降低时延。两者作用不同、记录字段不同、对计费的影响也不同,本页讲清它们的区别与读法。
一句话区分。 上游提示缓存决定本次查询按哪个输入档计价(仍会真实调用模型);平台响应缓存决定本次查询是否复用一条历史响应(命中则更快返回)。前者是计量口径主线,后者是可选的提速能力。
1. 两层缓存对照
| 维度 | 上游提示缓存 | 平台响应缓存 |
|---|---|---|
| 作用 | 让本次查询的输入命中更低的计价档 | 对相近查询复用此前已生成的响应,降低时延 |
| 命中以谁为准 | 以上游模型供应商返回为准,平台据实透传 | 平台侧研判(相近查询复用) |
| 是否仍调用模型 | 仍真实调用,只是落更低输入档 | 命中则复用历史响应、更快返回 |
| 对计量的影响 | 命中落「输入·缓存命中」档(计价更低,见 用量明细) | 计费呈现以结算单与服务协议为准 |
| 逐条记录字段 | cache_hit(布尔) | 独立的响应复用标识 |
| 是否默认启用 | 随上游能力自动生效、无需配置 | 可选能力,按服务协议与控制台约定启用 |
不要把两者混为一谈。 一次查询完全可能「上游提示缓存未命中、但平台响应缓存命中」,或反之。两个标识在逐条记录中并行存在、各表其义,不互相替代。
2. 上游提示缓存(计量口径主线)
这一层与计费直接相关,口径与 用量明细与计量说明 严格一致:
- 以上游返回为准。 本次查询的输入是否命中缓存,由上游模型供应商在其返回中标注,平台据实透传,不由平台本地预设或假定。
- 据实透传到逐条记录。 命中态以逐条调用记录中的
cache_hit标识真实呈现,您可在用量明细中按此筛选复核。 - 命中落更低输入档。 命中的输入统一计价词元,按更低的「输入·缓存命中」档计价;6 档计量结构详见 用量明细 · 6 档计量结构。
- 命中不跳过上游调用。 上游提示缓存命中仍会真实调用上游模型——它只影响输入计价档位,不省去这次模型推理,与下文平台响应缓存「复用历史响应、不再生成」是两回事。
逐条调用记录中,该层缓存以 cache_hit 呈现:
{
"call_id": "<调用唯一标识>",
"cache_hit": false,
"thinking": false,
"input_tokens": 0,
"output_tokens": 0,
"price_tier": "<本次适用单价档(6 档之一)>",
"charge_amount": 0
}| 字段 | 含义 |
|---|---|
cache_hit | 是否命中上游提示缓存(布尔);命中按更低的「输入·缓存命中」档计价 |
price_tier | 本次适用单价档,对应 用量明细 第 2 节 6 档之一 |
口径一致承诺。 此处
cache_hit与计数接口、用量明细、月度结算单中的缓存口径完全同源——是否命中以上游返回为准、命中落更低输入档、不跳过上游调用。任一处口径不一致时,以服务协议与控制台为准并联系我们核对。
3. 平台响应缓存(语义复用,可选能力)
平台另提供一项响应复用能力:对内容相近的查询,复用此前已生成过的响应,从而更快返回、降低时延。它不只看「两次查询字面是否完全一样」,也能识别「措辞不同但意图相近」的查询。
该能力为可选,是否启用、对哪些业务线启用,以服务协议与控制台约定为准。命中时:
- 复用历史响应。 命中即以此前的响应内容返回,时延从「等模型完整生成一次」降到「一次响应读取」。
- 逐条记录独立标识。 响应复用在逐条调用记录中以独立标识呈现,与上游提示缓存的
cache_hit是两个并行字段,便于您事后区分这次走的是复用还是新生成。 - 安全防护照常。 复用的内容仍要经过平台 安全防护 的出站复核(脱敏、应拒答等),复用只是提速手段,不绕过任何防护处置。
计费呈现以结算单为准。 平台响应缓存命中时,本次查询的计费如何呈现,以月度结算单与服务协议为准——本页不就此发明任何具体数值、折扣比例或免计费承诺。您可在逐条调用记录中按响应复用标识筛选,结合 账单与结算 核对当期计费构成。
4. 一次查询的缓存研判路径
下图说明一次查询在平台内如何先经平台响应缓存研判、再到模型调用、最终在返回时一并标注两层缓存的口径:
读图要点:
- 左分支(平台响应缓存命中) 复用历史响应、不再生成,更快返回;本次是否计费以结算单与服务协议为准。
- 右分支(调用模型) 真实调用上游,再按上游返回判定提示缓存命中态、落对应输入计价档(命中更低档)。
- 无论走哪条分支,返回前都经 安全防护 出站复核,并在逐条记录中一并标注两层缓存的口径。
5. 常见疑问
| 疑问 | 说明 |
|---|---|
| 上游提示缓存命中是否省了一次模型调用? | 不省。它仍真实调用上游,只是输入落更低计价档。 |
| 平台响应缓存命中是否还调用模型? | 命中即复用历史响应、不再向模型发起新生成,故更快返回。 |
| 两个标识会同时为真吗? | 可能各自独立:响应缓存未命中的查询仍可能在调用模型时落上游提示缓存命中档;响应缓存命中的查询则不再新调用模型。 |
| 缓存会影响数据安全吗? | 复用内容同样经安全防护复核;数据留存与隐私口径详见 数据保留与隐私。 |
| 缓存命中时怎么计费? | 上游提示缓存命中按更低输入档计价(见 用量明细);平台响应缓存的计费呈现以结算单与服务协议为准。 |