天枢星通Docs
进阶能力

缓存

平台涉及的两层缓存——上游提示缓存(影响计量档位、据实透传)与平台响应缓存(语义复用、降低时延),两者的口径区别、计费呈现与读法

平台在处理您的查询时,涉及两层彼此独立的缓存:一层来自上游模型供应商,影响您这次查询落在哪个输入计价档;另一层是平台侧的响应复用能力,对相近查询复用历史响应以降低时延。两者作用不同、记录字段不同、对计费的影响也不同,本页讲清它们的区别与读法。

一句话区分。 上游提示缓存决定本次查询按哪个输入档计价(仍会真实调用模型);平台响应缓存决定本次查询是否复用一条历史响应(命中则更快返回)。前者是计量口径主线,后者是可选的提速能力。

1. 两层缓存对照

维度上游提示缓存平台响应缓存
作用让本次查询的输入命中更低的计价档对相近查询复用此前已生成的响应,降低时延
命中以谁为准以上游模型供应商返回为准,平台据实透传平台侧研判(相近查询复用)
是否仍调用模型仍真实调用,只是落更低输入档命中则复用历史响应、更快返回
对计量的影响命中落「输入·缓存命中」档(计价更低,见 用量明细计费呈现以结算单与服务协议为准
逐条记录字段cache_hit(布尔)独立的响应复用标识
是否默认启用随上游能力自动生效、无需配置可选能力,按服务协议与控制台约定启用

不要把两者混为一谈。 一次查询完全可能「上游提示缓存未命中、但平台响应缓存命中」,或反之。两个标识在逐条记录中并行存在、各表其义,不互相替代。

2. 上游提示缓存(计量口径主线)

这一层与计费直接相关,口径与 用量明细与计量说明 严格一致

  • 以上游返回为准。 本次查询的输入是否命中缓存,由上游模型供应商在其返回中标注,平台据实透传,不由平台本地预设或假定。
  • 据实透传到逐条记录。 命中态以逐条调用记录中的 cache_hit 标识真实呈现,您可在用量明细中按此筛选复核。
  • 命中落更低输入档。 命中的输入统一计价词元,按更低的「输入·缓存命中」档计价;6 档计量结构详见 用量明细 · 6 档计量结构
  • 命中不跳过上游调用。 上游提示缓存命中仍会真实调用上游模型——它只影响输入计价档位,不省去这次模型推理,与下文平台响应缓存「复用历史响应、不再生成」是两回事。

逐条调用记录中,该层缓存以 cache_hit 呈现:

{
  "call_id": "<调用唯一标识>",
  "cache_hit": false,
  "thinking": false,
  "input_tokens": 0,
  "output_tokens": 0,
  "price_tier": "<本次适用单价档(6 档之一)>",
  "charge_amount": 0
}
字段含义
cache_hit是否命中上游提示缓存(布尔);命中按更低的「输入·缓存命中」档计价
price_tier本次适用单价档,对应 用量明细 第 2 节 6 档之一

口径一致承诺。 此处 cache_hit 与计数接口、用量明细、月度结算单中的缓存口径完全同源——是否命中以上游返回为准、命中落更低输入档、不跳过上游调用。任一处口径不一致时,以服务协议与控制台为准并联系我们核对。

3. 平台响应缓存(语义复用,可选能力)

平台另提供一项响应复用能力:对内容相近的查询,复用此前已生成过的响应,从而更快返回、降低时延。它不只看「两次查询字面是否完全一样」,也能识别「措辞不同但意图相近」的查询。

该能力为可选,是否启用、对哪些业务线启用,以服务协议与控制台约定为准。命中时:

  • 复用历史响应。 命中即以此前的响应内容返回,时延从「等模型完整生成一次」降到「一次响应读取」。
  • 逐条记录独立标识。 响应复用在逐条调用记录中以独立标识呈现,与上游提示缓存的 cache_hit 是两个并行字段,便于您事后区分这次走的是复用还是新生成。
  • 安全防护照常。 复用的内容仍要经过平台 安全防护 的出站复核(脱敏、应拒答等),复用只是提速手段,不绕过任何防护处置。

计费呈现以结算单为准。 平台响应缓存命中时,本次查询的计费如何呈现,以月度结算单与服务协议为准——本页不就此发明任何具体数值、折扣比例或免计费承诺。您可在逐条调用记录中按响应复用标识筛选,结合 账单与结算 核对当期计费构成。

4. 一次查询的缓存研判路径

下图说明一次查询在平台内如何先经平台响应缓存研判、再到模型调用、最终在返回时一并标注两层缓存的口径:

查询请求进入 平台响应缓存 是否命中相近查询 复用历史响应 更快返回 调用上游模型 上游返回是否标注提示缓存命中 本次输入落 缓存命中 计价档 本次输入落 缓存未命中 计价档 安全防护出站复核 返回结果 并标注两层缓存口径

读图要点:

  • 左分支(平台响应缓存命中) 复用历史响应、不再生成,更快返回;本次是否计费以结算单与服务协议为准。
  • 右分支(调用模型) 真实调用上游,再按上游返回判定提示缓存命中态、落对应输入计价档(命中更低档)。
  • 无论走哪条分支,返回前都经 安全防护 出站复核,并在逐条记录中一并标注两层缓存的口径。

5. 常见疑问

疑问说明
上游提示缓存命中是否省了一次模型调用?不省。它仍真实调用上游,只是输入落更低计价档。
平台响应缓存命中是否还调用模型?命中即复用历史响应、不再向模型发起新生成,故更快返回。
两个标识会同时为真吗?可能各自独立:响应缓存未命中的查询仍可能在调用模型时落上游提示缓存命中档;响应缓存命中的查询则不再新调用模型。
缓存会影响数据安全吗?复用内容同样经安全防护复核;数据留存与隐私口径详见 数据保留与隐私
缓存命中时怎么计费?上游提示缓存命中按更低输入档计价(见 用量明细);平台响应缓存的计费呈现以结算单与服务协议为准。

相关链接

章节内容
用量明细与计量说明统一计价词元 6 档计量口径、cache_hit 逐条字段与可核验计数
账单与结算月度服务费用结算单读法、含税口径与确认流程
安全防护复用内容同样经过的出站护栏复核
数据保留与隐私查询内容的留存口径、不用于模型训练的承诺与删除机制

On this page