服务质量(SLA)说明
各项服务质量指标(可用率、故障响应、恢复时限、查询处理延时、首个词元时延)的含义、统计口径与排除项,以及未达情形的处理方式;具体目标值以服务协议为准
本页说明平台对您承诺的各项服务质量指标——每项指标衡量什么、按什么口径统计、哪些情形不计入统计,以及当月某项未达目标线时如何处理。各指标的具体目标值与违约阈值以服务协议为准,控制台「服务质量(SLA)」页按结算月展示当月实测与达成情况。
平台以每个结算月为一个测算周期,随当月《服务费用结算单》一并提供当期服务质量月度达成报表,与 账单与结算 同步出具、同源对账。
服务质量指标一览
平台承诺的服务质量指标分为两类:可用性与故障处理类、时延类。各项的衡量含义如下(具体目标值以服务协议为准):
| 指标 | 衡量什么 | 方向 |
|---|---|---|
| 月度查询服务可用率 | 当月接入端总请求中,成功处理(非服务端错误)请求所占比例 | 越高越好 |
| 故障申报响应时间 | 自您提交故障申报,至平台书面确认接报的时间间隔 | 越短越好 |
| 重大故障恢复时间 | 自确认接报重大故障起,至服务恢复至可用状态的时间间隔 | 越短越好 |
| 查询路由处理延时 P95 | 查询经平台自身处理的开销(含复杂度研判、安全护栏、转发),不含上游模型推理与生成 | 越短越好 |
| 首个词元输出反馈时长 P95 | 自接入端收到查询至返回首个输出词元的时延(仅 no-thinking 档) | 越短越好 |
目标值不在文档中固化。 上表只列各指标衡量什么、朝哪个方向考核。每项指标的具体目标值(如可用率目标、响应/恢复时限、P95 时延上限)以及对应的违约阈值,均以服务协议为准,并在控制台「服务质量(SLA)」页随当月报表标注。
各指标的含义与统计口径
月度查询服务可用率
统计口径:当月平台接入端成功处理(非服务端错误)的请求数 ÷ 当月计入分母的总请求数。可用率以平台监控系统采集的服务请求记录为准,按月统计。分母会剔除「统计排除项」(见下文)所列情形。
故障申报响应时间
统计口径:自您通过书面或控制台提交一次故障申报,至平台书面确认接报之间的时间间隔,按单次故障申报记录测算。平台提供 7×24 小时故障申报响应。
重大故障恢复时间
统计口径:自平台确认接报重大故障起,至该故障被恢复、或受影响服务恢复至可用状态之间的时间间隔,按单次重大故障记录测算。重大故障的定级遵循平台的故障定级规则(见下文「故障定级」)。
查询路由处理延时 P95
统计口径:一次查询经平台自身处理所产生的开销——包含查询复杂度研判、安全护栏处置与转发,但不含上游模型的推理与生成时延。以接入端为统计边界,按月取 P95 分位测算。
为什么不含上游推理。 本指标只考核平台可控的查询路由处理开销。上游模型的推理与生成时延取决于所选模型本身,不计入本指标。模型实际生成的快慢,可在 用量明细与计量说明 的逐条调用记录与 安全防护 等运行视图中观察。
首个词元输出反馈时长 P95
统计口径:自接入端收到查询请求,至返回首个输出词元之间的时延,以接入端为统计边界,按月取 P95 分位测算。
仅适用 no-thinking 档。 本指标只就 no-thinking 档查询测算。thinking(深度推理)档查询因上游推理特性,首个词元返回时间显著较长,不适用本指标。控制台展示本指标时会明确标注「仅 no-thinking 档」。推理档的含义详见 用量明细与计量说明。
故障定级
故障的响应与恢复时限按定级处理。平台采用三级故障定级,不同级别对应不同的确认与恢复窗口(具体窗口以服务协议为准):
| 级别 | 触发情形(示例) | 处理窗口 |
|---|---|---|
| 重大 | 查询路由聚合服务整体不可用、安全事件 | 较短的确认与恢复窗口 |
| 严重 | 核心功能模块不可用、护栏组件整体失效、控制台不可用 | 较短的确认窗口、视情况恢复 |
| 一般 | 单一模块响应变慢、偶发护栏误判、查询路由策略偏移 | 相对宽松的确认与恢复窗口 |
定级决定时限。 「故障申报响应时间」与「重大故障恢复时间」两项指标的具体考核窗口随故障级别而定。重大级别的故障适用最短的恢复时限。各级别的精确确认与恢复窗口以服务协议为准。
统计排除项
下列情形不计入服务质量指标的统计(可用率不计入分母、相关时延/恢复时长不计入测算):
| 排除情形 | 说明 |
|---|---|
| 计划内维护期 | 平台提前书面通知(控制台告警 + 邮件)的计划内维护期,维护期不计入可用率分母 |
| 客户侧原因 | 因您的账户或接入凭证失效、欠费,或未按约定方式接入等客户侧原因导致的服务受限 |
| 上游第三方模型原因 | 因平台所路由调用的上游第三方模型发生服务中断、限流、降级、下线或接口变更而导致的服务受限 |
| 不可抗力 | 按服务协议相关条款认定的不可抗力事件 |
排除项的意义。 服务质量指标考核的是平台自身可控范围内的服务表现。计划内维护、客户侧原因、上游第三方模型原因与不可抗力四类情形不在平台可控范围内,故不计入统计。计划内维护的提前通知天数、各排除情形的认定口径以服务协议为准。
未达情形的处理
当月若某项指标低于服务协议约定的违约阈值,按以下机制处理:
| 环节 | 机制 |
|---|---|
| 逐项测算 | 按未达项分别测算;同月多项未达的,各项分别计算 |
| 服务费扣减 | 对每个未达项,按约定比例扣减当月对应服务费 |
| 累计上限 | 当月累计扣减金额设有上限,不超过当月已付服务费 |
| 冲抵方式 | 扣减金额在次月《服务费用结算单》中冲抵,或经双方书面确认后以其他方式处理 |
扣减比例与上限以服务协议为准。 上表只说明「逐项测算 → 按比例扣减 → 设累计上限 → 次月冲抵」这一机制链路。每项未达对应的扣减比例、当月累计扣减上限等具体数值以服务协议为准,并在当月服务质量报表与次月结算单中体现。
月度达成报表
平台按结算月出具服务质量月度达成报表,与当月《服务费用结算单》一并提供。报表逐项列出各指标的目标线、当月实测值与达成情况,并标注统计排除项与未达项的服务费扣减。
报表可在控制台「服务质量(SLA)」页按结算月查看,亦可通过控制平面接口按结算月拉取:
curl https://<平台入口地址>/api/v1/sla/report?billing_month=<结算月>返回结构如下(以产品 API 形态示意;具体数值以控制台为准):
{
"billing_month": "<结算月 YYYY-MM>",
"items": [
{
"metric": "<服务质量指标名称>",
"target": "<目标线(以服务协议为准)>",
"actual": "<当月实测值>",
"status": "<当月达成情况:通过 / 未通过>",
"applies_to": "<适用范围,如「仅 no-thinking 档」(按指标标注)>",
"exclusions": "<本月计入统计的排除情形说明>",
"deduction": "<未通过时的服务费扣减(如有)>"
}
]
}各字段的读法:
| 字段 | 读法 |
|---|---|
metric | 服务质量指标名称(可用率、响应、恢复、延时等) |
target | 该指标的目标线,以服务协议为准 |
actual | 该指标当月由平台监控系统测算的实测值 |
status | 当月该项是否达到目标线:通过 / 未通过 |
applies_to | 适用范围标注,例如首个词元时延标注「仅 no-thinking 档」 |
exclusions | 本月该指标统计中计入的排除情形说明 |
deduction | 该项未通过时按约定比例扣减的当月对应服务费(如有) |
报表与对账同源。 服务质量月度达成报表与《服务费用结算单》随同一结算月一并出具、对账日一致(每自然月的对账日)。报表中的扣减若发生,会在次月结算单中冲抵,两处数字对得上。结算单读法详见 账单与结算。
数据复核。 服务质量数据以平台监控系统测算为准。若您对当月某项统计结果有疑问,可申请联合复核,复核结论以双方书面确认为准。
与其他页面的衔接
| 您想做的 | 前往 |
|---|---|
| 查看当月用量与逐条调用记录、理解推理档(thinking / no-thinking) | 用量明细与计量说明 |
| 核对当月服务费结算单、了解对账日与确认流程 | 账单与结算 |
| 了解平台护栏能力(注入防护 / 脱敏 / 访问控制)与误拒说明 | 安全防护 |
| 查看护栏能力基线与通用能力的目标线与实测对照 | 模型评测说明 |
| 查看当月服务状态与服务质量概况的汇总 | 文档中心 |
本页中的指标含义、统计口径、排除项与处理机制为产品功能口径;各指标的具体目标值、违约阈值、扣减比例与累计上限、计划内维护通知天数等商务数值不在文档中固化,以服务协议与控制台实时口径为准。