模型评测说明

平台安全能力基线与通用能力评测的维度构成、目标线与实测值读法、评测快照与重放均值口径，以及如何按中英双轨拉取评测报告

本页说明平台如何对接入模型池进行模型评测：评测覆盖哪些维度、每个维度的目标线与实测值如何对照阅读、一次评测快照与重放均值的口径如何理解，以及如何按中英双轨拉取评测报告。

模型评测分两条主线：安全能力基线衡量平台护栏在真实查询流上的防护表现，通用能力评测衡量路由所及模型的综合作答能力。两条主线均以"目标线对照实测值"的方式呈现，便于您判断当前评测周期内各维度是否通过目标线。

具体目标线取值、评测快照日期等以服务协议与控制台实时口径为准；本页只讲维度构成与读法。

1. 评测的两条主线

主线	衡量对象	维度组	在控制台
安全能力基线	平台护栏在查询流上的防护与误判表现	G 系列成对核验指标	「模型评测」页·安全能力基线
通用能力评测	路由池内模型的综合作答能力	6 项公开评测维度	「模型评测」页·通用能力评测

安全能力基线与安全防护的分工：安全防护页呈现的是您当期查询流上护栏的运行统计（拦截总次数、分类构成、误拒率）；本页的安全能力基线则是按固定评测样本测得的能力指标。二者同源于一套护栏，前者看"这个月拦了多少"，后者看"在标准样本上拦得准不准"。

2. 安全能力基线（G 系列）

安全能力基线由一组成对核验指标构成。"拦得多"必须与"不误伤"成对呈现——只有拦截 / 拦阻类指标通过目标线、且对应的误拒 / 误拦类指标压在目标线内，该项才算通过。

指标	衡量内容	方向	与其成对
应拒答拦截率	应当拒答的查询被正确拦截的比例	越高越好	误拒率
误拒率	不应拒答的查询被错误拒绝的比例	越低越好	应拒答拦截率
输出安全合格率	输出内容经安全核验合格的比例	越高越好	误拒率 / 良性误拦率
对抗拦阻率	对抗性构造查询被拦阻的比例	越高越好	良性误拦率
良性误拦率	良性查询被错误拦截的比例	越低越好	对抗拦阻率

读法要点：

成对阅读，不单看一侧。应拒答拦截率与误拒率成对、对抗拦阻率与良性误拦率成对——一侧高、另一侧低，才说明护栏既拦得住又不误伤。控制台会把成对指标并排呈现。
方向决定目标线含义。"越高越好"的指标，实测值不低于目标线即为通过；"越低越好"的指标，实测值不高于目标线即为通过。
目标线对照实测值。每个指标都给出当期目标线与实测值，并以通过 / 未通过标识区分；具体目标线取值以服务协议为准。

中英双轨：安全能力基线按中文、英文两条评测轨分别取样、分别核验，控制台可按轨切换查看。两轨各自对照目标线，互不混算。

3. 通用能力评测（6 项）

通用能力评测覆盖 6 个公开评测维度，衡量路由池内模型在知识推理、工程、代码、中文、综合智能与数学等方向的作答能力。各维度均以公开测试集为评测口径，平台引用其公开口径，不自创测试集。

序号	能力维度	评测口径	方向
1	通用知识与科学推理	公开科学推理测试集全集作答正确率	越高越好
2	软件工程能力	公开软件工程任务集任务解决率	越高越好
3	代码生成能力	公开代码生成评测集通过率	越高越好
4	中文综合能力	当期中文综合能力官方榜总分	越高越好
5	模型池综合智能水平	综合智能水平指数（路由池准入门槛）	越高越好
6	数学推理能力	公开数学竞赛题集作答正确率	越高越好

读法要点：

每项给目标线与实测值。6 项各自给出当期目标线与重放均值实测，逐项以通过 / 未通过标识对照；具体目标线取值以服务协议与控制台为准。
序号 5 是准入门槛。"模型池综合智能水平"并非单一作答指标，而是模型进入路由池的准入门槛——综合智能水平不达门槛的模型不会进入择优路由的候选池。它对应安全防护与智能查询路由聚合背后的模型池管理：您的查询只会被路由到达到该门槛的模型。该准入门槛的具体取值与当期入库模型清单，见模型清单与入库标准。
评测口径随测试集版本。代码生成等维度按测试集的特定版本与快照评测；评测报告会标注所用测试集版本，便于您理解口径来源。

目标线不等于上限：目标线是各维度的"通过线"，实测值通常高于目标线。平台以目标线作为路由择优与模型池准入的下限约束，实测高于目标线不影响计费，仅作为质量参考。

4. 目标线与实测值的读法

无论安全能力基线还是通用能力评测，控制台与评测报告都以同一套"目标线对照实测值"的方式呈现：

列	含义
目标线	该维度当期的通过下限 / 上限（"越高越好"为下限、"越低越好"为上限）
实测值	该维度本期评测的重放均值实测结果
方向	越高越好 / 越低越好，决定通过判定方向
通过态	实测值相对目标线是否通过（通过 / 未通过）

判定规则一句话概括：

越高越好的维度——实测值 ≥ 目标线，为通过。
越低越好的维度——实测值 ≤ 目标线，为通过。
成对维度——成对两侧同时满足各自方向，该项才整体通过（见第 2 节）。

5. 评测快照与重放均值口径

模型评测以快照为单位组织，每次评测对应一个评测快照日；同一快照内的实测值采用重放均值口径。

评测快照日。每一期评测报告对应一个评测快照日期，标识该期评测的取样时点。控制台「模型评测」页页脚会标注当期评测快照日，便于您把实测值锚定到具体评测周期。
重放均值。各维度实测值并非单次测量，而是多次独立测量的算术平均（重放均值），以降低单次波动对评测结论的影响。具体重放次数与评测周期以服务协议口径为准。
快照之间不混算。不同评测快照的实测值各自独立，不跨快照取平均；维度目标线如随快照调整，按当期快照的目标线判定。

评测报告与计量同源：评测快照日与计量口径版本号在控制台中同处页脚标注，便于把"哪一期评测"与"哪一版计量口径"对齐查看，口径读法详见用量明细与计量说明。

6. 拉取评测报告

除控制台「模型评测」页外，您可通过控制平面接口程序化拉取当期评测报告，按评测快照日与中英轨筛选。

curl "https://<平台入口地址>/api/v1/evaluation/report?snapshot_date=2026-06-15&track=zh" \
  -H "Authorization: Bearer <您的控制台凭证>"

参数	含义
`snapshot_date`	评测快照日（`YYYY-MM-DD`），指定要查看的评测周期；省略时返回最近一期
`track`	评测轨（`zh` 中文轨 / `en` 英文轨），安全能力基线分轨呈现

响应分两段：security_baseline 为安全能力基线 G 系列，general_capability 为通用能力 6 项；每个维度均含目标线、实测重放均值与通过态。

{
  "snapshot_date": "2026-06-15",
  "track": "zh",
  "security_baseline": [
    {
      "metric": "<指标名（如 应拒答拦截率）>",
      "direction": "<方向：higher_better / lower_better>",
      "target": "<当期目标线>",
      "measured": "<实测重放均值>",
      "passed": true
    }
  ],
  "general_capability": [
    {
      "dimension": "<能力维度名>",
      "dataset": "<公开测试集及版本>",
      "direction": "higher_better",
      "target": "<当期目标线>",
      "measured": "<实测重放均值>",
      "passed": true
    }
  ]
}

字段	含义
`metric` / `dimension`	评测维度名
`dataset`	通用能力维度所用的公开测试集及版本
`direction`	判定方向：`higher_better`（越高越好）/ `lower_better`（越低越好）
`target`	该维度当期目标线
`measured`	本期实测重放均值
`passed`	实测值相对目标线是否通过（布尔）

报告口径：接口返回的目标线与实测值即控制台「模型评测」页所呈现的同一套数据，二者口径一致、数字同源。各维度的目标线取值随评测快照与服务协议口径而定，不在本文档中固化。

章节	内容
安全防护	平台护栏能力（注入防护 / 脱敏 / 访问控制）与误拒说明
服务质量（SLA）说明	各服务质量指标的目标值、统计口径与排除项
用量明细与计量说明	统一计价词元 6 档计量口径与计量口径版本
快速接入指南	从拿到密钥到发出第一个查询的最短上手路径