模型评测说明
平台安全能力基线与通用能力评测的维度构成、目标线与实测值读法、评测快照与重放均值口径,以及如何按中英双轨拉取评测报告
本页说明平台如何对接入模型池进行模型评测:评测覆盖哪些维度、每个维度的目标线与实测值如何对照阅读、一次评测快照与重放均值的口径如何理解,以及如何按中英双轨拉取评测报告。
模型评测分两条主线:安全能力基线衡量平台护栏在真实查询流上的防护表现,通用能力评测衡量路由所及模型的综合作答能力。两条主线均以"目标线对照实测值"的方式呈现,便于您判断当前评测周期内各维度是否通过目标线。
具体目标线取值、评测快照日期等以服务协议与控制台实时口径为准;本页只讲维度构成与读法。
1. 评测的两条主线
| 主线 | 衡量对象 | 维度组 | 在控制台 |
|---|---|---|---|
| 安全能力基线 | 平台护栏在查询流上的防护与误判表现 | G 系列成对核验指标 | 「模型评测」页·安全能力基线 |
| 通用能力评测 | 路由池内模型的综合作答能力 | 6 项公开评测维度 | 「模型评测」页·通用能力评测 |
安全能力基线与安全防护的分工:安全防护页呈现的是您当期查询流上护栏的运行统计(拦截总次数、分类构成、误拒率);本页的安全能力基线则是按固定评测样本测得的能力指标。二者同源于一套护栏,前者看"这个月拦了多少",后者看"在标准样本上拦得准不准"。
2. 安全能力基线(G 系列)
安全能力基线由一组成对核验指标构成。"拦得多"必须与"不误伤"成对呈现——只有拦截 / 拦阻类指标通过目标线、且对应的误拒 / 误拦类指标压在目标线内,该项才算通过。
| 指标 | 衡量内容 | 方向 | 与其成对 |
|---|---|---|---|
| 应拒答拦截率 | 应当拒答的查询被正确拦截的比例 | 越高越好 | 误拒率 |
| 误拒率 | 不应拒答的查询被错误拒绝的比例 | 越低越好 | 应拒答拦截率 |
| 输出安全合格率 | 输出内容经安全核验合格的比例 | 越高越好 | 误拒率 / 良性误拦率 |
| 对抗拦阻率 | 对抗性构造查询被拦阻的比例 | 越高越好 | 良性误拦率 |
| 良性误拦率 | 良性查询被错误拦截的比例 | 越低越好 | 对抗拦阻率 |
读法要点:
- 成对阅读,不单看一侧。应拒答拦截率与误拒率成对、对抗拦阻率与良性误拦率成对——一侧高、另一侧低,才说明护栏既拦得住又不误伤。控制台会把成对指标并排呈现。
- 方向决定目标线含义。"越高越好"的指标,实测值不低于目标线即为通过;"越低越好"的指标,实测值不高于目标线即为通过。
- 目标线对照实测值。每个指标都给出当期目标线与实测值,并以通过 / 未通过标识区分;具体目标线取值以服务协议为准。
中英双轨:安全能力基线按中文、英文两条评测轨分别取样、分别核验,控制台可按轨切换查看。两轨各自对照目标线,互不混算。
3. 通用能力评测(6 项)
通用能力评测覆盖 6 个公开评测维度,衡量路由池内模型在知识推理、工程、代码、中文、综合智能与数学等方向的作答能力。各维度均以公开测试集为评测口径,平台引用其公开口径,不自创测试集。
| 序号 | 能力维度 | 评测口径 | 方向 |
|---|---|---|---|
| 1 | 通用知识与科学推理 | 公开科学推理测试集全集作答正确率 | 越高越好 |
| 2 | 软件工程能力 | 公开软件工程任务集任务解决率 | 越高越好 |
| 3 | 代码生成能力 | 公开代码生成评测集通过率 | 越高越好 |
| 4 | 中文综合能力 | 当期中文综合能力官方榜总分 | 越高越好 |
| 5 | 模型池综合智能水平 | 综合智能水平指数(路由池准入门槛) | 越高越好 |
| 6 | 数学推理能力 | 公开数学竞赛题集作答正确率 | 越高越好 |
读法要点:
- 每项给目标线与实测值。6 项各自给出当期目标线与重放均值实测,逐项以通过 / 未通过标识对照;具体目标线取值以服务协议与控制台为准。
- 序号 5 是准入门槛。"模型池综合智能水平"并非单一作答指标,而是模型进入路由池的准入门槛——综合智能水平不达门槛的模型不会进入择优路由的候选池。它对应安全防护与智能查询路由聚合背后的模型池管理:您的查询只会被路由到达到该门槛的模型。该准入门槛的具体取值与当期入库模型清单,见模型清单与入库标准。
- 评测口径随测试集版本。代码生成等维度按测试集的特定版本与快照评测;评测报告会标注所用测试集版本,便于您理解口径来源。
目标线不等于上限:目标线是各维度的"通过线",实测值通常高于目标线。平台以目标线作为路由择优与模型池准入的下限约束,实测高于目标线不影响计费,仅作为质量参考。
4. 目标线与实测值的读法
无论安全能力基线还是通用能力评测,控制台与评测报告都以同一套"目标线对照实测值"的方式呈现:
| 列 | 含义 |
|---|---|
| 目标线 | 该维度当期的通过下限 / 上限("越高越好"为下限、"越低越好"为上限) |
| 实测值 | 该维度本期评测的重放均值实测结果 |
| 方向 | 越高越好 / 越低越好,决定通过判定方向 |
| 通过态 | 实测值相对目标线是否通过(通过 / 未通过) |
判定规则一句话概括:
- 越高越好的维度——实测值 ≥ 目标线,为通过。
- 越低越好的维度——实测值 ≤ 目标线,为通过。
- 成对维度——成对两侧同时满足各自方向,该项才整体通过(见第 2 节)。
5. 评测快照与重放均值口径
模型评测以快照为单位组织,每次评测对应一个评测快照日;同一快照内的实测值采用重放均值口径。
- 评测快照日。每一期评测报告对应一个评测快照日期,标识该期评测的取样时点。控制台「模型评测」页页脚会标注当期评测快照日,便于您把实测值锚定到具体评测周期。
- 重放均值。各维度实测值并非单次测量,而是多次独立测量的算术平均(重放均值),以降低单次波动对评测结论的影响。具体重放次数与评测周期以服务协议口径为准。
- 快照之间不混算。不同评测快照的实测值各自独立,不跨快照取平均;维度目标线如随快照调整,按当期快照的目标线判定。
评测报告与计量同源:评测快照日与计量口径版本号在控制台中同处页脚标注,便于把"哪一期评测"与"哪一版计量口径"对齐查看,口径读法详见用量明细与计量说明。
6. 拉取评测报告
除控制台「模型评测」页外,您可通过控制平面接口程序化拉取当期评测报告,按评测快照日与中英轨筛选。
curl "https://<平台入口地址>/api/v1/evaluation/report?snapshot_date=2026-06-15&track=zh" \
-H "Authorization: Bearer <您的控制台凭证>"| 参数 | 含义 |
|---|---|
snapshot_date | 评测快照日(YYYY-MM-DD),指定要查看的评测周期;省略时返回最近一期 |
track | 评测轨(zh 中文轨 / en 英文轨),安全能力基线分轨呈现 |
响应分两段:security_baseline 为安全能力基线 G 系列,general_capability 为通用能力 6 项;每个维度均含目标线、实测重放均值与通过态。
{
"snapshot_date": "2026-06-15",
"track": "zh",
"security_baseline": [
{
"metric": "<指标名(如 应拒答拦截率)>",
"direction": "<方向:higher_better / lower_better>",
"target": "<当期目标线>",
"measured": "<实测重放均值>",
"passed": true
}
],
"general_capability": [
{
"dimension": "<能力维度名>",
"dataset": "<公开测试集及版本>",
"direction": "higher_better",
"target": "<当期目标线>",
"measured": "<实测重放均值>",
"passed": true
}
]
}| 字段 | 含义 |
|---|---|
metric / dimension | 评测维度名 |
dataset | 通用能力维度所用的公开测试集及版本 |
direction | 判定方向:higher_better(越高越好)/ lower_better(越低越好) |
target | 该维度当期目标线 |
measured | 本期实测重放均值 |
passed | 实测值相对目标线是否通过(布尔) |
报告口径:接口返回的目标线与实测值即控制台「模型评测」页所呈现的同一套数据,二者口径一致、数字同源。各维度的目标线取值随评测快照与服务协议口径而定,不在本文档中固化。
相关链接
| 章节 | 内容 |
|---|---|
| 安全防护 | 平台护栏能力(注入防护 / 脱敏 / 访问控制)与误拒说明 |
| 服务质量(SLA)说明 | 各服务质量指标的目标值、统计口径与排除项 |
| 用量明细与计量说明 | 统一计价词元 6 档计量口径与计量口径版本 |
| 快速接入指南 | 从拿到密钥到发出第一个查询的最短上手路径 |