天枢星通Docs
模型

模型评测说明

平台安全能力基线与通用能力评测的维度构成、目标线与实测值读法、评测快照与重放均值口径,以及如何按中英双轨拉取评测报告

本页说明平台如何对接入模型池进行模型评测:评测覆盖哪些维度、每个维度的目标线实测值如何对照阅读、一次评测快照与重放均值的口径如何理解,以及如何按中英双轨拉取评测报告。

模型评测分两条主线:安全能力基线衡量平台护栏在真实查询流上的防护表现,通用能力评测衡量路由所及模型的综合作答能力。两条主线均以"目标线对照实测值"的方式呈现,便于您判断当前评测周期内各维度是否通过目标线。

具体目标线取值、评测快照日期等以服务协议与控制台实时口径为准;本页只讲维度构成与读法。

1. 评测的两条主线

主线衡量对象维度组在控制台
安全能力基线平台护栏在查询流上的防护与误判表现G 系列成对核验指标「模型评测」页·安全能力基线
通用能力评测路由池内模型的综合作答能力6 项公开评测维度「模型评测」页·通用能力评测

安全能力基线与安全防护的分工:安全防护页呈现的是您当期查询流上护栏的运行统计(拦截总次数、分类构成、误拒率);本页的安全能力基线则是按固定评测样本测得的能力指标。二者同源于一套护栏,前者看"这个月拦了多少",后者看"在标准样本上拦得准不准"。

2. 安全能力基线(G 系列)

安全能力基线由一组成对核验指标构成。"拦得多"必须与"不误伤"成对呈现——只有拦截 / 拦阻类指标通过目标线、且对应的误拒 / 误拦类指标压在目标线内,该项才算通过。

指标衡量内容方向与其成对
应拒答拦截率应当拒答的查询被正确拦截的比例越高越好误拒率
误拒率不应拒答的查询被错误拒绝的比例越低越好应拒答拦截率
输出安全合格率输出内容经安全核验合格的比例越高越好误拒率 / 良性误拦率
对抗拦阻率对抗性构造查询被拦阻的比例越高越好良性误拦率
良性误拦率良性查询被错误拦截的比例越低越好对抗拦阻率

读法要点:

  • 成对阅读,不单看一侧。应拒答拦截率与误拒率成对、对抗拦阻率与良性误拦率成对——一侧高、另一侧低,才说明护栏既拦得住又不误伤。控制台会把成对指标并排呈现。
  • 方向决定目标线含义。"越高越好"的指标,实测值不低于目标线即为通过;"越低越好"的指标,实测值不高于目标线即为通过。
  • 目标线对照实测值。每个指标都给出当期目标线与实测值,并以通过 / 未通过标识区分;具体目标线取值以服务协议为准。

中英双轨:安全能力基线按中文、英文两条评测轨分别取样、分别核验,控制台可按轨切换查看。两轨各自对照目标线,互不混算。

3. 通用能力评测(6 项)

通用能力评测覆盖 6 个公开评测维度,衡量路由池内模型在知识推理、工程、代码、中文、综合智能与数学等方向的作答能力。各维度均以公开测试集为评测口径,平台引用其公开口径,不自创测试集。

序号能力维度评测口径方向
1通用知识与科学推理公开科学推理测试集全集作答正确率越高越好
2软件工程能力公开软件工程任务集任务解决率越高越好
3代码生成能力公开代码生成评测集通过率越高越好
4中文综合能力当期中文综合能力官方榜总分越高越好
5模型池综合智能水平综合智能水平指数(路由池准入门槛)越高越好
6数学推理能力公开数学竞赛题集作答正确率越高越好

读法要点:

  • 每项给目标线与实测值。6 项各自给出当期目标线与重放均值实测,逐项以通过 / 未通过标识对照;具体目标线取值以服务协议与控制台为准。
  • 序号 5 是准入门槛。"模型池综合智能水平"并非单一作答指标,而是模型进入路由池的准入门槛——综合智能水平不达门槛的模型不会进入择优路由的候选池。它对应安全防护与智能查询路由聚合背后的模型池管理:您的查询只会被路由到达到该门槛的模型。该准入门槛的具体取值与当期入库模型清单,见模型清单与入库标准
  • 评测口径随测试集版本。代码生成等维度按测试集的特定版本与快照评测;评测报告会标注所用测试集版本,便于您理解口径来源。

目标线不等于上限:目标线是各维度的"通过线",实测值通常高于目标线。平台以目标线作为路由择优与模型池准入的下限约束,实测高于目标线不影响计费,仅作为质量参考。

4. 目标线与实测值的读法

无论安全能力基线还是通用能力评测,控制台与评测报告都以同一套"目标线对照实测值"的方式呈现:

含义
目标线该维度当期的通过下限 / 上限("越高越好"为下限、"越低越好"为上限)
实测值该维度本期评测的重放均值实测结果
方向越高越好 / 越低越好,决定通过判定方向
通过态实测值相对目标线是否通过(通过 / 未通过)

判定规则一句话概括:

  • 越高越好的维度——实测值 ≥ 目标线,为通过。
  • 越低越好的维度——实测值 ≤ 目标线,为通过。
  • 成对维度——成对两侧同时满足各自方向,该项才整体通过(见第 2 节)。

5. 评测快照与重放均值口径

模型评测以快照为单位组织,每次评测对应一个评测快照日;同一快照内的实测值采用重放均值口径。

  • 评测快照日。每一期评测报告对应一个评测快照日期,标识该期评测的取样时点。控制台「模型评测」页页脚会标注当期评测快照日,便于您把实测值锚定到具体评测周期。
  • 重放均值。各维度实测值并非单次测量,而是多次独立测量的算术平均(重放均值),以降低单次波动对评测结论的影响。具体重放次数与评测周期以服务协议口径为准。
  • 快照之间不混算。不同评测快照的实测值各自独立,不跨快照取平均;维度目标线如随快照调整,按当期快照的目标线判定。

评测报告与计量同源:评测快照日与计量口径版本号在控制台中同处页脚标注,便于把"哪一期评测"与"哪一版计量口径"对齐查看,口径读法详见用量明细与计量说明

6. 拉取评测报告

除控制台「模型评测」页外,您可通过控制平面接口程序化拉取当期评测报告,按评测快照日与中英轨筛选。

curl "https://<平台入口地址>/api/v1/evaluation/report?snapshot_date=2026-06-15&track=zh" \
  -H "Authorization: Bearer <您的控制台凭证>"
参数含义
snapshot_date评测快照日(YYYY-MM-DD),指定要查看的评测周期;省略时返回最近一期
track评测轨(zh 中文轨 / en 英文轨),安全能力基线分轨呈现

响应分两段:security_baseline 为安全能力基线 G 系列,general_capability 为通用能力 6 项;每个维度均含目标线、实测重放均值与通过态。

{
  "snapshot_date": "2026-06-15",
  "track": "zh",
  "security_baseline": [
    {
      "metric": "<指标名(如 应拒答拦截率)>",
      "direction": "<方向:higher_better / lower_better>",
      "target": "<当期目标线>",
      "measured": "<实测重放均值>",
      "passed": true
    }
  ],
  "general_capability": [
    {
      "dimension": "<能力维度名>",
      "dataset": "<公开测试集及版本>",
      "direction": "higher_better",
      "target": "<当期目标线>",
      "measured": "<实测重放均值>",
      "passed": true
    }
  ]
}
字段含义
metric / dimension评测维度名
dataset通用能力维度所用的公开测试集及版本
direction判定方向:higher_better(越高越好)/ lower_better(越低越好)
target该维度当期目标线
measured本期实测重放均值
passed实测值相对目标线是否通过(布尔)

报告口径:接口返回的目标线与实测值即控制台「模型评测」页所呈现的同一套数据,二者口径一致、数字同源。各维度的目标线取值随评测快照与服务协议口径而定,不在本文档中固化。

相关链接

章节内容
安全防护平台护栏能力(注入防护 / 脱敏 / 访问控制)与误拒说明
服务质量(SLA)说明各服务质量指标的目标值、统计口径与排除项
用量明细与计量说明统一计价词元 6 档计量口径与计量口径版本
快速接入指南从拿到密钥到发出第一个查询的最短上手路径

On this page