概述
评测可视化对比提供对不同模型通过雷达图直观的展示指标对比效果,可直接基于已完成的自动评测、人工评测的评测指标快速进行选择和对比,也可通过配置聚合指标后,对不同模型在相同聚合指标进行效果对比,其功能的详细描述为:
方式1 评测指标对比:完成自动评测、人工评测后,直接对不同模型的多个指标进行横向对比。
方式2 聚合指标对比:完成聚合指标配置后,选择自动评测任务,对不同模型在相同的聚合指标进行横向对比。
方式1:评测指标对比
前提条件
配置可视化对比图表
1. 选择评测任务,支持选择“已完成”的自动评测和“已完成打分”的人工评测,最多选择10个任务。

2. 选完评测任务,会自动出现选中评测任务使用的评测数据集和评测的模型,数据集和模型默认全选,也可勾选去除。此模型相关的评测任务会按最新评测时间进行罗列,用户可选择相关的评测任务。如下图:

说明:
选择评测任务时,支持多选。如果选中包含相同模型相同评测集的多个评测任务,那么相同的模型在相同评测集上的值会进行平均处理。
3. 单击应用,右边即可出现选中评测任务,基于选择的模型和数据集的雷达图对比展示,如下图:

方式2:聚合指标对比
前提条件
聚合指标配置
概述:
聚合指标用来衡量模型的某方面的能力,一般通过不同评测集的不同指标进行聚合。
比如判断模型在多学科的综合通用能力,可以设置低难度、高难度、跨学科、生物、哲学等多个不同维度的聚合指标,后续在对比评测时可以通过直接选择此配置得出在聚合指标上的对比结果。
使用方式:
1、单击“聚合指标配置”按钮,前往聚合指标配置页面。

2、单击“+聚合指标”按钮,添加聚合指标卡片,设置聚合指标名称。

3、单击“选择详细指标”按钮,在对应的聚合指标上,选择对应的评测集以及指标。

4、支持用户进行快捷配置,通过 YAML 配置文件快速定义和管理多个数据集的评测指标聚合规则。


配置文件格式:仅支持YAML格式,支持的文件扩展名:.yaml 或 .yml。
基本结构:一个聚合指标配置文件可包含多个聚合指标,可分别进行配置。
- name: test # 聚合指标名称method: average # 聚合方法metrics: # 指标配置列表- data_name: "MMLU" # 数据集名称metric_names: # 指标名称列表- "accuracy"- "pass@1"- data_name: "aime2025"metric_names:- "fluency"- "correlation"
配置参数说明
参数名称 | 参数解释 | 参数示例 |
name | 聚合指标的名称 | test |
method | 聚合计算方法,目前支持 average(平均值) | average |
metrics | 指标配置数组,定义要聚合的数据集和指标 | - |
data_name | 数据集名称,对应评测任务中的数据集 | "MMLU" |
metric_names | 指标名称数组,列出该数据集下要参与聚合的指标 | "accuracy" |
使用示例
创建聚合指标配置和YAML文件(如 aggregation_config.yaml),按照上述格式定义聚合规则:
- name: "综合评估指标"method: averagemetrics:- data_name: "MMLU"metric_names:- "accuracy"- "pass@1"- data_name: "GSM8K"metric_names:- "accuracy"- "exact_match"- data_name: "HumanEval"metric_names:- "pass@1"- "pass@10"- name: "数学推理能力"method: averagemetrics:- data_name: "GSM8K"metric_names:- "accuracy"- data_name: "MATH"metric_names:- "accuracy"- "step_accuracy"
配置可视化对比图表
1. 选择评测任务,支持选择“已完成”的自动评测,最多选择10个任务。

2. 选完评测任务,会自动出现选中评测任务使用的评测的模型,并且此模型相关的评测任务会按最新评测时间进行罗列。用户可选择相关的评测任务。

说明:
选择评测任务时,支持多选。如果选中包含“某模型评测某评测集”的多个评测任务,那么此模型在此评测集上的评测指标的值会做均值处理。
3. 打开“使用聚合指标配置”开关,选择聚合指标配置。

聚合指标配置中的评测集会进行罗列,用户可根据需要选择要对比的评测集,需要注意的是,当用户取消勾选某个评测集后,此评测集相关的聚合指标将不会纳入对比。

4. 同时,用户可通过CFS选择评测结果文件(jsonl格式),对比评测时,平台会结合评测结果文件和上述所选任务合并展示对比结果

本地评测结果规范说明:
{"ModelName":"model1","DatasetName":"AIME2024","DatasetScore":0.83,"MetricName":"准确率","MetricValue":0.83,"Weight":1}
字段名称 | 是否必填 | 字段说明 |
ModelName | 必填 | 模型名称 |
DatasetName | 必填 | 评测集名称 |
DatasetScore | 非必填 | 该评测集的分数 |
MetricName | 必填 | 详细指标名称 |
MetricValue | 必填 | 详细指标的值 |
Weight | 必填 | 权重 |
5. 单击应用,右边即可出现选中评测任务,基于选择的模型和聚合指标进行雷达图对比展示,如下图:

同时,各模型在聚合指标上的能力将进行排名,也可在表格中看到各聚合指标的详细数据以及在各个评测集上每个指标的详细数据。表格中通过颜色深浅帮助用户方便直观查看在每个聚合指标上的最优和其他指标值。

右上角的搜索框可帮助用户快速筛选模型,查看聚合指标结果

单击“详细指标”tab,可查看每个模型在评测集上的详细指标值。

支持统计模型参与评测的情况,从聚合指标维度和评测集维度进行统计,方便用户直观查看模型是否在重点评测集已完成过评测。


说明:
1. 雷达图默认勾选对比模式,右上角可勾选去除。选中表明尺度从绝对值到相对值进行缩放,更方便模型进行对比展示。
2. 可视化展示,可点击右侧模型名称,去除该模型在雷达图中的数据展示,再次点击可恢复。鼠标 hover 在雷达图各点上,会展示该模型在该数据集上的评测结果。
3. 如需重新选择评测任务、对比数据集、对比模型,选择好后,单击应用,右侧图表会根据最新选择更新,否则每次进入该页面均按照上次提交“应用”的配置展示。