腾讯云大模型训推平台TI-ONE 模型评测简介

模型评测 提供通过向导式的评测任务提交方式进行 LLM 模型评测。TI-ONE 平台支持效果评测和性能评测。
效果评测支持两种评测方式，分别为人工评测和自动评测：
人工评测：提供待评测模型推理后人工打分的功能，基于人工来评判模型效果；
自动评测：全程无需人工参与，TI-ONE 平台将基于内置的开源评测集以及自动指标（如 pass@1、ROUGE、F1 等）或者用户自定义上传的开源评测集以及用户自定义指标，进行自动评测。自动评测也支持在训练过程中对训出的模型效果进行轻量体验，对 checkpoint 模型进行服务部署，用户可在对话框内和大模型进行问答，查看模型效果。
说明：
通常，在进行最佳实践时，人工评测和自动评测可以结合起来。例如，其中一个场景可以是先在模型开发过程中，基于开源数据集（可以扩展至企业内部沉淀的标准化自有数据集）先进行自动评测获得一个较为不错的结果后，在模型发布前的最后阶段，使用人工评测再次进行效果验证，或模型已上线后的随时效果评测。
针对人工评测和自动评测后的模型，支持可视化对比模型效果。可基于多个模型多个指标通过雷达图进行横向对比，为用户提供直观的效果对比展示。
性能评测介绍如下：
性能评测：可基于自定义评测集快速进行模型服务的压测以及对吞吐量、延迟等核心指标进行测试。TI-ONE 平台支持两种压测模式，分别为“固定并发压测”模式和“容量探测”的压测模式；支持多配置任务组，支持“直接评测”和“选择评测模板”两种任务创建方式，便于同一模型在不同上下文长度、不同压测模式下的评测。
﻿