0 0

C-Eval

一个全面的中文基础模型评估套件

标签： AI模型评测

访问官网

简介

本条由「一键导入」从历史 HTML 快照生成。可在后台补充详情与文案。

类似于C-Eval的工具

MMLU

大规模多任务语言理解基准

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

一个综合性的大模型中文评估基准

中文通用大模型综合性测评基准

LMArena

AI模型评估平台

智源研究院推出的FlagEval（天秤）大模型评测平台

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

全方位的多模态大模型能力评测体系