AI模型测评 | AIGC315导航测评站

AI模型测评

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜单

PubMedQA

生物医学研究问答数据集和模型得分排行榜

H2O EvalGPT

H2O EvalGPT

H2O AI推出的用于评估和比较LLM大模型的开放工具

LLMEval3

复旦大学NLP实验室推出的大模型评测基准

HELM

斯坦福大学推出的大模型测评体系

MMBench

全方位的多模态大模型能力评测体系

CMMLU

专门用于评估语言模型在中文语境下的知识和推理能力

OpenCompass

OpenCompass

上海人工智能实验室推出的大模型开放评测体系

SuperCLUE

中文通用大模型综合性评测基准

FlagEval

智源研究院推出的天秤大模型评测平台

C-Eval

适用于大语言模型的多层次、多学科中文评估套件

MMLU

针对大模型的语言理解能力的测评

AIGC315 测评导航站，集AI导航网址、AI工具测评、资源、资讯，欢迎您的体验

友链申请免责声明广告合作关于我们

Copyright © 2024 AIGC315