SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。 其中基础能力能力包括: 语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。 专业能力包括: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。 中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。
AGI-Eval是什么AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构[…]
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2[…]
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学[…]
H2OEvalGPT是H2O.ai用于评估和比较LLM大模型的开放工具,它提供了一个平台来了解模型[…]
OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通[…]
OpenLLMLeaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型[…]
您的邮箱地址不会被公开。 必填项已用 * 标注
评论 *
显示名称 *
邮箱 *
网站
在此浏览器中保存我的显示名称、邮箱地址和网站地址,以便下次评论时使用。
AGI-Eval是什么AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构[…]