PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
MMLU全称MassiveMultitaskLanguageUnderstanding,是一种针对大[…]
OpenLLMLeaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型[…]
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2[…]
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级[…]
MMBench是一个多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学[…]
ChatbotArena是一个大型语言模型(LLM)的基准平台,以众包方式进行匿名随机对战,该项目方LM[…]
您的邮箱地址不会被公开。 必填项已用 * 标注
评论 *
显示名称 *
邮箱 *
网站
在此浏览器中保存我的显示名称、邮箱地址和网站地址,以便下次评论时使用。
MMLU全称MassiveMultitaskLanguageUnderstanding,是一种针对大[…]