AI模型评测 | 网址分类目录 | 欧了导航,AI工具|ai工具|AI导航|ai工具箱

GitHub

常用搜索工具社区生活求职

常用

百度
Google
站内
淘宝
Bing

搜索

百度
Google
360
搜狗
Bing
神马

工具

权重查询
友链检测
备案查询
PING检测
死链检测
关键词挖掘

社区

知乎
微信
微博
豆瓣
搜外问答

生活

淘宝
京东
下厨房
香哈菜谱
12306
去哪儿
快递100

求职

智联招聘
前程无忧
拉钩网
猎聘网

AI模型评测

MMBench是一个多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学[…]

HELM全称HolisticEvaluationofLanguageModels（语言模型整体评估）是[…]

Chatbot Arena

ChatbotArena是一个大型语言模型(LLM)的基准平台，以众包方式进行匿名随机对战，该项目方LM[…]

MMLU全称MassiveMultitaskLanguageUnderstanding，是一种针对大[…]

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最新的LLMEval-3聚焦于专业知识能力评测，涵[…]

Open LLM Leaderboard

OpenLLMLeaderboard是最大的大模型和数据集社区HuggingFace推出的开源大模型[…]

H2O EvalGPT

H2OEvalGPT是H2O.ai用于评估和比较LLM大模型的开放工具，它提供了一个平台来了解模型[…]

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2[…]

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K个未标注和211.3K个人工[…]

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型[…]

1 2

Copyright © 2025 欧了导航,AI工具|ai工具|AI导航|ai工具箱黔ICP备2024036957号-3 Design by Webstack Modify by iowen