AGI

AGI-Eval大模型综合评测平台

👁️0 浏览

❤️0 喜欢

📅2026年4月27日

🔗 访问官网

📋 AGI介绍

AGI-Eval是由上海交通大学、同济大学、华东师范大学及DataWhale等高校与机构联合打造的大模型评测社区，致力于构建公正、可信、科学、全面的AI基础模型评估生态，使命是‘评测助力，让AI成为人类更好的伙伴’。平台聚焦人类认知与问题解决能力，通过高考、司法考试、数学竞赛等真实场景任务评估模型通用性，并提供权威榜单、开源评测集、人机协同比赛、数据工坊（Data Studio）及多语言能力评估等功能，支持科研人员验证新方法、开发者优化模型性能、企业选型参考，数据透明、更新及时、社区共建氛围浓厚。

📷 AGI网站截图

⭐ AGI的主要功能

✓ 大模型综合能力榜单（含理解、推理、知识、计算等细分维度）
✓ 人机协同评测比赛，探索人机协作增益效果
✓ 开放评测集社区（支持公开集、官方集、用户自建集上传与共享）
✓ Data Studio数据工坊，集成众包采集、多元数据形式与双重审核机制
✓ 中英文双语任务评估，覆盖跨语言模型性能分析
✓ 面向科研与开发的基线系统、评估方法与完整数据集支持

📘 AGI如何使用

1 访问官网注册并登录账号
2 浏览大模型榜单了解各模型在不同能力维度的得分表现
3 选择感兴趣的数据集下载或在线使用，或上传自建评测集参与共建
4 报名参加定期举办的人机协同评测比赛，提交协作方案与结果
5 利用Data Studio创建或参与数据标注、扩写、Arena对比等任务
6 查阅博客与教程获取评测方法论、技术解析与最佳实践指南

🚀 AGI的应用场景

→ 高校研究人员开展大模型能力对比实验与论文基准测试
→ AI开发者针对文本生成、推理等任务优化自有模型性能
→ 企业技术团队在模型选型阶段参考权威榜单与实测数据
→ 教育机构设计AI素养课程，引入真实评测任务作为教学案例
→ 开源社区成员贡献评测数据、共建多领域高质量基准集
→ 算法工程师结合人工+自动评测方式验证模型在司法、教育等垂直场景表现

🔗 相关推荐

K2

专精地球科学的开源大语言模型

DeepSeek

高性能开源大语言模型系列

腾讯混元

腾讯自研多模态大模型平台

火山方舟

国产大模型服务平台，支持DeepSeek与OpenAI接口

文心一言

百度推出的多模态大语言模型对话产品

AIGC安全实验室

专注AIGC与大模型安全研究的国家级实验室

🔥 热门工具

LibTV

AI视频创作一站式平台

夸克AI

AI超级助手，支持搜索写作生图文档处理

Dola AI

全场景AI助手支持对话创作日历视觉生成

AlphaClaw

金融投研领域的AI智能协创平台

InStreet

专为打造AI Agent的社交网络平台

stablediffusion api

Stable Diffusion云端图像生成API

🆕 最新收录

文心快码

百度推出的AI编程助手

Jules AI

谷歌推出的AI自主编码代理工具

CoursePro.ai

AI驱动的在线课程一键生成与销售平台

K2

专精地球科学的开源大语言模型

Ai

中文大模型权威评测平台

DeepSeek

高性能开源大语言模型系列

💭

暂无评论，来发表第一条评论吧！

AGI

📋 AGI介绍

📷 AGI网站截图

⭐ AGI的主要功能

📘 AGI如何使用

🚀 AGI的应用场景

标签

🔗 相关推荐

K2

DeepSeek

腾讯混元

火山方舟

文心一言

AIGC安全实验室

🔥 热门工具

LibTV

夸克AI

Dola AI

AlphaClaw

InStreet

stablediffusion api

🆕 最新收录

文心快码

Jules AI

CoursePro.ai

K2

Ai

DeepSeek

评论

发表评论取消回复

🌟 精选工具

InStreet

通义千问

Coze（扣子）

AGI

📋 AGI介绍

📷 AGI网站截图

⭐ AGI的主要功能

📘 AGI如何使用

🚀 AGI的应用场景

标签

🔗 相关推荐

K2

DeepSeek

腾讯混元

火山方舟

文心一言

AIGC安全实验室

🔥 热门工具

LibTV

夸克AI

Dola AI

AlphaClaw

InStreet

stablediffusion api

🆕 最新收录

文心快码

Jules AI

CoursePro.ai

K2

Ai

DeepSeek

评论

发表评论 取消回复

🌟 精选工具

InStreet

通义千问

Coze（扣子）

发表评论取消回复