LMArena

大语言模型匿名对战评测平台

14 浏览

2026年4月19日

LMArena介绍

LMArena是一个专注于大语言模型评估与比较的开源平台，由加州大学伯克利分校SkyLab团队发起，以社区驱动、中立透明为核心理念。它通过匿名模型对战、用户投票和Elo评分系统构建动态排行榜，已累计收集超280万次真实交互反馈。平台支持70多种主流模型，涵盖OpenAI、Anthropic、Google及Vicuna、Llama等开源方案，并提供Arena Battle、侧边对比、直接对话三种交互模式，同时拓展至编程能力评估（WebDev Arena）和自动评测（Arena-Hard-Auto），兼顾研究严谨性与大众可参与性。

LMArena网站截图

LMArena的主要功能

Arena Battle匿名模型对战并投票
Arena侧边手动选择双模型对比
Direct Chat单模型深度对话体验
Elo动态排行榜实时反映模型相对实力
WebDev Arena网页开发任务专项编程评测
Arena-Hard-Auto基于GPT-4.1/Gemini-2.5的自动化性能评估
多维度基准整合（MMLU、MT-Bench等）
开源代码托管GitHub，支持模型接入与社区贡献

LMArena如何使用

1访问lmarena.ai网站，关闭研究提示弹窗
2选择Arena Battle、Arena或Direct Chat任一模式
3输入提问内容，查看模型响应并完成投票或交互
4登录账户保存聊天记录与个人排行榜
5浏览leaderboard页面查看模型排名与评分详情
6开发者参考GitHub文档接入自有模型或调用API

LMArena的应用场景

AI研究人员开展模型性能横向对比与基准测试
开发者获取真实用户反馈以优化模型表现
高校师生在自然语言处理课程中开展实践教学
技术爱好者直观感受不同大模型的回答差异
企业选型前快速评估多个商用/开源模型的实际能力
编程学习者通过WebDev Arena检验AI生成代码质量

LMArena

LMArena介绍

LMArena网站截图

LMArena的主要功能

LMArena如何使用

LMArena的应用场景

标签

相关推荐

热门工具

最新收录

评论

发表评论取消回复

精选工具