LMArena

大语言模型匿名对战评测平台

👁️0 浏览
❤️
📅2026年4月19日
🔗 访问官网

📋 LMArena介绍

LMArena是一个专注于大语言模型评估与比较的开源平台,由加州大学伯克利分校SkyLab团队发起,以社区驱动、中立透明为核心理念。它通过匿名模型对战、用户投票和Elo评分系统构建动态排行榜,已累计收集超280万次真实交互反馈。平台支持70多种主流模型,涵盖OpenAI、Anthropic、Google及Vicuna、Llama等开源方案,并提供Arena Battle、侧边对比、直接对话三种交互模式,同时拓展至编程能力评估(WebDev Arena)和自动评测(Arena-Hard-Auto),兼顾研究严谨性与大众可参与性。

📷 LMArena网站截图

LMArena

LMArena的主要功能

  • Arena Battle匿名模型对战并投票
  • Arena侧边手动选择双模型对比
  • Direct Chat单模型深度对话体验
  • Elo动态排行榜实时反映模型相对实力
  • WebDev Arena网页开发任务专项编程评测
  • Arena-Hard-Auto基于GPT-4.1/Gemini-2.5的自动化性能评估
  • 多维度基准整合(MMLU、MT-Bench等)
  • 开源代码托管GitHub,支持模型接入与社区贡献

📘 LMArena如何使用

  1. 1 访问lmarena.ai网站,关闭研究提示弹窗
  2. 2 选择Arena Battle、Arena或Direct Chat任一模式
  3. 3 输入提问内容,查看模型响应并完成投票或交互
  4. 4 登录账户保存聊天记录与个人排行榜
  5. 5 浏览leaderboard页面查看模型排名与评分详情
  6. 6 开发者参考GitHub文档接入自有模型或调用API

🚀 LMArena的应用场景

  • AI研究人员开展模型性能横向对比与基准测试
  • 开发者获取真实用户反馈以优化模型表现
  • 高校师生在自然语言处理课程中开展实践教学
  • 技术爱好者直观感受不同大模型的回答差异
  • 企业选型前快速评估多个商用/开源模型的实际能力
  • 编程学习者通过WebDev Arena检验AI生成代码质量

评论

💭
暂无评论,来发表第一条评论吧!

发表评论

您的邮箱地址不会被公开。必填项已用 * 标注