MMBench

MMBench多模态模型评测基准平台

96 浏览

2026年4月13日

MMBench介绍

MMBench（Multi-Modal Benchmark）是一个面向视觉-语言模型的权威多模态评测基准平台，由OpenCompass社区维护，旨在全面评估大模型在图像理解、跨模态推理、文字识别、逻辑判断等20余项细粒度能力上的表现。它构建了包含约3000道高质量多选题的标准化测试集，覆盖感知、认知、语言与推理等多个维度，支持开源与商业模型同台竞技，并通过实时更新的官方排行榜直观呈现各模型综合得分与细分能力表现，为学术研究、工程选型和生态共建提供可靠依据。

MMBench网站截图

MMBench的主要功能

提供多模态模型性能实时排行榜
涵盖20个细粒度能力维度的精细化评测
支持开发者自主提交模型评测结果并参与榜单更新
以表格与可视化形式呈现模型横向对比数据

MMBench如何使用

1访问官方排行榜页面查看最新模型得分排名
2参考OpenCompass文档准备模型输出文件格式
3按指引上传评测结果至指定提交入口完成参与

MMBench的应用场景

研究人员开展多模态模型性能对比分析
AI工程师根据任务需求筛选适配的视觉语言模型
高校教学中用于多模态AI能力评估与实验演示
开源社区成员贡献评测结果共建公平评测生态

MMBench

MMBench介绍

MMBench网站截图

MMBench的主要功能

MMBench如何使用

MMBench的应用场景

标签

相关推荐

热门工具

最新收录

精选工具