DEVCN
行业快讯
15 浏览 发布于 2025-11-07 23:26

美团 LongCat 发布全模态一站式评测基准 UNO-Bench

美团 LongCat 发布全模态一站式评测基准 UNO-Bench近日,美团 LongCat 团队推出了一个名为 UNO-Bench 的全新基准测试,旨在系统性地评估这些模型在不同模态下的理解能力。这个基准测试涵盖了44种任务类型和5种模态组合,力求全面展现模型的单模态与全模态的性能。UNO-Bench 的核心在于其丰富的数据集。团队精心挑选了 1250 个全模态样本,这些样本的跨模态可解性高达 98%。同时,还增加了 2480 个经过增强的单模态样本。这些样本不仅充分考虑了真实场景的应用,尤其在中文语境下表现尤为出色。而值得一提的是,经过自动压缩处理后,这些数据集的运行速度提高了 90%,并在 18 个公开基准测试中保持了高达 98% 的一致性。