介绍
产品概览
LM Arena(又名Chatbot Arena)是由LMSYS与UC Berkeley SkyLab联合构建的开源社区驱动大语言模型评测平台。平台以实时交互、透明众包为核心,通过用户匿名对比投票与Elo评分系统,动态生成模型性能排行榜。覆盖多种开放模型,包括开源权重与商业API,所有数据、工具及架构均开源发布,旨在促进开放协作与可复现的AI研究进展。
主要功能
众包匿名对战评测:用户随机比较两款大模型生成结果,通过投票贡献真实偏好数据,确保评测客观性。
动态Elo排名体系:采用国际公认的Elo算法,生成统计可靠的模型性能排行榜,反映实时用户反馈。
全开源平台组件:前端、后端、评测流程及排名方法完全开源,支持社区审核、定制与复用。
实时持续模型评估:基于用户实时输入与互动,确保评测结果贴合实际应用场景,提升实用性。
支持公开可用模型:涵盖开源权重模型与API服务,保证评测透明度与结果可复现性。
社区协作与数据开放:所有用户偏好数据与提示词公开共享,推动科学合作与模型迭代优化。
使用场景
大模型性能基准测试:研究人员和开发者可在真实交互环境中评估与比较不同LLM的表现差异。
模型选型与部署支持:企业或机构依据动态社区排名,快速选择适配业务需求的高性能模型。
开放科学与AI研究:学者利用开放数据集与工具进行可重复实验,加速模型创新与理论进步。
模型优化与迭代反馈:开发者通过匿名用户投票与反馈数据,持续优化模型性能与用户体验。