紹介
LM Arena(Chatbot Arena)は、LMSYSとUC Berkeley SkyLabが共同で運営するオープンソースの評価プラットフォームです。大規模言語モデル(LLM)の進歩を促進するため、透明性が高くコミュニティ主体の評価環境を構築しています。ユーザーは名前を伏せて2種類のLLMの回答を比較し、投票によってモデルの性能を評価。この投票データをもとに、Elo評価システムを用いて常に更新されるランキングを作成しています。オープンソースモデルから商用APIまで幅広く対応し、実際のユーザー入力と選好に基づいた最新の評価基準を実現。すべてのシステムはGitHubで公開され、透明性と再現性を重視したオープンサイエンスを推進しています。
主な機能
- **コミュニティ参加型のモデル比較**: ユーザーが匿名で参加し、2つのLLMの応答を直接比較して投票。信頼できる比較データを多くの参加者から集めます。
- **変動するElo評価ランキング**: 広く使われているEloシステムを採用し、LLMの性能を統計的に信頼できる方法で順位付け。ランキングは常に最新の状態に保たれます。
- **完全なオープンソース公開**: 画面表示部分、処理部分、評価システム、ランキング計算方法など、プラットフォームのすべての構成要素が公開されています。
- **リアルタイムの継続的評価**: ユーザーの入力と投票を即時に収集・反映。実際の使用状況を捉えた、生きた評価基準を提供します。
- **多様な公開モデルの対応**: オープンソースモデルやAPIを通じたモデルなど、さまざまな形式のLLMを評価対象とし、公平な比較を実現。
- **共同研究環境の提供**: 広い範囲のコミュニティ参加を促し、集めたデータを公開。透明性を保ちながら共同でのAI研究の発展を支援します。
利用場面
- **LLM性能の評価基準**: 研究者や開発者が、実際の使用に近い条件でさまざまな大規模言語モデルの能力を測定・比較できます。
- **実用向けモデル選択**: 企業や開発チームが、コミュニティの生の意見に基づくランキングを参考に、特定の目的に合った最適なLLMを選ぶ際の判断材料となります。
- **オープンサイエンスと研究開発**: 大学の研究者やAI専門家が、公開されたデータ集や評価ツールを使って、再現性の高い研究やモデル改善を進められます。
- **モデル改良のための意見収集**: AIモデルの提供者は、匿名化されたユーザーの投票データや選好を分析し、正式公開前に製品の品質を向上させるための貴重な知見を得られます。