Allen Institute for Artificial Intelligence (AI2)は、GPT-4oをベンチマークで凌ぐ、マルチモーダルAIモデル「Molmo」を発表した。Molmoはテキストと画像の両方を処理でき、特に画像認識タスクにおいて卓越した性能を示している。
OpenAIのGPT-4o、AnthropicのClaude3.5Sonnet、GoogleのGemini1.5 などのトップクラスのモデルをベンチマークで上回っている。またAIや機械学習において、異なる種類のデータ(モード)を同時に処理、理解、分析できるマルチモーダルであるため、ほかの主要な基盤モデルと同様に、画像やファイルを受け入れて分析できる。
AI2はXでの投稿で、Molmoは競合AIよりも「1,000倍少ない」データを使用すると述べた。これはポール・アレン(Paul Allen)氏が設立し、CEOのアリ・ファルハディ(Ali Farhadi)氏が率いる同社が発表した技術レポートとあたらしい挑戦の結果誕生したことになる。
AI2はまた、YoutubeとソーシャルメディアにMolmoをスマートフォンで使用して、ユーザーが写真を撮ってAIに送信するだけで、目の前のものを迅速に解析する方法を紹介する動画を投稿した。
瞬時にシーン内の人数を数えたり、メニュー項目がビーガンかどうかを判断したり、街灯柱に貼られたチラシを分析してどのバンドがエレクトロニック・ミュージックであるかを判断したり、ホワイトボードに書かれたものを読み取ってグラフに変換したりすることができる。
AI2はこのリリースは、オープンウェイトとデータを備えた高性能モデルをより広範なコミュニティ、そして、完全に所有、制御、カスタマイズできるソリューションを探している企業に提供することで、オープンな研究への取り組みを強調するものであると述べている。
Molmoは、パラメーターサイズと機能が異なる4つの主要モデルで構成されている。
これらのモデルはさまざまなサードパーティのベンチマークで高いパフォーマンスを実現し、多くの独自の代替モデルを上回っている。またこれらはすべて柔軟性のあるApache2.0ライセンス下で利用できるため、研究や商用化のあらゆる用途に使用することができる。
主要モデルの1つであるMolmo-72Bは学術的評価で最も高い評価を得ており、11の主要なベンチマークで最高得点を獲得し、ユーザーからはGPT-4oに次いで支持されているようだ。
参考:Molmo
画像:Shutterstock
関連記事
AGI開発における適切な安全対策と監視の欠如に懸念、元スタッフが証言
ハリス副大統領、暗号資産とAIを推進すると発言