メタは年次開発者会議Meta Connect2024でエッジおよびモバイルデバイス向けの小規模、中規模の大規模言語モデルAI「Llama3.2」を発表した。
7月にLlama3.1をリリースしたばかりだが、Llama3.2では初のマルチモーダルモデルの追加などが加わり、大幅なアップデートが行われた。
Llama3.2には、11B(110億)と90B(900億)の2つのモデルがあり、それぞれ画像認識機能をサポートしている。
この新機能により、表やグラフなどの理解、画像キャプションの生成、画像内のオブジェクトに自然言語で指示する視覚的なグラウンディングなどの画像推論ユースケースが可能となった。
マーク・ザッカーバーグ(Mark Zuckerberg)氏は自らイベントであたらしいAI機能を披露した。
Llama3.2を搭載したレイバンのスマートグラスが画面に映っている材料を分析しレシピのアドバイスをしたり、店頭のラックに並んでいる服について意見をする動画が会場に流されると拍手喝采が沸き起こった。
多言語対応し動画を作成
また、ザッカーバーグ氏はメタが取り組んでいる実験的なAI機能についての説明をした。たとえばスペイン語と英語のライブ翻訳や、動画を各国言語に自動で翻訳するアプリ、そのほかファンの質問にクリエイターに代わって答えるアバターを紹介した。
ボイスモードはChatGPTの音声モードに対抗する形で導入された。写真の編集は、ChatGPTの画像解析を凌ぐ機能となる。オブジェクトの削除、帽子の追加、背景の変更も可能だ。音声翻訳機能を使えば、海外向けの動画を簡単につくれるようになる。
軽量の1B、3Bモデルは多言語テキスト生成とツール呼び出しに優れている。クローズな状態で動作し、開発者はデータがデバイスから出ることなく、プライバシーを強力に保護する。個別に最適化されたデバイス上で動作するアプリケーションを構築することが可能になり、処理はローカルで行われるため、プロンプトに瞬時に応答するような速度を得ることができる。
アプリはどのクエリをデバイス上に残し、どのクエリをクラウド内のより大きなモデルで処理するかを明確に制御できるようになる。
これらのモデルはQualcomm、MediaTekハードウェアで使用できるように最適化されている。
Llama Stack APIは、Llamaモデルをカスタマイズしてエージェントアプリケーションを構築するためのツールチェーンコンポーネントを標準化するインターフェースとなっている。APIを使いやすくするため、推論、ツールの使用、RAG用APIのリファレンス実装を構築した。さらに複数のAPIをパッケージ化して開発者に単一のエンドポイントを提供する方法として、Llama Stackディストリビューションを作りあげた。同機能は現時点でオンプレミス、クラウド、単一ノード、デバイス上の複数の環境でLlamaモデルを捜査できるようになっている。
Llama3.2はllama.comとHugging Faceからダウンロード可能だ。
参考:META発表
画像:Shutterstock
関連記事:
NFTの普及に向け大きな期待が集まっていたMetaの撤退
OpenAI、推論するAI「OpenAi o1」を発表