Meta、画像推論能力と軽量・高機能の2つのモデルを持つ「Llama 3.2」リリース

Metaは現地時間9月25日公式ブログで、オープンソースの最新LLM(大規模言語モデル)「Llama」シリーズで視覚タスクをサポートするビジョン(Vision)モデルと軽量化に力を入れた2つのモデルを投入した最新バージョン「Llama 3.2」のリリースを発表した。

画像推論機能を持つ「11B・90B」と軽量化された「1B・3B」の2つのモデル

「Llama 3.2」(公式Webサイト)

公開されたモデルは小規模及び中規模のビジョン用マルチモーダルモデルの「Llama 3.2 11B」「Llama 3.2 90B」とモバイル・エッジデバイス用の軽量モデル「Llama 3.2 1B」「Llama 3.2 3B」。事前にトレーニング及び微調整されているので、そのままアプリケーションの開発やシステムでの利用が可能になっている。

「Llama 3.2」の最高位モデルである「11B」と「90B」は、「Llama」シリーズで最初の視覚タスクをサポートするビジョン(Vision)モデルで、画像処理方面技術にフォーカスして強化されており、チャートやグラフを含む画像内のドキュメントやキャプション、画像の説明文など理解し推論、画像関連タスクを実行する。同社の150を超えるベンチマークデータセットでのテスト評価で「Claude 3 Haiku」「GPT4o-mini」とほぼ同等の能力を持つとしている。

「Llama 3.2」のビジョンモデル利用イメージ(同社資料より)

軽量タイプのモデル「1B」と「3B」は、「pruning(剪定:影響の小さいノードを削除しモデルを圧縮する手法)」と「distillation(蒸留:大規模な教師モデルの知識を小規模な生徒モデルに転送し圧縮する手法)」により元のパフォーマンスを維持しながら、より小さく効率的なモデルに仕上がっている。作成にあたってはQualcomm、Mediatek、Armと連携して、モバイルデバイスで効果的に活用できるよう最適化している。モデルの評価は、同社のテストで「3B」モデルがいくつかのタスクで「Gemma 2 2.6B」「Phi 3.5-mini」モデルよりも優れたスコアを記録。「1B」は「Gemma」とほぼ同等と評価されている。

「Llama 3.2 1B」と「Llama 3.2 3B」でのpruningとdistillationの概要(同社資料より)

「Llama 3.2」は、パートナー企業と協力し連携して機能する複数のAPIプロバイダーをパッケージ化した「Llama Stack Distribution」として提供、オンプレミス、クラウド、シングルノード、デバイス等異なる複数の環境で利用可能。ディストリビューションには、環境構築のための「Llama CLI(コマンドラインインターフェイス)」、Python、Kotlin、Swiftを含む複数の言語でのクライアントコード、「Llama Stack Distribution」サーバー・エージェントAPIプロバイダー用Dockerコンテナ、他複数のリソースがパッケージされている。

モデルの詳細情報はGitHubサイトや利用規約で確認できる。「Llama 3.2」の利用は、「Llama Stackディストリビューション」をllama.com、Hugging Faceからダウンロードするか、AWS、Google Cloud、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflakeなど25社パートナープラットフォームで利用できる。