米Hugging Faceは1月23日(現地時間)、ビジョン言語モデル(VLM)「SmolVLM-256M」と「SmolVLM-500M」を発表した。2億5600万パラメータを持つSmolVLM-256Mは、Hugging Faceが2023年8月にリリースした「Idefics 80B」(800億パラメータ)の約312分の1という小さな規模で同等以上の性能を達成している。高度なビジョン言語タスクには20億パラメータ以上のサイズが必要と見られてきたが、「10分の1のサイズのモデルがビジネスにとって非常に有用であることを証明した」としている。

ビジネスにおけるAI活用を促進するために、Hugging Faceは性能を保ちながらも従来の大規模モデルよりもはるかに軽量なモデルの構築に取り組み、昨年11月に22億パラメータのVLM「SmolVLM-2.2B」をリリースした。

SmolVLM-256Mは、SmolVLM-2.2Bの8分の1以下のサイズで約80%の性能を実現。1GB未満のGPUメモリで動作可能で、エッジデバイスや低コストなハードウェアでも動作し、基本的な視覚的推論、画像や短い動画の説明(キャプション)、PDFや印刷されたテキストの解析といったマルチモーダル・タスクを可能にする。

より高い性能のヘッドルームを提供するSmolVLM-500M(5億パラメータモデル)は、メモリ使用量を抑えつつ、SmolVLM-2.2Bと比較して約90%の性能を発揮する。

新しいSmolVLMシリーズの開発では、モデルを軽量化するために、9300万パラメータのビジョンエンコーダを採用した。従来の4億パラメータのエンコーダと比較したところ、大幅に軽量でありながら性能差のトレードオフは小さかった。加えて、小さなエンコーダはより大きな解像度で画像を処理するため、パラメータ数を増やすことなく、より良い視覚的理解を得られることがあるという。さらに、画像を処理する際のトークン化の最適化、文書理解(41%)と画像キャプション(14%)に重点を置いたデータセット比率、モデルサイズの段階的削減などで、VLMの小型化と高効率化を実現した。

小さく効率的なモデルで、従来同様のAIタスク処理が可能であることを実証した新しいSmolVLMシリーズは企業の注目も集めており、IBMはHugging Faceと提携し、256Mモデルを文書処理AIツール「Docling」に統合した。

SmolVLM-256MとSmolVLM-500Mは、Apache License 2.0で公開されている。