生成AIでは動きが少ないとされる米アップルだが、10月にコーネル大学の研究者と「Ferret」とするLLM(大規模言語モデル)をオープンソースとして公開していたことが明らかになった。

「Ferret」とは

公開された論文は「Ferret: Refer and Ground Anything Anywhere at Any Granularity」で、10月11日にコーネル大学のオープンなアーカイブに掲載された。論文の説明によると「画像内のあらゆる形状や粒度の空間参照を理解し、オープンなボキャブラリー記述を正確にグラウンディングできるマルチモーダルLLM」だという。

Ferretは画像と言語をサポートするマルチモーダルのLLMで、10月30日に最初にオープンソースとしてリリースされた。GitHubのプロジェクトページも公開されている。

ハイブリッド領域表現と空間認識対応のビジュアルサンプラーを含むFerret Model、大規模で階層的な“ground-and-refer”命令チューニングセットのGeneral Robust Image Task(GRIT)、マルチモーダル評価ベンチマークのFerret-Benchが公開されている。

Venture Beatによると、リリース当時は研究利用のみのライセンスだったため、あまり注目されなかったが、端末で動くローカルLLMの可能性がフォーカスされるようになったことで、AIコミュニティなどによるFerretへの注目が高まったとしている。