Google、18世紀の古文書を復元するデレンダリング機能など「Gemini 3 Pro」のマルチモーダル技術をアピール

Googleは現地時間12月5日、開発者ブログで新たなAIモデル「Gemini 3 Pro」の映像技術のパフォーマンスのアピールを行った。

推論機能とマルチモーダル機能を飛躍的に強化した「Gemini 3 Pro」

「Gemini 3 Pro」はGoogle DeepMindが開発した「Gemini 3」シリーズのハイパフォーマンスモデルで、推論機能とマルチモーダル機能が飛躍的に強化されており、文書、空間、画面、動画などの理解において従来のレベルを超え、視覚情報を論理的に解釈する能力を獲得。事例を交えてその能力をアピールしている。

文書理解では、数式・表・図表を認識し、元の文書を再現することが可能で、判読不能な手書きテキストやネストされた表、複雑な数式を理解し再現、事例では18世紀の古文書を復元している。同機能は、デレンダリング機能とよばれる基本機能のひとつで、HTML、LaTeX、Markdownなどに復元して元の文書を再構築している。

18世紀の商人の手書きの表を復元(公式ブログより)

空間理解についても高い性能を持ち、ピクセル単位の高精度座標を出力する「ポインティング」機能や、オブジェクトとその意図を識別する「オープンボキャブラリー参照」機能と強力な推論機能と組み合わせ物体の位置と動作を推論する。産業用ロボットなどでの活用が期待される。また、その高い空間認識能力でデスクトップやモバイル画面を認識し、UI操作を自動化することも可能で、QAテストやUX分析、オンボーディング支援などに有効活用できる。

画像内にあるすべてのアイテムをマーキング(公式ブログより)

動画理解においても、高フレームレート解析で高速動作などを高精度で解析。因果関係を理解し、長時間動画から情報を抽出しコードやアプリに変換できる。

動画の内容を認識して、左サイドにテキスト化(公式ブログより)

ブログではこれらの機能が教育分野、特に数学や科学での図表を多用する問題の解決において、大きな進歩をもたらすことに言及している。事例では、手書きされた二次方程式の証明の添削をAIが行っている。

プロンプトの利用事例、「宿題の取り組みの写真です。手順を確認し、どこが間違っていたか教えてください。文章で説明するのではなく、画像で視覚的に示してください」。生徒の課題を赤で添削(公式ブログより)

その高い画像理解能力は、医療および生物医学でも有効で、放射線画像や顕微鏡に基づく生物学研究でも高い評価を得ており、今後の医療分野での活用が期待されている。また、法律や金融の分野においても高い文書理解能力は高く評価されており、金融プラットフォームでは、グラフや表満載のレポートの迅速な分析、法律プラットフォームでは、ドキュメント推論による高度な支援サービスを受けられるという。「Gemini 3 Pro」の詳細は公式ページで確認できる。