Googleは現地時間12月5日、開発者ブログで新たなAIモデル「Gemini 3 Pro」の映像技術のパフォーマンスのアピールを行った。
推論機能とマルチモーダル機能を飛躍的に強化した「Gemini 3 Pro」
「Gemini 3 Pro」はGoogle DeepMindが開発した「Gemini 3」シリーズのハイパフォーマンスモデルで、推論機能とマルチモーダル機能が飛躍的に強化されており、文書、空間、画面、動画などの理解において従来のレベルを超え、視覚情報を論理的に解釈する能力を獲得。事例を交えてその能力をアピールしている。
文書理解では、数式・表・図表を認識し、元の文書を再現することが可能で、判読不能な手書きテキストやネストされた表、複雑な数式を理解し再現、事例では18世紀の古文書を復元している。同機能は、デレンダリング機能とよばれる基本機能のひとつで、HTML、LaTeX、Markdownなどに復元して元の文書を再構築している。
空間理解についても高い性能を持ち、ピクセル単位の高精度座標を出力する「ポインティング」機能や、オブジェクトとその意図を識別する「オープンボキャブラリー参照」機能と強力な推論機能と組み合わせ物体の位置と動作を推論する。産業用ロボットなどでの活用が期待される。また、その高い空間認識能力でデスクトップやモバイル画面を認識し、UI操作を自動化することも可能で、QAテストやUX分析、オンボーディング支援などに有効活用できる。
動画理解においても、高フレームレート解析で高速動作などを高精度で解析。因果関係を理解し、長時間動画から情報を抽出しコードやアプリに変換できる。
ブログではこれらの機能が教育分野、特に数学や科学での図表を多用する問題の解決において、大きな進歩をもたらすことに言及している。事例では、手書きされた二次方程式の証明の添削をAIが行っている。
その高い画像理解能力は、医療および生物医学でも有効で、放射線画像や顕微鏡に基づく生物学研究でも高い評価を得ており、今後の医療分野での活用が期待されている。また、法律や金融の分野においても高い文書理解能力は高く評価されており、金融プラットフォームでは、グラフや表満載のレポートの迅速な分析、法律プラットフォームでは、ドキュメント推論による高度な支援サービスを受けられるという。「Gemini 3 Pro」の詳細は公式ページで確認できる。



