Ars Technicaは4月8日(現地時間)、「Testing suggests Google's AI Overviews tell millions of lies per hour」において、Googleが提供する検索機能「AI Overviews(AIによる概要)」の信頼性に関する詳細な分析結果を報じた。

AIによる概要はどれくらい間違うのか?10回に1回の誤答

Googleは現在、Google検索による検索結果の最上部に、「AIによる概要」として検索キーワードについてAIで自動生成した解説文を表示している。同社がこの機能を導入してからすでに数年が経過したが、独立調査機関による最新の大規模なデータ分析により、その回答精度に深刻な課題が残っていることが明らかになった。

レポートによれば、AIが生成する回答のうち、約10%に事実誤認や文脈の誤解が含まれているという。これは、10回に1回の割合でユーザーが誤った情報に接している計算になり、検索プラットフォームとしての信頼性を揺るがしかねない数値だと言える。

なぜ「1日数千万件の誤り」になるのか?試算の仕組み

分析は、The New York Times誌がAIスタートアップ企業であるOumiの協力の下、実施された。同社は、生成モデルの正確性をランク付けする「SimpleQA」を使用して「AI Overviews」の回答を評価し、その結果として同機能が質問の91%に正しく回答することを確認したという。

見方を変えれば、およそ10回に1回は誤った情報を返していることを意味している。この誤答率をすべてのGoogle検索に当てはめた場合、AI Overviewsは1日に数千万件もの誤った回答を生成している計算になるという。

この調査はどこまで信頼できるのか?Google側の反論

レポートでは、AI Overviewsが生成した誤った回答例の一部を掲載している。ただし、この回答例だけでAI Overviewsの性能を評価するのは適切ではない。LLMが返す回答は、その都度異なる可能性があるからだ。また、このレポートに対して、Googleの広報担当者は、ベンチマークに使用されたSimpleQAの欠点を指摘しながら、「この調査には重大な欠陥がある」とコメントしている。

AI検索の弱点はどこにあるのか?評価手法とモデル構造の課題

Ars Technicaの記事でも、Oumiが実施したベンチマークに関するいくつかの問題点を指摘している。まず、Oumiは評価のためにAIツールを使用しているが、そのAIそのものもハルシネーションを起こす可能性がある。

また、AI Overviewsは複数のモデルを併用しているため、速度重視のモデルが使われた場合は精度が犠牲になることもある。

AI検索の誤りは何を引き起こすのか?ユーザーとメディアへの影響

いずれにしても、生成AIではハルシネーションのリスクを完全に排除することはできない。誤答率9%というのはLLMとしてはけっして悪い数字ではないが、これがGoogle検索の結果と並んでもっとも目に付く場所に表示されている点は注意が必要だ。

不正確な情報の拡散は、公共の利益に害を及ぼすだけでなく、コンテンツ制作者との関係悪化も招くことになる。制作者にとっては、自分の書いた記事がAIによって不正確に要約されることで、誤報の片棒を担がされる形になるからだ。

今後は、情報の正確性を担保するための新たな検証システムや、AI自身が不確実な情報に対して回答を控えるといった、より強化された安全装置の開発が求められるだろう。