Google検索AIは「10回に1回ミス」1日数千万件の誤答が発生か

Ars Technicaは4月8日(現地時間)、「Testing suggests Google's AI Overviews tell millions of lies per hour」において、Googleが提供する検索機能「AI Overviews（AIによる概要）」の信頼性に関する詳細な分析結果を報じた。

AIによる概要はどれくらい間違うのか？10回に1回の誤答

Googleは現在、Google検索による検索結果の最上部に、「AIによる概要」として検索キーワードについてAIで自動生成した解説文を表示している。同社がこの機能を導入してからすでに数年が経過したが、独立調査機関による最新の大規模なデータ分析により、その回答精度に深刻な課題が残っていることが明らかになった。

レポートによれば、AIが生成する回答のうち、約10%に事実誤認や文脈の誤解が含まれているという。これは、10回に1回の割合でユーザーが誤った情報に接している計算になり、検索プラットフォームとしての信頼性を揺るがしかねない数値だと言える。

なぜ「1日数千万件の誤り」になるのか？試算の仕組み

分析は、The New York Times誌がAIスタートアップ企業であるOumiの協力の下、実施された。同社は、生成モデルの正確性をランク付けする「SimpleQA」を使用して「AI Overviews」の回答を評価し、その結果として同機能が質問の91%に正しく回答することを確認したという。

見方を変えれば、およそ10回に1回は誤った情報を返していることを意味している。この誤答率をすべてのGoogle検索に当てはめた場合、AI Overviewsは1日に数千万件もの誤った回答を生成している計算になるという。

この調査はどこまで信頼できるのか？Google側の反論

レポートでは、AI Overviewsが生成した誤った回答例の一部を掲載している。ただし、この回答例だけでAI Overviewsの性能を評価するのは適切ではない。LLMが返す回答は、その都度異なる可能性があるからだ。また、このレポートに対して、Googleの広報担当者は、ベンチマークに使用されたSimpleQAの欠点を指摘しながら、「この調査には重大な欠陥がある」とコメントしている。