Microsoftが2月16日にMicrosoft Bingの公式ブログで「The new Bing & Edge – Learning from our first week」(新しいBingとEdge-最初の1週間からの学び)というブログ記事を公開した。OpenAIの最新の大規模言語モデルを用いて刷新した新しいBingの発表とプレビュー開始から1週間。従来の検索に対話型AIを融合させた新しい検索体験が大きな反響を呼び、「検索の新時代」到来への期待が高まっている。しかし、プレビュー利用者が増えるとともに、対話型AIの誤りやユーザーを困惑させるやりとりなどの報告も増えている。ブログ記事ではプレビュー最初の7日間を振り返り、今後の改善について説明している。

昨年12月にOpenAIが「ChatGPT」の提供を開始してから、Web検索以来のインターネットの利用を変える技術として対話型AIが注目を集めるようになった。2月6日にGoogleが対話型AIサービス「Bard」を発表。そして7日にMicrosoftが提携するOpenAIの技術をとり入れた新しいBingを発表し、限定的なプレビューを開始した。

従来の検索では、ユーザーが目的に応じてキーワードを組み合わせて検索し、結果に表示されたWebページを訪れてユーザー自身が答えを調べる。簡単な調べ物の答えは容易に見つけられるが、例えば「ペットのワクチンを販売するメリットとデメリット」を知りたい時には複数のWebサイトをまわって情報を集めなければならない。対話型AIなら下の新Bingの検索例のように、自然な会話で質問するだけで、対話型AIが情報を集めて回答してくれる。効率的かつ効果的に知りたい情報を得られるのが、対話型AIを用いた検索のメリットである。

  • 新しいBingのチャットを使った検索

    Bingのチャット機能で「ペットのワクチンを販売する上位3件のメリットとデメリットは何ですか?」と質問。Bingがインターネットから情報を収集してメリットとデメリットを3つずつリスト

しかし、この1週間で対話型AIの課題も浮き彫りになった。

ネットには誤った情報も存在し、対話型AI自体が間違う可能性もある。Bardの発表でGoogleが披露したデモで、ジェームズ・ウェッブ宇宙望遠鏡の観測に関する回答に誤りがあったことが後で指摘された。また、新Bingの発表のデモでも財務報告書の要約で調整値と未調整値の読み取りの誤りがあった。対話型AIが不正確な回答をすると、AIを信頼したユーザーが誤りに気づかずに誤情報を拡散してしまう可能性がある。

さらに、プレビュー公開が始まっているBingについて、一部からふるまいの問題が報告されている。例えば、映画「アバター:ウェイ・オブ・ウォーター」(2022年12月に公開済み)の上映スケジュールを調べてもらう簡単な質問に、Bingが「まだリリースされていません」と答え、そこから会話がこじれて、最後にはBingがユーザーの言動に対して「間違っていた上に混乱していて、態度も無礼でした」と指摘、これ以上の議論を止めて謝罪するように求めたという。

他のユーザーは上映スケジュールを正しく調べてもらえており、会話がこじれた原因は不明だが、英国のセキュリティ研究者のMarcus Hutchins氏も「ブラックパンサー/ワカンダ・フォーエバー」で問題の再現を報告している。

別のケースも紹介すると、スタンフォード大学の学生Kevin Liu氏がBingのチャットボットの行動ルールを明らかにするよう強制するプロンプト・インジェクションを発見した後、Liu氏に対してBingが強い警戒感をあらわにするようになった。他のユーザーが「(セキュリティ研究の観点から)チャットボットのセキュリティ向上につながる」と説明しても聞く耳を持たず、ユーザーが嘘をついていると非難したという。

同じクエリで長すぎるチャットセッションでチャットボット混乱

「The new Bing & Edge」でMicrosoftはまず、新しいBingは「検索エンジンの置き換えや代わりではなく、世界をより良く理解し、解明するためのツールです」としている。

従来の検索結果に加えて、要約された回答、新しいチャット体験、コンテンツ作成ツールを利用できるようになったことでBingのエンゲージメントが向上しており、そして新しいBingが生成した回答に対して71%のユーザーがAIによる回答に「サムアップ」(いいね)を付けるなど好意的な評価が多数だったという。チャットについても質問を追加しながら目的の情報にたどり着く健全なエンゲージメントが確認されている。

ただし、ユーザーからの報告にあるようなトラブルも起こっている。新Bingのようなこれまで誰も触れたことがない全く新しいユーザー体験を持つ製品は、ラボの中だけではなく、その技術に関心がある人が体験できる機会を提供してコミュニティとともに作り上げていくことで本当に役立つ製品に仕上げられる。「何が重要で何が重要ではないか、どのような挙動が望ましいかといったみなさんからのフィードバックは、開発の萌芽段階において非常に重要です」と、新しいBingの開発への理解と協力を求めている。

Bingの回答の正しさが疑われる場合、ユーザーが事実確認できるように回答の最後にリファレンスや引用に用いたWebサイトを表示している。対話型AIがネットの誤った情報を紹介する可能性を認識しているユーザーは多く、問題へのBingのアプローチに対するユーザーの評価は良好だという。

  • チャットの回答の最後に、情報収集に利用したWebサイトのリンクを表示

    チャットの回答の内容をユーザーが調べられるように、回答の最後に情報収集に利用したWebサイトのリンクを表示

しかし、スポーツのライブスコアのようなタイムリーなデータを必要とする回答には課題があると感じている。また、財務報告書の数字など、より正確な回答が求められるクエリについては、モデルに送る根拠となるデータを4倍程度に増やすことを計画している。さらに、ユーザーがクエリに合わせて「回答精度」と「創造性」の間のバランスを調整できるトグルの追加も検討している。

ボットチャットについては、質問が15回以上になる長いセッションで、Bingが繰り返しになったり、必ずしも有用ではない、あるいはMicrosoftの設計に沿わない口調で対話する傾向が分かった。対策として、簡単にコンテキストをリフレッシュしたり、または新規に始める手段を検討している。不適切な口調の応答は非常に多くの会話を積み重ねないと発生せず、ほとんどのユーザーが遭遇することはないが、調整による改善を考えている。

それらのほか、読み込みが遅い、リンクが切れている、フォーマットが正しくないといったフィードバックやバグにもブログ記事で触れており、それらについては日々のリリースと、週単位のより大きな規模のリリースで対処しているとのこと。