Future USは11月26日(米国時間)、「Microsoft says Word and Excel AI data scraping was not switched to enabled by default (Updated)|Tom's Hardware」において、Microsoft WordおよびExcelのユーザーコンテンツがLLM(Large Language Model:大規模言語モデル)の学習に使用されている可能性があると報じた。Microsoftは否定している。

  • Microsoft says Word and Excel AI data scraping was not switched to enabled by default (Updated)|Tom's Hardware

    Microsoft says Word and Excel AI data scraping was not switched to enabled by default (Updated)|Tom's Hardware

学習に使用される可能性

この件はCyberciti.bizのnixCraft氏がXに投稿したメッセージで明らかになった。nixCraft氏によると、Microsoft Officeにはユーザーコンテンツの分析を可能にする機能「Connected Experiences」があり、WordおよびExcelからデータを自動的に収集して学習に使用するという。また、この機能がデフォルトで有効になっており、手動で無効にしない限りデータが収集されると指摘している。

  • nixCraft氏のXへの投稿

    nixCraft氏のXへの投稿

これに対し、Microsoftは顧客データを大規模言語モデルの学習に使用しないと反論している。同社は、nixCraft氏が指摘した設定項目について、共同執筆のようなインターネットアクセスを必要とする機能のみを有効にするものと説明している。

  • MicrosoftのXへの投稿

    MicrosoftのXへの投稿

Microsoftは「Connected experiences in Office - Microsoft 365 Apps | Microsoft Learn」において、Connected Experiencesを次のように説明している。

Officeは、クライアントソフトウェアアプリケーションとユーザーがより効果的に作成、通信、共同作業できるように設計された接続エクスペリエンス(Connected Experiences)で構成されています。 接続エクスペリエンスの例としては、OneDriveに保存されているドキュメントを他のユーザーとの共同作業に使用する、Word文書のコンテンツを別の言語に翻訳するなどがあります。

安心するのはまだ早い?

Future USはさらに、今回の件に関連したマイクロソフトの資料として、「Microsoft サービス規約」に記載された次の一文を指摘している。

お客様は、マイクロソフトに対し、本サービスをお客様および他のユーザーに提供するため、お客様および本サービスを保護するため、ならびにマイクロソフトの製品およびサービスを改善するために必要な範囲で、お客様のコンテンツを使用する (例えば、本サービス上のお客様のコンテンツを複製する、保持する、送信する、再フォーマットする、表示する、コミュニケーション ツールを介して頒布するなど) ための世界全域における知的財産のライセンスを無償で許諾するものとします。

つまり、Microsoftのサービス規約には、大規模言語モデルの学習にユーザーコンテンツの使用を可能にする条文が存在する。Microsoftは先の投稿において、学習に使用していないと否定しているが、将来にわたり使用しないことは明言していない。

Future USもMicrosoftは学習への利用を肯定も否定もしていないとして、警戒を呼びかけている。Connected Experiencesの設定は、「ファイル」→「オプション」→「トラスト センター」→「トラスト センターの設定」→「プライバシー オプション」→「プライバシー設定」→「接続エクスペリエンス」の各項目から行える。