ソフトバンクは3月17日、通信業界向け生成AI基盤モデル「Large Telecom Model」(LTM)の学習に向けて、NVIDIAの「NeMo Safe Synthesizer」を活用し、機密性の高い通信ネットワークデータを保護しながら安全かつ高精度な学習を可能にする合成データ生成基盤を構築したと発表した。
LTMの学習には自社の通信ネットワークの運用・品質データや基地局の設定情報など、詳細かつ大規模なデータが用いられてきた。一方、学習データに機密性の高い情報が含まれるため、モデルやデータの活用範囲が限定されるという課題があった。また、通信ネットワークのデータは複雑に連動して構成されているため、単純な匿名化や一律のノイズ付加処理では、障害の予兆や通信品質の低下の原因を示す微細な相関関係が損なわれ、AIの学習データとしての価値が失われる問題もあったという。
今回構築した合成データ生成基盤は、差分プライバシー(Differential Privacy)技術により、特定の個別データを削除・変更しても、モデルが学習・出力する内容に実質的な影響を及ぼさないことを数学的に保証する。また、特定のデータが学習に使われたかを推測するMIA(Membership Inference Attack)や、一般的な属性から基地局の位置情報などを推測するAIA(Attribute Inference Attack)への耐性評価も実施し、これらを通過したデータのみをLTMの学習用および共有用データとして使用する。
同社が生成した合成データセットを用いてLTMの学習と性能評価を行ったところ、通信ネットワーク特有の相関関係を維持したまま、ネットワーク品質の傾向分析や運用データに対する解釈・推論などのタスクで実業務に適用可能な水準の精度が確認されたとしている。
今後は国内外の通信事業者やネットワーク機器ベンダー、教育機関などと協力して実証実験を進めるほか、AIの推論においてもLLMガードレールによる多層的な保護を導入する予定。長期的にはAI-RANアライアンスなどのコンソーシアムを通じたエコシステムへの還元も視野に入れ、次世代通信ネットワークの高度化と通信業界全体における生成AIの安全な社会実装を推進するとしている。
