東京理科大学(理科大)は12月10日、現代のAIの基礎となっている「大規模事前学習済み視覚-言語モデル」(以下、「LSPT-VLM」)に対し、そのモデルの構造やパラメータが未知であることを仮定する「ブラックボックス(BB)条件下」において、モデルが認識可能なクラスのうち、任意のものだけを認識できないようにする“選択的忘却手法”を提案したと発表した。
同成果は、理科大大学院 工学研究科 情報工学専攻の桑名優輔大学院生、後藤優太大学院生、理科大 工学部 情報工学科の入江豪准教授、NECの柴田剛志博士らの共同研究チームによるもの。詳細は、2024年12月10~15日にカナダ・バンクーバーにて開催中の、機械学習分野で最も権威があるとされる国際会議「NeurIPS 2024」に採択された。
AIの画像認識などにおいて、実用的には、あらゆる種類のオブジェクトクラスの分類を必要とすることはあまりない。たとえば自動運転システムであれば、車や歩行者、交通標識などの限られたクラスのオブジェクトを認識できれば十分だ。認識の必要がないクラスを残すことは、全体的な分類精度の低下だけでなく、計算資源の浪費や情報漏洩のリスクなどを引き起こす危険性がある。そのため、必要なクラスの分類精度に影響を与えることなく、特定クラスのみの分類精度を低下させるようにLSPT-VLMをチューニングする“選択的忘却手法”の開発が求められている。
しかし従来の選択的忘却手法は、学習/チューニングの対象となるモデルの完全な情報が利用可能なホワイトボックス設定用のものしかないとのこと。現実には、商業的な理由や社会的影響への配慮から、LSPT-VLMの詳細はブラックボックスであることも多々あり、そのようなモデルでは、モデルのアーキテクチャやパラメータ、勾配などにアクセスできない。そこで研究チームは今回、新たなアプローチから、BBモデルの選択的忘却手法の開発を目指したという。
BB条件下では勾配を使えないため、それを利用しない最適化法である「微分フリー最適化」を用いる必要がある。その課題は、同手法は大規模な問題において、その求解性能が低下する点だ。今回の選択的忘却においても、忘却するクラス数の増加に伴う性能の低下が観測されたとする。この問題に対し、最適化問題の規模を大幅に小さくするテキストプロンプトの新たなパラメータ化手法である「潜在コンテキスト共有(LCS)」が開発され、従来手法を超える性能が達成されたとした。
通常のLSPT-VLMでは、テキストプロンプトは高次元ベクトルの集合としてパラメータ化される。そのため、最適化次元数が大きくなり、求解性能が低下する要因となる。一方LCSでは、各潜在コンテキストが固有の成分とすべてのコンテキストで共通する成分で構成されていると仮定し、それらがそれぞれ独立に最適化される。各コンテキスト間には意味的な類似性があると考えられ、共通成分が存在しているという着想のもとでパラメータ化が行われる。これにより、プロンプトの表現能力を保ちつつ、最適化次元数を大幅に少なくできるという。そして複数のデータセットを用いて、記憶したクラスに対する分類精度に対し、既存手法と今回の手法で比較が行われたところ、今回の手法の優位性が実証されたとしている。
選択的忘却を可能にする今回の手法は、LSPT-VLMをより多くの実用的問題に適用する上で、重要な技術になることが期待されるとする。大規模モデルの選択的忘却が可能になれば、大規模モデルが抱える、「忘れられる権利」への対応、効率的な大規模事前学習モデルの構築、テキストからの画像生成の内容を制御するといった課題への解決に向けた新たな道が開かれるとした。
「忘れられる権利」に基づくと、サービスプロバイダが、モデルが特定の情報を認識できないように情報を削除する要求を受けた場合、対応が必要になる。その際、今回の手法は、従来手法よりも大幅に効率的な解決策を提供できる可能性があるという。
また妥当なモデルサイズは、そのモデルが記憶する知識量(認識可能なオブジェクトクラスの数など)と相関する。今回の手法を用いれば、大規模モデルの効率化につながり、適用範囲の拡大に貢献することが期待されるとする。
そして現在、簡単なテキストから画像を生成させることは誰でも容易に行えるが、望ましくないものが生成されることもあり、その内容を制御することは依然として課題となっている。拡散モデルを微調整することで視覚的概念を「忘れる」ことが可能だが、高い計算コストがかかる場合が多い点が課題であり、今回の手法は、クラス忘却への効率的なアプローチを提供する可能性があるとしている。