富士通研究所は7月13日、高次元データの分布・確率などの特徴量を獲得するAI技術「DeepTwin(ディープツイン)」を開発したことを発表した。
今回、同社が開発したのは、映像圧縮技術の知見を活かし、理論体系に基づいた情報圧縮技術とディープラーニングを融合させることで、高次元のデータの削減すべき次元数と次元削減後のデータの分布をディープラーニングで最適化し、教師データなしでデータの特徴を捉えるAI技術。
分布・確率が未知の高次元データに対し、その次元をニューラルネットワークの一つであるオートエンコーダで削減した後、また復元したときに、元の高次元データと復元後のデータとの間の劣化を一定値に抑えつつ、次元削減後の情報量を最小化したデータは元の高次元データの特徴を捉え、かつ、次元を最小限に削減できていることを世界で初めて数学的に証明したという。
また、一般にディープラーニングは、最小化したい評価項目を定めると、複雑な問題でも評価項目が最小となるパラメータの組合せを求めることが可能であるという特徴を利用して、高次元データの削除すべき次元数と削除後のデータの分布を制御するパラメータを導入し、圧縮後の情報量を評価項目に定め、ディープラーニングで最適化したという。
これにより、前述した数学理論に基づいて最適化されたときの次元を削減したデータの分布および確率は、データの特徴を正確に捉えることが可能になるとしている。
今回、同技術をデータマイニングの国際学会「Knowledge Discovery and Data Mining (KDD)」が配布している通信アクセスデータ、およびカリフォルニア大学アーヴァイン校が配布している甲状腺数値データ、不整脈データといった異なる分野での異常検知のベンチマークで、従来のディープラーニングベースの誤り率と比較して最大で37%改善し、全データで世界最高精度を達成したということだ。
この技術により、AI分野の重要な課題のひとつであるデータの正確な分布や発生確率の獲得が可能となるため、異常データ検知など様々なAI技術の判断精度向上に貢献し、幅広いビジネス領域におけるAI適用が期待されるとしている。