トレンドマイクロの機械学習型検索の仕組み

トレンドマイクロは、AI(人工知能)技術を応用した機械学習型検索機能を持つ、新たな総合セキュリティ対策ソフトのウイルスバスターコーポレートエディション XG(以下、ウイルスバスター XGと略記)を発表した。製品名には、従来はバージョンナンバーである「11」がついていたが、今回から「XG」となった。このXGの正式名は「XGen(エクスジェン)」で、従来の成熟した技術と新しいAI技術の組み合わせによる新しいセキュリティアプローチを意味する。

発表会当日、同じ会場にて、Trend Micro DIRECTIONが開催されていたが、その基調講演でCEOのエバ・チェン氏もXGenのXを強調する講演を行った。

Trend Micro DIRECTIONでのエバ・チェン氏の基調講演

ウイルスバスター XGの機能紹介は、トレンドマイクロ・プロダクトマーケティング本部の宮崎謙太郎氏が行った。

従来の成熟した技術と新しいAI技術の組み合わせ＝XGen

まず、図を見ていただきたい。

図3 脅威動向の推移

宮崎謙太郎氏

左のグラフは、暗号化型ランサムウェアのW2KM_LOCKYの検出台数の推移である。赤く囲んだ部分に注目してほしい。短期間に急峻な増加を示している。しかも、亜種などのケースもありうる。このような脅威に対し、いかに対応していくか。その一方で、右のグラフにあるように、不正プログラムの総数も、増加し続けている。

このような状況に対応するには、対応速度とスケーラビリティの両方が求められる。そこで、新たな対策手法として、AI(人工知能)よる機械学習型の検索技術を導入した。AIを導入したから万全となるか。宮崎氏は、必ずしもそうではないと述べる。

図4 個々の対策の弱みと強み

図4は、従来から対策方法の強みと弱みを一覧にしたものである。たとえば、パターンマッチングであるが、セキュリティ対策の基本ともいえるものだ。長期間にわたり使われており、その信頼性(誤検知などの低さ)は高い。しかし、弱みに未知への脅威への対応速度とあるように、図3のランサムウェアのような、新種や亜種の急激な感染増加には対応しにくい。ちなみにトレンドマイクロでは、パターンファイルをクラウド上に配置し、1時間おきに更新する。状況によっては、その1時間が問題となることすらある。

一方、実行後の機械学習型検索であるが、未知の脅威などへの対応も可能であるが、誤検知が多いといった弱みがある。さらに、EXEなどの実行型の検出には一定の成果があるが、スクリプトやマクロ型といったタイプの不正プログラムの検出率がよくないことも指摘される。

そこで、これらの強みや弱みを補完しあうことで、リスクを回避する。

図5 複数の対策を組み合わせることでリスクを回避

パターンマッチングでは、未知の脅威を防ぐことは難しい。しかし、機械学習型検索と組み合わせることで、防ぐことも可能になる、さらに、Webレピュテーションや振る舞い検知といった技術との組み合わせも有効になる。こうして、古くから存在する成熟した技術と新しいAI技術の組み合わせを行うことで、未知の脅威を含む、さまざまな脅威に対応するのである。それが、XGenである。

では、どのようにAI技術が使われているのか見ていこう。その前に、ふれておきたいのは、AI技術自体は、決して新しいものではない。すでにスパムメール対策などでは、80%が機械学習によって行われている。さて、まず必要になるのは「学習」である。トレンドマイクロのクラウド型セキュリティ技術基盤 Trend Micro Smart Protection Network(以下、SPNと略記)では、1日に50万の新しい脅威を検知し、まさにビッグデータといえるものだ。脅威以外にも、安全なファイル情報もある。これらのサンプルを利用する。

図6 機械学習型検索での学習

これらのビッグデータに対し、さまざまなアルゴリズムを用いて、判断のためのモデルを作成する。そして、作成されたモデルを使い、判断を行う。

図7 機械学習型検索での判断

図7はランダムフォレストの場合である。未知のコンテンツが発見されると、特徴の抽出が行われる。プログラムであれば癖、ファイル名などの一般的情報も送る。そして、学習で作成したモデルの決定木(ディシジョンツリー)を使う。フォレスト(森)の名前の通り、たくさんの決定木を使う。たとえば、ある決定木では、プログラムコードの特徴を比較する。こうして、単体では脅威と判断できない特徴でも、たくさんの決定木との比較により、統計的に判断をくだす。たとえるならば、多数決のような感じである。したがって、判定結果は「95%でランサムウェア」といったようにくだされる。

具体的な例を紹介しよう。図8は、左が既知のランサムウェアで、右が未知のプログラムである(答えは、ランサムウェア)。サイズやハッシュ値も異なり、プログラムの内容も同じものとは思えない(緑内が同じ部分)。

図8 2つのプログラムの比較

しかし、この2つをプログラムの癖で比較したものが、図9である。

図9 プログラムの癖を比較

上は、機械語コードの組み合わせである。下は、コード内のAPIコール状態である。いずれもほとんど違いがない。このようにして、未知のプログラムであっても、ランサムウェアと判断されるのである。実装では、クライアントPCで未知のコンテンツが発見されると、ファイルやプロセスの特徴がSPN上の機械学習型検索の頭脳に送信する。頭脳が安全かどうかを判断し、ブロックするかの指示をクライアントPCに出す。

SPN上の頭脳は、複数のモデルを持ち、未知のコンテンツが実行形式かDLLかといったファイルごとに使い分けを行う。宮崎氏によれば、非常に多くのモデルがあるとのことだ。これにより、最良の検出と低い誤検出を目指している。

学習型でポイントになるのは、学習のためのデータの確保となる。これについては、SPNのビッグデータを活用する。これについては、信頼できるだろう。モデルのアップデート頻度であるが、現時点では、1カ月程度を想定しているとのことだ。パターンファイルと異なり、未知のコンテンツに対し、98%を検出し、誤検知を2%と目標を定めた場合、その数字が達成できなくなれば、モデルのアップデートを行うことになる。宮崎氏は、1カ月といったが、本当によいモデルができれば、かなり長期間にわたり、使い続けることができるだろうとも語った。

その他の新機能

ウイルスバスター XGには、機械学習型検索以外にも新機能が追加された。まずは、サンドボックス連携による標的型サイバー攻撃対策の強化である。パターンファイルや機械学習型検索を潜り抜け、PCに不審なファイルが侵入した場合、ネットワーク型脅威対策製品Deep Discovery Analyzerへファイルを送り、サンドボックス内でファイルの検査を行う。不正なファイルと判断した場合、該当のファイルを駆除するためのカスタムパターンファイルを自動的に生成し、PC内の不正なファイルを削除する。この機能は、侵入後の対策強化となる。

図10 サンドボックスとの連携

もう1つは、セキュリティポリシーの均一化である。具体的には、出張や外出でノートPCを持ち出したケースを想定してほしい。DMZに配置されたエッジサーバーを経由して、システム管理者がパターンファイルの更新状況や感染状況の確認、カスタムパターンファイルの適用ができる。

図11 セキュリティポリシーの均一化

ウイルスバスター XGは、2017年1月下旬より、提供開始の予定である。