富士通研究所は9月6日、組織内で用いられる社外秘マークや部外秘といった文書の背景に透かし文字として用いられる文字などを検出することで、機密文書の漏洩対策が可能となる技術を開発したことを発表した。

メールなどによる情報漏えいは、どこの組織でも起こりうる可能性があるが、クラウド化が語られるようになった昨今、従来のファイアウォールやプロキシを用いた外部からの侵入を防御するだけでなく、内部からの流出を防ぐ手立てとして「情報セントリック(中心)セキュリティ」が求められていると同社は指摘する。

クラウド化に伴い、データのある場所を守るのではなく、データそのものを守る方向にシフトしていくというのが同社の主張するところ

今回、同社が開発した技術はPCから外部に向けてメールやUSBメモリで送信されるデータを監視、その送信データに機密情報が含まれていた場合に警告を行ったり、送信を防止する仕組みとして機能するというもの。

富士通研究所 ソフト&ソリューション研究所 言語・メディア研究部 主任研究員の堀田悦伸氏

具体的には、同社が開発してきた文字認識技術を用いることで、PDFやWord、Excel、Power PointデータなどからEnhanced Metafile(EMF)に変換する際に、データを分析、テキスト、ベクトル図形の文字、画像(内の文字)をサイズ、直線性、間隔などから認識し分離することで、「すべてをテキストでチェックするのに比べて、テキストやマークなどに分けて分析するため、スムーズに認識することが可能となる」(富士通研究所 ソフト&ソリューション研究所 言語・メディア研究部 主任研究員の堀田悦伸氏)という。

管理者が機密情報として扱うべきキーワード(社外秘やConfidentialなど)を登録しておけば、サーバであろうとクライアントPCであろうと、同技術が各種データの中にその文字がテキストや画像として含まれているかをチェックし、もし含まれているのであれば、そのデータを本当に送信してよいのかを確認するアラートを出すなどの手段を講じることが可能となる。

また、添付されたデータそのものが機密情報でない場合。例えば、機密文書の一部をコピーして他の文書にペーストして流用した場合などでも、特定フォルダを監視する機能を用いることで、そこの文書と同じ文言が使われているかどうかを比較、文書全体としていは社外秘などの文言やマークが入っていない場合でも、送信して良いのか、確認のアラートを出すことが可能となっている。

富士通研究所が開発した技術の概要

同技術のテキスト抽出性能はテキストならびにマークの平均抽出率でPDFが95%、Excel/Word/PowerPointで99%(印刷イメージにOCRを適用した場合でPDFが93%、Excelなどで89%)を達成、透かし検出率もPDFおよびWordで99%(OCR活用の場合は検出不可)を達成しているという。

同技術を活用した場合の適用例

ただし現在の解析時間は1ページあたり1~2秒を必用としており、そのため、「枚数の多い文書では送信までに時間が必要となることが欠点」と堀田氏は説明するほか、EMF以外のフォーマット(PostScript)などには対応していないため、Windows以外での利用が出来ないといった課題があり、そうした部分の解決を進め、2011年度には実用化を図りたいとしている。