はてなとイー・ガーディアン、UGC向け不適切コンテンツ判定フィルタを開発

はてなは11月27日、イー・ガーディアンと共同で、UGC(User Generated Contents : ブログや掲示板などユーザーが作成するコンテンツ)を展開するメディア向けの「不適切コンテンツ判定フィルタ」を開発したと発表した。

BrandSafe はてな×ROKA SOLUTION フィルタリングシステムの仕組み

不適切コンテンツ判定フィルタは、DSP向けアドベリフィケーション機能「BrandSafe はてな」と、イー・ガーディアンが東京大学と開発した自動画像検出システム「ROKA SOLUTION」を組み合わせたフィルタリングシステム。自社サイトに掲載された膨大なコンテンツの中から、テキストと画像を高精度に判定し不適切なコンテンツを迅速に検出できる。

なお、「BrandSafe はてな」とは、「はてなブログ」や「はてなブックマーク」などUGCメディアを運営する同社が培ってきた「テキスト解析・機械学習の仕組み」を基に、フリークアウトと共同開発した広告配信コントロール機能。

サイト内の情報だけでなくユーザーの投稿データ(はてなブックマークのタグやコメント、はてなキーワードなど)も考慮するため、日本特有のネットスラング(隠語)などにも対応し、「違法ダウンロード」「アダルト」などの違法サイトのほか、「2chまとめ」などの基準でも、リアルタイムかつ高精度に広告配信先サイトを判定する。

一方「ROKA SOLUTION」は、投稿監視の領域にて10年のノウハウを持つイー・ガーディアンと、画像認識の機械学習システム(人工知能)を持つ東京大学大学院原田研究室が共同で開発した人工知能型画像認識システムとなる。

大量の画像・動画データを目視により分類したものを、機械学習の仕組みを構築する際の初期学習用データ「教師データ」としてコアエンジンに学習させ、実際の対象画像・動画をシステムに判定させることで、正しく判定できるかどうかを数値で評価。間違っていれば自動学習するという作業を繰り返し行う事で、判別能力を向上する。同システムにより、インターネット上の画像に対する掲載可否を1枚あたり約0.3秒で自動判別・把握することが可能だ。