NTTと早稲田大学は6月16日、情報漏洩やサービス停止の原因となりうる文字列抽出機能の誤りを自動修正する技術を実現したと発表した。

Webサービスにおけるユーザの入力値などから任意の文字の並び(文字列)を抽出する場合、一般的に文字列パターンを表すために正規表現と呼ばれる記法が利用されている。

正規表現は複雑な文字列パターンを簡潔に記述可能である反面、非常に難解であり、誤った記述が修正されないまま残っている事例が確認されているという。

  • 正規表現を用いた文字列抽出の例

これらの誤った正規表現はシステムの誤動作を引き起こし、情報漏洩やサービス停止の原因となることが知られている。また、この現象を意図的に起こそうとするサイバー攻撃も顕在化しており、安定的なサービス提供を脅かすリスク要因となっているという。

そこで、両者は正規表現を用いた文字列抽出を行うプログラムの振る舞いを厳密に定義して、その修正問題を形式化し、その修正問題を解くアルゴリズムを考案することで、文字列抽出にも対応した正規表現の自動修正技術を実現。

これにより、専門知識を持たない開発者でも正規表現の誤りを自動修正可能になるため、安全なサービスの実現が期待できるという。