富士通は、ブロック単位でアクセスする運用中のストレージを対象に、データの保存と同時に、ソフトウェアのみで重複データを除去する技術を開発したと発表した。データの重複を瞬時に発見するアルゴリズムを開発することにより、可能になったという。

同社によれば、この技術は業界初で、これにより運用中のストレージに格納された複数の仮想マシンのOSデータを含め、さまざまなデータの重複部分を除去することが可能となり、場合によっては、容量を約10分の1にスリム化できるという。

今回開発した技術は、データが集合の中に含まれているかどうかを判断するのに使われるデータ構造「ブルームフィルター」を検索にも対応させ、重複の判断とともにデータの保管場所の検索も瞬時に処理できるようにしたというもの。この技術により、検索に必要な処理量を大幅に削減し、ソフトウェアだけでデータ保存と同時に重複除去を行うことが可能になったという。さまざまなOSを用いる仮想環境でも利用することができ、すべてのブロックストレージの中で重複するデータを除去してからデータを書き込むため、OSを意識することなく利用できるという。

データを瞬時に検索するアルゴリズム

同社では今後、実用化に向けた開発を進め、データセンターでの活用など、数年以内の実用化を目指して取り組んでいくという。