データセンタやサーバクラスタにおける重複排除(deduplication)機能の導入には慎重なアーキテクト、運用者も多いだろう。これまでの重複排除機能に関する経験や、よく言われる評価などから導入に慎重になっているケースもある。

Data Center Knowledgeに掲載された「Exposing the Six Myths of Deduplication」はそうした方にお薦めしたい記事。最近のデータセンタやサーバクラスタ向けの重複排除機能がどのようなものであるかを、6つの誤解とそれに対する回答という形でまとめたもので、参考になる。

取り上げられている6つの誤解と回答を簡単にまとめると、次のとおり。

  1. 重複排除機能を導入すると、その機能を提供しているベンダにロックインされる → 最近の重複排除機能は柔軟性があり、移植性も確保されているものが多い。
  2. 重複排除機能はサーバ内部に限定されたもので、クラスタ全体では機能しない → 現在の重複排除機能はクラスタのリポジトリ全体に対して機能する。
  3. 重複排除機能を導入してしまうと、スケールさせたい場合にハードウェアをリプレースする必要に迫られる → スケーラビリティは確保されており、クラスタにノードを追加するといった方法でスケールさせることができる。
  4. 重複排除機能を導入するとストレージの処理速度が低下する → 最近の重複排除機能は性能に対してもスケーラビリティが提供されており、必要に応じて性能を引き上げることができる。
  5. 重複排除は故障に弱い → 重複排除を有効にしつつ可用性を引き上げる方法が提供されている。
  6. 重複排除機能ではテープデバイスを使うことができない → テープデバイスを活用できる。

企業が抱えるデータサイズは増え続けており、重複したデータが多いこともよく知られている。このため、重複排除を活用できるとストレージにかかるコストを下げることができるほか、通信コストを下げ、逆にストレージ可用性の向上やテープデバイスを活用したコストの削減などにもつなげやすくなる。