ストレージ装置に備わる機能について、前回までにレプリケーション、スナップショットについて説明しました。今回は重複除外、圧縮について説明します。
重複除外・圧縮
重複除外や圧縮が必要な理由
最近、ニュースなどでもデジタルトランスフォーメーション(DX)という言葉を耳にすることが増えましたね。デジタルトランスフォーメーションとはIT技術を使用して、業務を効率化することでコストを削減したり、みなさんの働き方を改革したりすることを目的としています。身近な例では、印鑑の廃止などもデジタルトランスフォーメーションの一つと考えることができます。
デジタルトランスフォーメーションが浸透すると、これまでは人手に頼っていた作業がIT化されます。IT化されるとデータが増えるということになります。例えば、先ほどの押印を例にとると、紙に印刷されていたデータをPDFなどの電子情報に変換しなければなりません。つまり、ストレージに格納されるデータも飛躍的に増えるということになります。
また、オンラインで買い物をされた経験のある方がほとんどだと思いますが、オンラインショッピングのサイトにアクセスするとおすすめの商品が表示されたりしますよね。これは、オンラインショッピング利用者の性別や年齢などから、おすすめの商品を類推し、表示するのですが、こうした類推をするためには膨大なデータを保管しておく必要があります。第1回でも触れましたが、 調査会社IDCによれば2018年度で33ゼタバイト(*1) 、今から5年後の2025年にはなんと175ゼタバイト(*2)まで増加すると予想されています。
IT化によって業務の効率が改善しても、システムを稼働させるためのインフラストラクチャの維持コストが増大したのではその効果は半減してしまいます。重複除外や圧縮という技術は、ストレージ上に格納されているデータで重複している部分を共通化したりすることで、ストレージの利用効率を高めることを目的としています。
ここでは、重複除外や圧縮という技術がストレージ上でどのように実装されているのかについて説明したいと思います。
(*1) IDC White Paper、 sponsored by Seagate、 Data Age 2025: The Digitization of the World from Edge to Core、 November 2018
(*2) ゼタバイト(ZB):データ容量を示す単位の一つ。1ゼタバイトは1兆ギガバイト。
重複除外機能とは
動画や写真などのデータはコピーされたものでない限り、写真や動画ファイル内で重複しているデータブロックはそれほど多くはないと思います。しかし、文書データの場合はどうでしょうか。皆さんがWordやExcelで何かの文書を作成する場合、すでに作成されている文書をコピーして一部を修正することが多いのではないでしょうか。また、新規に文書を作成する場合でも、テンプレートを使用するということがあると思います。まったく同じ文書がファイルサーバの個人フォルダに保存されたりすることも多いと思います。
このように企業内では一部だけが異なる、あるいはファイル名は違ってもまったく同じ文書が数多く存在していることは想像に難くありません。文書ファイルの共通部分、すなわち重複しているデータは一度しか保存しないという技術を適用すれば、少ないストレージ容量で多くのデータを保存することができるようになります。
重複除外機能はソフトウェアまたはハードウェアにより提供されます。ソフトウェアの場合は、データが格納されるストレージ装置を意識する必要がないというメリットがある反面、重複除外処理はサーバ上で行わるため、アプリケーションの実行に影響を及ぼす恐れがあります。一方で、ハードウェアによる重複除外処理はデータが格納されるストレージ装置の機能として提供されるため、サーバへの負荷がなく、アプリケーションに及ぼす影響も少ないというメリットがあります。
対象となるデータが多いほど重複除外の効果も大きくなります。多くのデータが格納されるストレージ装置上で重複除外を行った方が、その効果は大きくなると考えられます。このため、ここでは、ストレージ装置が有する重複除外がどのように実装されているのかについて説明します。
重複除外機能の仕組み
重複除外処理を行う場合、ファイルをブロックと呼ばれる細かい単位に分割します。重複除外機能が適用されたデータ領域内に存在するファイルをこのブロック単位でチェックし、重複しているブロックを専用の領域に退避することで、ストレージ装置の空きエリアを増やすことが可能となります。
重複除外機能の方式
インライン方式
インライン方式ではデータブロックが書き込まれるタイミングで重複ブロックが除外されます。ストレージ装置上には重複したデータブロックが存在しないことになるため、ストレージの容量効率は向上しますが、書き込みが多くなると重複除外処理のための負荷が大きくなり、パフォーマンスが低下することがあります。
ポストプロセス方式
ポストプロセス方式ではストレージ装置にデータブロックが書き込まれるタイミングでは重複除外されず、定期的に重複箇所を走査します。重複除外処理を負荷の低い時間帯で実行させることができるため、インライン方式と比較して重複除外処理によるパフォーマンスの低下は発生しにくくなりますが、より多くのストレージ容量が必要になります。空き容量を増やすことはできますが、ストレージ装置の容量そのものを減らす効果は少ないと言えます。
圧縮機能
圧縮機能とは
圧縮はファイルのサイズを小さくしてくれる機能で、ZIPファイルなどはよく使われているものと思います。ストレージ装置における圧縮機能も重複除外機能と同様にストレージ装置の利用効率を高めることを目的としています。
ストレージ装置によっては、重複除外機能と圧縮機能を同時に使用することができないものもありますので、注意が必要です。また、圧縮されたデータを読んだり、変更したりする場合は、圧縮を解除する必要がありますので、データアクセスのためのパフォーマンスが低下する可能性があります。このため、どのようなデータに圧縮を適用するのかを考える必要があります。オンラインでリアルタイムなデータ読み取りや更新が発生するようなデータに対しては、圧縮機能は適用しないほうがいいということになります。また、重複除外とは異なり、圧縮の場合は、データアクセスの際の圧縮解除と再圧縮を繰り返すため、一時的にストレージの空き容量が減ることになる点にも注意が必要です。
圧縮の仕組み
圧縮も重複除外と同様にデータをブロックと呼ばれる細かい単位に分割して行います。 データが格納されているLUN全体を圧縮し、空いたスペースをLUNが含まれるプールに還元することで、ストレージ容量を効率的に利用することができるようになります。
まとめ
今回取り扱った内容は以下の通りです。
重複除外
・重複除外機能は、データをブロック単位に分割し、同じデータを持つブロックを除外することで容量効率を図る。
・重複除外のタイミングは以下のタイミング方式がある。
→インライン方式:データを書込むタイミングで除外する。
→ポストプロセス方式:定期的に重複しているブロックがあるか確認し、除外する。
圧縮
・圧縮機能は、あまり参照されない使用頻度の低いデータをブロック単位に分割し、圧縮して容量効率を図る。
→圧縮したデータを読みこんだりする場合、圧縮解除/再圧縮が発生するためパフォーマンス低下が発生する可能性がある。
次回予告
ストレージの基礎講座は次回で最終回です。
これまで従来のストレージを構成する要素について説明してきましたが、最終回となる次回は新しい形のストレージであるSoftware Defined StorageとObject Storageについて説明します。
それではまた次回、地味でディープなストレージの世界でお目にかかりましょう。
[ 著者紹介 ]
矢澤 会璃子
デル・テクノロジーズ株式会社 プロフェッショナル・サービス事業本部 ソリューションズアーキテクト
OSやエンタープライズシステムに関連するソフトウェアのサポート経験後、EMCジャパン(現デル・テクノロジーズ)でストレージやDRソリューションの設計、構築を担当