基本から学ぶストレージ講座(9) ストレージの機能③ - 重複排除、圧縮

ストレージ装置に備わる機能について、前回までにレプリケーション、スナップショットについて説明しました。今回は重複除外、圧縮について説明します。

重複除外・圧縮

重複除外や圧縮が必要な理由

最近、ニュースなどでもデジタルトランスフォーメーション（DX）という言葉を耳にすることが増えましたね。デジタルトランスフォーメーションとはIT技術を使用して、業務を効率化することでコストを削減したり、みなさんの働き方を改革したりすることを目的としています。身近な例では、印鑑の廃止などもデジタルトランスフォーメーションの一つと考えることができます。

デジタルトランスフォーメーションが浸透すると、これまでは人手に頼っていた作業がIT化されます。IT化されるとデータが増えるということになります。例えば、先ほどの押印を例にとると、紙に印刷されていたデータをPDFなどの電子情報に変換しなければなりません。つまり、ストレージに格納されるデータも飛躍的に増えるということになります。

また、オンラインで買い物をされた経験のある方がほとんどだと思いますが、オンラインショッピングのサイトにアクセスするとおすすめの商品が表示されたりしますよね。これは、オンラインショッピング利用者の性別や年齢などから、おすすめの商品を類推し、表示するのですが、こうした類推をするためには膨大なデータを保管しておく必要があります。第1回でも触れましたが、調査会社IDCによれば2018年度で33ゼタバイト(*1) 、今から5年後の2025年にはなんと175ゼタバイト(*2)まで増加すると予想されています。

IT化によって業務の効率が改善しても、システムを稼働させるためのインフラストラクチャの維持コストが増大したのではその効果は半減してしまいます。重複除外や圧縮という技術は、ストレージ上に格納されているデータで重複している部分を共通化したりすることで、ストレージの利用効率を高めることを目的としています。

ここでは、重複除外や圧縮という技術がストレージ上でどのように実装されているのかについて説明したいと思います。

(*1) IDC White Paper、 sponsored by Seagate、 Data Age 2025: The Digitization of the World from Edge to Core、 November 2018
(*2) ゼタバイト(ZB)：データ容量を示す単位の一つ。1ゼタバイトは1兆ギガバイト。

重複除外機能とは

動画や写真などのデータはコピーされたものでない限り、写真や動画ファイル内で重複しているデータブロックはそれほど多くはないと思います。しかし、文書データの場合はどうでしょうか。皆さんがWordやExcelで何かの文書を作成する場合、すでに作成されている文書をコピーして一部を修正することが多いのではないでしょうか。また、新規に文書を作成する場合でも、テンプレートを使用するということがあると思います。まったく同じ文書がファイルサーバの個人フォルダに保存されたりすることも多いと思います。

このように企業内では一部だけが異なる、あるいはファイル名は違ってもまったく同じ文書が数多く存在していることは想像に難くありません。文書ファイルの共通部分、すなわち重複しているデータは一度しか保存しないという技術を適用すれば、少ないストレージ容量で多くのデータを保存することができるようになります。

重複除外機能はソフトウェアまたはハードウェアにより提供されます。ソフトウェアの場合は、データが格納されるストレージ装置を意識する必要がないというメリットがある反面、重複除外処理はサーバ上で行わるため、アプリケーションの実行に影響を及ぼす恐れがあります。一方で、ハードウェアによる重複除外処理はデータが格納されるストレージ装置の機能として提供されるため、サーバへの負荷がなく、アプリケーションに及ぼす影響も少ないというメリットがあります。

対象となるデータが多いほど重複除外の効果も大きくなります。多くのデータが格納されるストレージ装置上で重複除外を行った方が、その効果は大きくなると考えられます。このため、ここでは、ストレージ装置が有する重複除外がどのように実装されているのかについて説明します。

重複除外機能の仕組み

重複除外処理を行う場合、ファイルをブロックと呼ばれる細かい単位に分割します。重複除外機能が適用されたデータ領域内に存在するファイルをこのブロック単位でチェックし、重複しているブロックを専用の領域に退避することで、ストレージ装置の空きエリアを増やすことが可能となります。

図 1 :重複除外機能の仕組み

重複除外機能の方式

インライン方式

インライン方式ではデータブロックが書き込まれるタイミングで重複ブロックが除外されます。ストレージ装置上には重複したデータブロックが存在しないことになるため、ストレージの容量効率は向上しますが、書き込みが多くなると重複除外処理のための負荷が大きくなり、パフォーマンスが低下することがあります。

ポストプロセス方式

ポストプロセス方式ではストレージ装置にデータブロックが書き込まれるタイミングでは重複除外されず、定期的に重複箇所を走査します。重複除外処理を負荷の低い時間帯で実行させることができるため、インライン方式と比較して重複除外処理によるパフォーマンスの低下は発生しにくくなりますが、より多くのストレージ容量が必要になります。空き容量を増やすことはできますが、ストレージ装置の容量そのものを減らす効果は少ないと言えます。

圧縮機能

圧縮機能とは

圧縮はファイルのサイズを小さくしてくれる機能で、ZIPファイルなどはよく使われているものと思います。ストレージ装置における圧縮機能も重複除外機能と同様にストレージ装置の利用効率を高めることを目的としています。

ストレージ装置によっては、重複除外機能と圧縮機能を同時に使用することができないものもありますので、注意が必要です。また、圧縮されたデータを読んだり、変更したりする場合は、圧縮を解除する必要がありますので、データアクセスのためのパフォーマンスが低下する可能性があります。このため、どのようなデータに圧縮を適用するのかを考える必要があります。オンラインでリアルタイムなデータ読み取りや更新が発生するようなデータに対しては、圧縮機能は適用しないほうがいいということになります。また、重複除外とは異なり、圧縮の場合は、データアクセスの際の圧縮解除と再圧縮を繰り返すため、一時的にストレージの空き容量が減ることになる点にも注意が必要です。

圧縮の仕組み

圧縮も重複除外と同様にデータをブロックと呼ばれる細かい単位に分割して行います。データが格納されているLUN全体を圧縮し、空いたスペースをLUNが含まれるプールに還元することで、ストレージ容量を効率的に利用することができるようになります。

図 2 :圧縮の仕組み

まとめ

今回取り扱った内容は以下の通りです。

重複除外

・重複除外機能は、データをブロック単位に分割し、同じデータを持つブロックを除外することで容量効率を図る。
・重複除外のタイミングは以下のタイミング方式がある。
→インライン方式:データを書込むタイミングで除外する。
→ポストプロセス方式:定期的に重複しているブロックがあるか確認し、除外する。

圧縮

・圧縮機能は、あまり参照されない使用頻度の低いデータをブロック単位に分割し、圧縮して容量効率を図る。
→圧縮したデータを読みこんだりする場合、圧縮解除/再圧縮が発生するためパフォーマンス低下が発生する可能性がある。

次回予告

ストレージの基礎講座は次回で最終回です。

これまで従来のストレージを構成する要素について説明してきましたが、最終回となる次回は新しい形のストレージであるSoftware Defined StorageとObject Storageについて説明します。

それではまた次回、地味でディープなストレージの世界でお目にかかりましょう。

[ 著者紹介 ]
矢澤　会璃子
デル・テクノロジーズ株式会社　プロフェッショナル・サービス事業本部ソリューションズアーキテクト

OSやエンタープライズシステムに関連するソフトウェアのサポート経験後、EMCジャパン(現デル・テクノロジーズ)でストレージやDRソリューションの設計、構築を担当

ストレージの機能③ - 重複排除、圧縮

目次

重複除外・圧縮

重複除外や圧縮が必要な理由

重複除外機能とは

重複除外機能の仕組み

重複除外機能の方式

圧縮機能

圧縮機能とは

圧縮の仕組み

まとめ

重複除外

圧縮

次回予告

この連載の前後回

AIが勧める、あなたのための会員限定記事

Google Chromeに悪用済み脆弱性、直ちにアップデートを

Windows 11でタスクバーの日付・時刻表示の変更案が取り下げられた理由

RapidusがIIM-1製造の2nmGAAトランジスタの動作を確認 - ウェハも公開

観測史上3例目の恒星間天体「アトラス彗星」京大の望遠鏡が動画撮影に成功

小惑星リュウグウから“太陽系最古の岩石”発見　北大など

トランプ政権のAI推進政策、その戦略的意図と地政学的背景を読み解く

編集部が選ぶ関連記事

基本から学ぶストレージ講座第6回ストレージを構成する要素

基本から学ぶストレージ講座第5回「RAID」とは? (3)

基本から学ぶストレージ講座第4回「RAID」とは? (2)

基本から学ぶストレージ講座第3回「RAID」とは? (1)

関連リンク

トランプ政権のAI推進政策、その戦略的意図と地政学的背景を読み解く

Microsoft 365の導入・運用管理の勘所第2回ユーザー管理とアクセス権限の基本

TOPPANエッジ、相続手続きをオンライン化するサービス「オンライン相続受付WEB」提供

リコージャパン、アスエネと都内中小企業向けの脱炭素支援事業を開始

日本IBM、医療従事者の業務変革を促進する「病院業務支援AIソリューション」

生成AIパスポート試験の受験者数が1万人を突破、合格率は77％　GUGA

このカテゴリーについて

ストレージの機能③ - 重複排除、圧縮

目次

重複除外・圧縮

重複除外や圧縮が必要な理由

重複除外機能とは

重複除外機能の仕組み

重複除外機能の方式

圧縮機能

圧縮機能とは

圧縮の仕組み

まとめ

重複除外

圧縮

次回予告

この連載の前後回

AIが勧める、あなたのための会員限定記事

Google Chromeに悪用済み脆弱性、直ちにアップデートを

Windows 11でタスクバーの日付・時刻表示の変更案が取り下げられた理由

RapidusがIIM-1製造の2nmGAAトランジスタの動作を確認 - ウェハも公開

観測史上3例目の恒星間天体「アトラス彗星」京大の望遠鏡が動画撮影に成功

小惑星リュウグウから“太陽系最古の岩石”発見 北大など

トランプ政権のAI推進政策、その戦略的意図と地政学的背景を読み解く

編集部が選ぶ関連記事

基本から学ぶストレージ講座 第6回 ストレージを構成する要素

基本から学ぶストレージ講座 第5回 「RAID」とは? (3)

基本から学ぶストレージ講座 第4回 「RAID」とは? (2)

基本から学ぶストレージ講座 第3回 「RAID」とは? (1)

関連リンク

トランプ政権のAI推進政策、その戦略的意図と地政学的背景を読み解く

Microsoft 365の導入・運用管理の勘所 第2回 ユーザー管理とアクセス権限の基本

TOPPANエッジ、相続手続きをオンライン化するサービス「オンライン相続受付WEB」提供

リコージャパン、アスエネと都内中小企業向けの脱炭素支援事業を開始

日本IBM、医療従事者の業務変革を促進する「病院業務支援AIソリューション」

生成AIパスポート試験の受験者数が1万人を突破、合格率は77％ GUGA

このカテゴリーについて

小惑星リュウグウから“太陽系最古の岩石”発見　北大など

基本から学ぶストレージ講座第6回ストレージを構成する要素

基本から学ぶストレージ講座第5回「RAID」とは? (3)

基本から学ぶストレージ講座第4回「RAID」とは? (2)

基本から学ぶストレージ講座第3回「RAID」とは? (1)

Microsoft 365の導入・運用管理の勘所第2回ユーザー管理とアクセス権限の基本

生成AIパスポート試験の受験者数が1万人を突破、合格率は77％　GUGA