ゼロから始めるクラウド型DWH「Azure SQL Data Warehouse」(1) クラウド型データウェアハウスは本当に使えるのか?

Amazon Web ServicesやMicrosoft Azure(以下、Azure)に代表されるパブリッククラウドは、今やシステム開発においてなくてはならない存在となりました。もはやスタートアップからエンタープライズまで導入事例、実績は数知れません。

筆者が所属しているシステムサポートでも、2013年からパブリッククラウドを専門に取り扱うクラウドコンサルティング事業部を立ち上げ、多数のパブリッククラウドの導入の支援を行ってきました。

今回から連載形式で解説する「SQL Data Warehouse」もそのようなパブリッククラウドのサービスの1つ(PaaS)で、Azureより2016年8月26日に日本でリリースされた新しいサービスです。

オンプレミスにおけるDWH用データベース構築の課題とは?

そもそも、SQL Data Warehouseとはどのようなサービスなのでしょうか。一言で言うと、フルマネージドの高拡張性、高パフォーマンスを備えたデータウェアハウス(以下DWH)であり、数百テラバイト、数ペタバイトクラスのデータの分析を可能にするクラウドサービスとなります。

これまでも、DWH用のデータベースはさまざまなベンダーから提供されていましたが、オンプレミスでDWH用のデータベースを構築する際には、以下のような課題がありました。

初期投資

DWH用のデータベースとして多くのアプライアンス製品が存在しますが、どれも非常に高額で、しかもデータベースそのもののライセンス費用も高額です。大量のデータを扱い処理することになるDWHのデータベースは、おのずと巨大な環境になるため、初期投資が莫大になりがちです。

メンテナンス

前述のように巨大なデータベースですから、機器も大量に必要とし、メンテナンスに多くの時間がとられるといったことも起こりがちです。

拡張性

アプライアンス製品の場合、データが増えた際にディスクやマシンを増やすことも簡単に行えないため、拡張性に不満を抱えているユーザーも多いのではないでしょうか。

一方でクラウド型のDWH用データベースであれば、従量課金のため、初期費用は非常に少なく、メンテナンスもフルマネージドで行ってくれます。さらに、データ量が増えた場合、データを格納するディスクや、処理に必要なCPU、メモリリソースも瞬時に調達が可能です。

このように、オンプレミスでDWHを構築する際に課題となっていた事案の多くは、クラウド型のDWHを利用することで解決できる可能性があります。また、パフォーマンスに関しても、パブリッククラウドで提供されているDWHのワークロードに適したデータベースを利用することが可能です。

本連載のテーマであるSQL Data Warehouseも先ほど挙げたようなDWHの課題の多くを解決してくれる可能性を秘めています。

DWHが抱えている課題はクラウド型DWHが解決

SQL Data Warehouseとは

クラウド型DWHであるSQL Data Warehouseについて、まずはその特徴を説明していきたいと思います。

エンジンの基盤はRDBMSで実績のあるSQL Server

SQL Data Warehouseのエンジンの基盤はSQL Server、つまりRDBMSです。このため、Hadoopのような非定型のデータではなく、定型データをリレーショナル管理により取り扱うことになります。

エンジンがSQL Serverということは非常に重要です。SQL Serverのストアドやユーザー定義、パーティション分割、インデックスなどに特殊性が少なく互換性が高いため、SQL Serverを扱ったことのあるエンジニアであればSQL Data Warehouseを扱うために必要な新たな知識やスキルは少ないため、ストレスなく扱うことができます。

なおSQL Data Warehouseは、SSMS(SQL Server Management Studio)から接続し、操作することももちろん可能です。

並列分散アーキテクチャ

前述のようにSQL Data WarehouseはSQL Serverと同じRDBMSで特殊性が少ないのですが、一方で大量かつ大容量のデータを取り扱うため、さまざまなアーキテクチャや機能が実装されており、異なる点も多くあります。

主な機能の1つが「超並列分散処理(MPP)」です。SQL Data Warehouseは、データと処理機能を複数のノード(コンピュータ)に分散し、１つのデータベースとして扱います。要するに非常に大量のデータであったとしても、分割し処理を行うことで、高速に処理が行えるようになります。

例えば、1億件のデータがあったとしても、10分割すれば、1000万件のデータが10個になり、この10個を並列で処理することで高速化を図っています。分割は多ければ多いほど高速に処理が可能となり、理論上は線形にクエリ性能が向上します。

3層構造のアーキテクチャ

SQL Data Warehouseは前述した通り、超並列分散処理(MPP)データシステムです。この機能により、単一のシステムよりもはるかに大量のデータ処理を可能にしていますが、このSQL Data Warehouseはいわゆる3層構造のクラスター構成となっています。SQL Data Warehouseの大きな特徴の3つ目がこの3層構造のアーキテクチャです。

具体的には、接続を受け付け、クエリを受け取る制御ノード(コントロールノード）、コントロールノードから処理を受け取り、分散処理を行う計算ノード(コンピュートノード）、処理対象となるデータを分散して格納するストレージの3層構造になっています。コンピュートノードはその台数を最大60台まで増やすことができ、処理の並列数を高めることが可能です。

データを格納するストレージは、最初から60に分割されたストレージが用意されており、データは60分割されて格納されることになります。コンピュートノードが最大60台まで台数が増やすことができるのは、60に分割されたストレージ領域に起因しているためで、基本的には6の倍数で増えることになります。

特徴の1つは、コントロールノード、コンピュートノード、ストレージの3層から成るアーキテクチャ

1台のコントロールノード、複数台のコンピュートノード、60のストレージはそれぞれ分離されており、コントロールノード以外のコンピュートノード、ストレージでそれぞれ従量課金が発生します(制御ノードは無料）。また、それぞれが分離されているため、SQL Data Warehouseでは以下が可能です。

データベースの停止
瞬時のスケールアウト、スケールイン

次回は、SQL Data Warehouseの大きな特徴であるこの3層アーキテクチャに関して、もう少しくわしくお伝えしてます。

山口正寛

1984年生まれ。大阪府出身、東京都在住。データベースエンジニア。SQL Server、Oracle、MySQL、PostgreSQLなどのデータベースで、小規模から大規模な案件まで数多く経験。現在ではクラウドの流れに逆らうことなく、「データベース×クラウド」をキーワードに案件対応、セミナー活動、執筆活動など幅広く活動中。

クラウド型データウェアハウスは本当に使えるのか?

オンプレミスにおけるDWH用データベース構築の課題とは?

初期投資

メンテナンス

拡張性

SQL Data Warehouseとは

エンジンの基盤はRDBMSで実績のあるSQL Server

並列分散アーキテクチャ

3層構造のアーキテクチャ

この連載の前後回

AIが勧める、あなたのための会員限定記事

次世代ガンマ線望遠鏡による月観測で銀河宇宙線の間接的測定を実現　阪大

軍事とIT 第618回ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発

設定5分で通信できる、スターリンク搭載のMONETマルチタスク車両

NEC、セキュリティリスク対策製品にAI活用の効率的なアラートの絞り込み機能等を追加

植物だって昼寝する。気象衛星ひまわりで30分毎に活動推定の新手法

積水化学工業、PFASフリーの半導体製造向け超純水用配管材の技術確立にめど

軍事とIT 第618回ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発

設定5分で通信できる、スターリンク搭載のMONETマルチタスク車両

NTT、高解像度カメラ映像の処理を支える低負荷データ収集通信制御技術を実証

Celonisが描く、AI×プロセスインテリジェンスの未来

NTTドコモのデータメッシュ戦略 - 「資産化」と「民主化」で切り拓くデータ活用の新境地

AIやVRで製造業の未来を支えるNECのソリューション‐設計・製造ソリューション展

このカテゴリーについて

クラウド型データウェアハウスは本当に使えるのか?

オンプレミスにおけるDWH用データベース構築の課題とは?

初期投資

メンテナンス

拡張性

SQL Data Warehouseとは

エンジンの基盤はRDBMSで実績のあるSQL Server

並列分散アーキテクチャ

3層構造のアーキテクチャ

この連載の前後回

AIが勧める、あなたのための会員限定記事

次世代ガンマ線望遠鏡による月観測で銀河宇宙線の間接的測定を実現 阪大

軍事とIT 第618回 ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発

設定5分で通信できる、スターリンク搭載のMONETマルチタスク車両

NEC、セキュリティリスク対策製品にAI活用の効率的なアラートの絞り込み機能等を追加

植物だって昼寝する。気象衛星ひまわりで30分毎に活動推定の新手法

積水化学工業、PFASフリーの半導体製造向け超純水用配管材の技術確立にめど

軍事とIT 第618回 ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発

設定5分で通信できる、スターリンク搭載のMONETマルチタスク車両

NTT、高解像度カメラ映像の処理を支える低負荷データ収集通信制御技術を実証

Celonisが描く、AI×プロセスインテリジェンスの未来

NTTドコモのデータメッシュ戦略 - 「資産化」と「民主化」で切り拓くデータ活用の新境地

AIやVRで製造業の未来を支えるNECのソリューション‐設計・製造ソリューション展

このカテゴリーについて

次世代ガンマ線望遠鏡による月観測で銀河宇宙線の間接的測定を実現　阪大

軍事とIT 第618回ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発

軍事とIT 第618回ミッション・エンジニアリングとMBSE(1)機敏さ・迅速さが求められる装備開発