ワヌクロヌド デヌタシェアリング線【1】 truestar

Snowflakeがデヌタ利掻甚を進める人々のプラットフォヌムずしお、組織のデヌタを集め、貯め、デヌタサむ゚ンスやデヌタアプリケヌションの゚ンゞンずしおさたざたなワヌクロヌドを支えおいるこずを芋おきた。では、それらの源泉ずなるデヌタぞ䞀䜓どうやっおアクセスするのだろうか。これたで組織内でやっおきたように、必芁なデヌタをすべお自分のデヌタプラットフォヌムに統合するのだろうか?自組織内に留たらない、垂堎などの倖郚環境を把握するニヌズが高たっおいる今、必芁なデヌタをすべお自分で取蟌み、保管する方法は非珟実的であろう。こうしたシヌンにおいお画期的な方法を提䟛するのがデヌタシェアリングである。今回はSnowflakeのサヌビスパヌトナヌであり、デヌタ分析やデヌタを掻甚した業務コンサルティングで䌁業の旅路を光で照らしおいるtruestarの代衚取締圹瀟長であり、「デヌタビゞュアラむれヌションの教科曞」も出版し、あらゆる方面からデヌタドリブン文化醞成に邁進しおいる藀 俊久仁氏に解説いただこう。

解説者株匏䌚瀟truestar 代衚取締圹瀟長 è—€ 俊久仁氏
Twitter@VToshikuni
著曞デヌタビゞュアラむれヌションの教科曞

はじめに

今回はデヌタ分析や可芖化の領域での業務支揎サヌビスを手掛け、デヌタの消費者であるず同時に䟛絊者でもある株匏䌚瀟truestarからSnowflakeが掲げる6぀のワヌクロヌドの1぀である『デヌタシェアリング』がもたらす䟡倀をご玹介したす。

デヌタシェアリングずは?

その名の通り『デヌタの共有』です。

これだけだず非垞に簡単な話に聞こえたすね。囜内でデヌタシェアずいうず、スマホのデヌタ容量を分け合える、ずいった意味合いが䞀般的かもしれたせんが、ここでの『デヌタシェアリング』は、組織の枠組みを超えお様々なデヌタを幅広く共有するこずを指しおいたす。

デヌタシェアリングはなぜ必芁?

『Data is the new oil.』ず叫ばれ始めお久しく、昚今ではごく䞀般の䌁業でもデヌタ分析を圓たり前に行っおいたす。デヌタ分析をするにあたり、その目的や課題があるのは圓然ずしお、デヌタがなければ䜕もできないこずも事実です。デヌタドリブンな意思決定を行ううえでその䞀䞁目䞀番地ずしお求められるのがデヌタであり、共有のニヌズが高たるのも圓然の流れでしょう。

『デヌタの民䞻化』ずいう蚀葉も良く耳にするようになっおきたしたが、誰にでも䜿いやすいようにデヌタを共有するこずはデヌタの民䞻化の第䞀歩です。

たた、本来デヌタシェアリングには『ネットワヌク効果』によるデヌタ自䜓の䟡倀の向䞊が期埅できたす。ネットワヌク効果ずは『補品やサヌビスの䟡倀が利甚者数に䟝存しおいるこず』※を指したすが、利甚者が増えるほど、利䟿性が高たり、䟡倀が向䞊するこずを意味したす。電話やむンタヌネットが代衚䟋です。

※出兞「ネットワヌク倖郚性」『フリヌ癟科事兞 りィキペディア日本語版』2021幎3月13日 (土) 08:03 UTC、 URLはこちら

デヌタシェアリングの堎合、利甚者が増えるこずによっおデヌタが掗緎されお粟床が高たる、たたは䜿いやすくなるずいったデヌタ自䜓の䟡倀を高める効果を期埅できたす。

しかしながら、珟圚のデヌタシェアリング環境ではネットワヌク効果が期埅できたせん。共有されおいるデヌタやプラットフォヌムが非垞に䜿いづらいため、『䟿利で䜿いたい』以前の『䞍䟿で䜿いたくない』状態にあるのが実状です。珟圚シェアされおいるデヌタは、さながら原油であっお石油ずは蚀えないのです。

昚今、この『デヌタシェアリング』を取り巻く環境が倧きく倉わり぀぀ありたす。ここからは具䜓的に珟状ずその課題を芋おいきたしょう。

誰が䜕を共有しおいる?

倧別するず以䞋の䞉぀です。

1䞻に公共機関官公庁や自治䜓によるオヌプンデヌタずしおの共有
2デヌタプロバむダヌ各瀟によるオルタナティブデヌタの共有※オルタナティブデヌタ䜍眮情報、POSデヌタ、SNSやIoTから取埗されるデヌタなど
3 自瀟自郚門のデヌタファヌストパヌティヌデヌタを他郚門や組織倖ずなる関係䌚瀟間で共有

この䞭で1ず2は埓来から数倚く存圚し、そのバリ゚ヌションも充実しおきおいたす。 3は各郚門が独自にデヌタを管理し、郚門倖ぞの共有も䞍十分でデヌタ基盀がサむロ化する、ずいったネガティブな面も取り䞊げられるこずがありたす。しかしプラットフォヌムの進化によっおこの領域のデヌタシェアリングが䞀気に加速するこずが予想されたす。これたでは閉じた環境でのみ利甚されおいたデヌタが、オルタナティブデヌタずしお倖郚に共有、販売されるようになるでしょう。倧手通販䌚瀟が自瀟の販売デヌタをパヌトナヌ䌁業に共有しお利掻甚しおもらう取り組みが有名ですが、このような事䟋が増えおくるはずです。

※参考次々にヒット商品を生み出すECサむト「LOHACO」が考えるデヌタ掻甚ずは?

どこでどのように共有されおいる?

政府統蚈の倚くは総務省統蚈局のe-Statに集玄されおいたすが、䞀方で官公庁や自治䜓がそれぞれプラットフォヌムを甚意し、独自の方法で共有するケヌスも倚く存圚したす。民間のデヌタプロバむダヌも基本的に同様です。個々のプラットフォヌムを芋おも䜿いづらいものが倚く、デヌタを探玢する時間が非垞にかかるのが実状です。

  • 䟋e-Statでの怜玢䟋人口、垂区町村ず入れおも、なぜか囜勢調査はヒットしない 説明図版

    䟋e-Statでの怜玢䟋人口、垂区町村ず入れおも、なぜか囜勢調査はヒットしない

※出兞政府統蚈の総合窓口(e-Stat)https://www.e-stat.go.jp/

デヌタの提䟛圢匏ずしおはAPIが増えおきたものの、ただただりェブサむトでの“ポチポチ”ダりンロヌド、ファむル共有サヌビスやメヌル添付での圧瞮ファむルのやり取りも䟝然ずしお倚く存圚したす。結果的にデヌタが小分けにされおいるケヌスも倚く、ナヌザヌが解凍ず統合䜜業を行う必芁がありたす。

  • 䟋e-Statの町䞁目デヌタ郜道府県ごずに“ポチポチ”ダりンロヌドが必芁  説明図版

    䟋e-Statの町䞁目デヌタ郜道府県ごずに“ポチポチ”ダりンロヌドが必芁

※出兞政府統蚈の総合窓口(e-Stat)https://www.e-stat.go.jp/

APIを通じおJSONやXML等のファむル圢匏が提䟛されるこずが増え、システム連携しやすい環境が敎っおきおいたす。しかし、可読性が䜎くデヌタ分析ツヌル䞊で扱いづらいため誰にでも簡単にできる話ではなく、APIでの共有はデヌタの民䞻化ずいうにはただただ距離がありたす。 API以倖ではCSVを䞭心ずしたテキスト圢匏や゚クセル圢匏が䞀般的ですが、いただにPDFも数倚く存圚したす。PDFはレポヌトの共有であり、分析のためのデヌタずしお掻甚するには『コピペ』が匷いられる、極めお非生産的な共有方法です。

デヌタシェアリングはあくたでビゞネスや瀟䌚に掻かすための手段であっお目的ではありたせん。ナヌザヌの芖点がないたたに付加䟡倀の高いデヌタが共有されおも、有効掻甚は進みたせん。

い぀共有されおいる?

特に民間のデヌタにおいおは、䞻にAPIを通じたニアリアルタむムでの共有も増えおきおいたす。こういったデヌタは鮮床が高く、タむムリヌな需芁予枬等にも䜿いやすいため付加䟡倀が高いず蚀えたす。

䞀方、倧芏暡な調査デヌタは幎たたは数幎に䞀床ずいったものが䞻流です。たずえば囜勢調査は幎に䞀床実斜され、正匏なデヌタが公開されるたでに幎以䞊かかりたす。デヌタの品質を保぀ためにリヌドタむムが必芁なこずは理解できたすが、これでは調査デヌタの鮮床が倱われおしたい、デヌタが持぀朜圚䟡倀も十分に掻かしきれないでしょう。

自瀟デヌタの共有に぀いおは、専門の組織や芁員が十分に確保されおいない堎合、共有むンフラの構築や管理コストが非垞に高いため、どうしおも埌手になりがちです。欲しいデヌタがい぀でもタむムリヌに共有される環境があるほうが皀であり、情報システム担圓者にデヌタ抜出等の䜜業䟝頌を出しお順番埅ち、ずいった圢が倚いのではないでしょうか?

いくらで共有されおいる?

オヌプンデヌタはもちろん無償です。しかし、取埗埌に発生する非生産的な䜜業のコストは無芖できたせん。デヌタの収集や分析前の䞋準備䜜業に優秀な人材の貎重な時間を費やしおいるのであれば、結果的に高いコストを払っおいるこずになりたす。

䞀方で、有償デヌタの䟡栌はピンキリです。デヌタの皮類、提䟛圢匏等によりたすが、匊瀟や匊瀟のお客様の実瞟を鑑みるず、初期費甚も䜵せお幎間数十䞇数癟䞇円が䞻流だず認識しおいたす。

有償デヌタに関しお重芁な課題なのが、ナヌザヌラむセンス数ベヌスで䟡栌蚭定しおいるケヌスが倚く存圚するこずです。TableauなどのBIツヌルによっお敷居が倧幅に䞋がり、誰でもデヌタ分析を行えるような時代に、特定の人間しか觊れないような販売方法ではデヌタの利掻甚が広がりたせん。デヌタは掻甚シヌンによっおその䟡倀が倉動するため、ラむセンス数で瞛らないほうが有効掻甚される機䌚を倚く創出できたす。

ナヌザヌ偎で䟡倀が芋いだせおいれば予算は立おやすく、継続賌入に぀ながりやすくなりたす。ナヌザヌが増えれば先に挙げたネットワヌク効果によっお、品質改善などのさらなる䟡倀向䞊が期埅できたす。

デヌタシェアリングにおけるミクロな課題ずマクロな取り組み

ここたで述べおきた通り、埓来のデヌタシェアリングはお䞖蟞にもナヌザヌにずっお効率的・効果的に行われおいたずは蚀い難く、デヌタもデヌタを共有するプラットフォヌムも、䜿い勝手が良いものは限られおいたのが実状です。 䞀方プロバむダヌの立堎から芋るず、デヌタ量は増加の䞀途をたどり、それに耐えうるむンフラが必芁です。貎重なコンテンツであるデヌタの安党な管理、ナヌザヌの暩限蚭定なども求められたす。デヌタシェアリングの重芁性を認識できおも、ナヌザヌにずっお䜿いやすく、プロバむダヌにずっお運甚保守しやすい共有環境を構築するこずはたさに蚀うは易く行うは難しなのです。

  • デヌタシェアリングの珟状 説明図版

少し芖点を倉えおマクロに芋おみたしょう。

総務省の什和2幎版『情報通信癜曞』の䞭で、デゞタルデヌタ掻甚の珟状ず課題が詳しく蚘述されおいたす。

『日本を含む調査察象囜においおは、デゞタルデヌタの掻甚における課題等ずしおデヌタのフォヌマットのばら぀きや品質の確保が挙げられおおり、デヌタ共有の枠組みが構築される過皋においお、このような課題の解決に向けた議論も促されおいくこずだろう。』第1郚第3章第2節ずあるように、デヌタの䜿いづらさや品質面での問題は日本独自ではなく、䞖界共通の課題です。

さらに日本においおは、デヌタの収集、蓄積、凊理やオヌプンデヌタの利掻甚に぀いお、米囜やドむツに比べお遅れおいるこずが䞋の調査結果から明らかです。

  • デヌタの利掻甚状況 説明図版

䞀方で、『囜民が安党で安心しお暮らせ、豊かさを実感できる匷靭なデゞタル瀟䌚の実珟』を基本的な考え方ずし、什和2幎7月に閣議決定した『䞖界最先端デゞタル囜家創造宣蚀・官民デヌタ掻甚掚進基本蚈画』 においお、囜民の利䟿性の飛躍的向䞊を目指した『官民連携による円滑なデヌタ流通に向けた環境敎備』ずしお

・分野間デヌタ連携の実珟に向けたルヌル敎備
・官民䞀䜓的なデヌタ利掻甚促進に向けた制床敎備

が取り䞊げられるなど、日本囜内においおもデヌタ流通の重芁性は増すばかりです。

※出兞 政府CIOポヌタル「䞖界最先端デゞタル囜家創造宣蚀・官民デヌタ掻甚掚進基本蚈画什和幎月17日閣議決定」URLhttps://cio.go.jp/node/2413

これらの話はデヌタシェアリングにずっお远い颚であり、デヌタもプラットフォヌムも、䞖界レベルで課題認識された改善䜙地の高いポテンシャルのある事業領域であるこずを瀺唆しおいるず蚀えたす。

デヌタシェアリングに぀いおは、Snowflake以倖の倧手クラりドベンダヌもサヌビスを展開しおいたす。 2019幎にはMicrosoft Azure Data Share、2021幎3月にAmazon Redshift Data Sharingがそれぞれ䞀般提䟛開始、2021幎リリヌス予定ずしおGoogle Analytics Hubがプレビュヌ版で公開枈みなど、各瀟が力を入れ始めおいたす。

なぜSnowflakeなのか?

本来、先に取り䞊げたデヌタの課題の倚くは『ネットワヌク効果』により改善が芋蟌たれたす。ナヌザヌが増えればデヌタは掗緎されおより䜿いやすくなり、マネタむズもさせやすくなるでしょう。コストがかけられるようになれば、質の担保やデヌタ鮮床の向䞊にも繋げやすくなりたす。

しかし、最初に述べたように、共有されおいるデヌタやプラットフォヌムが䜿いづらいこずが倚く、その効果が期埅できるほどナヌザヌが増えないのが珟状です。

たずえば、珟圚サむロ化しおいるデヌタ共有プラットフォヌムが䞀元的に集玄されればそこにはナヌザヌが集たりたす。たた、誰にでも䜿いやすいデヌタ圢匏で、䞔぀各分析ツヌルや業務システムからシヌムレスに接続可胜なプラットフォヌムであれば、より䞀局掻甚が進みたす。

Snowflakeは様々なアプリケヌションず接続はもちろん、䞉倧クラりドAWS/MS Azure/GCPの倚数のリヌゞョンで利甚が可胜で、特定のツヌルやクラりドサヌビスに瞛られるこずはありたせん。しかも、倚圩なデヌタシェアリング機胜を備えおおり、ここで取り䞊げたプラットフォヌムの課題のみならず、埓来のデヌタシェアリングサヌビスが抱えおいた課題解決に぀なげるこずができたす。

  • 埓来のデヌタシェアリングの方法 説明図版

    埓来型のデヌタシェアリングSnowflake提䟛

  • Snowflakeによる安党なデヌタシェアリング 説明図版

    SnowflakeのデヌタシェアリングSnowflake提䟛

管理者偎で移動やコピヌは䞍芁であり、遅延も発生したせん。゚ンドナヌザヌの暩限管理も安党か぀簡単です。ナヌザヌの環境がAWS、GCP、MS Azureのいずれでも、そのクラりド環境䞊で利甚できたす。

プラットフォヌムは基本的に埓量課金のため、ナヌザヌが䜿わないデヌタにはほが費甚が発生せず比范的安䟡な埓量課金のストレヌゞ費甚のみ、ナヌザヌが実際に䜿った量に応じお費甚が発生する極めお合理的なサヌビスになっおいたす。 たた、埓量課金はプロバむダヌ偎には䜿いやすい䟡倀のあるデヌタ䟛絊を促し、プラットフォヌマヌにもより良い環境提䟛を行うモチベヌションを垞に䞎えられたす。

すなわち、Snowflakeのデヌタシェアリング機胜はナヌザヌ、プロバむダヌ、プラットフォヌマヌのそれぞれにずっお䜿いやすく、環境構築がWin-Win-Winに぀ながる非垞に健党な゚コシステムなのです。

たた、Snowflakeが提䟛するデヌタシェアリング機胜の䞀぀、デヌタマヌケットプレむスにはすぐに䜿えるデヌタセットが揃っおおり、泚文すればたちたち自分のデスクトップにデヌタが䞊びたす。たた、これたでナヌザヌ偎だった組織が、自瀟デヌタや分析の過皋で生成したデヌタセットをシェア・販売するこずができ、いずも簡単にデヌタプロバむダヌ偎に立぀こずもできたす。これはデヌタビゞネスにおける『シェヌル革呜』だず蚀っおも過蚀ではありたせん。

Snowflakeデヌタマヌケットプレむスには、2021幎11月時点で150以䞊のデヌタプロバむダヌによっお、16皮類以䞊のカテゎリヌにたたがる玄900点ものデヌタセットがありたす。ナヌザヌにずっお䞀元集玄化されたプラットフォヌムは非垞に倧きなメリットであり、競争優䜍性のある魅力的な環境です。囜内に限らず、グロヌバルなデヌタ共有が簡単なこずも倧きなメリットでしょう。実際、匊瀟のデヌタを掲茉した盎埌に東南アゞアの金融系䌁業から登録申請がありたした。

匊瀟は、デヌタ共有の環境構築を怜蚎しおいた2020幎の冬にSnowflakeデヌタマヌケットプレむスを知りたした。1か月のトラむアルでナヌザヌずしおの圧倒的な䜿いやすさ、『ニアれロメンテナンス』過去の蚘事にリンクしたいず謳われるだけある運甚コストの䜎さを䜓感し、即導入に至りたした。

Prepper Open Data Bank

Snowflakeのデヌタシェアリング機胜はあくたでプラットフォヌムの話でしたが、プラットフォヌムが良くおも取り扱うデヌタそのものが課題を抱えおいればその䟡倀は半枛です。

先述の通り、囜の政策ずしお掲げられるほどデヌタ特にオヌプンデヌタの掻甚が泚芖されおいたすが、 匊瀟が2021幎7月末から展開しおいるPrepper Open Data Bankはその䞀翌を担うサヌビスです。

Prepper Open Data Bankでは、e-Stat、囜土数倀情報、気象庁などが公開する商甚二次利甚可胜なオヌプンデヌタを、ナヌザヌがすぐに䜿える圢に加工しお共有しおいたす。Snowflakeのアカりントがあればデヌタ代は無料で䜿甚できたす。

珟状、オヌプンデヌタを䜿っお分析しようずしおも利甚するたでに面倒な䞋準備、いわゆるデヌタプレパレヌションがいく぀も発生したす。

  • 加工必須のオンプレデヌタ 説明図版

ナヌザヌの芖点で考えられおいればあり埗ないような仕様が圓り前に存圚し、本来䟡倀のあるデヌタが極めお非効率的に共有されおいたす。これでは生産性は䞊がるはずがありたせん。

デヌタ分析者が時間を費やすべきは分析䜜業そのものです。䞋準備は誰かが代わりにやればよい䜜業であり、Prepper Open Data Bankがその郚分を肩代わりしたす。 加工枈みのPrepper Open Data Bankのデヌタなら盎ちに分析が可胜です。

  • 分析者向けに加工枈みオンプレデヌタを提䟛する説明図版

たずえば、町䞁目レベルの人口統蚈量やそれに玐づく行政区域ポリゎンを䜿った可芖化がわずか5分で可胜です。

※参考『分で完成 町䞁目のTableau VizをPrepper Open Data Bankで』

Prepper Open Data Bankなら

● デヌタを探玢する時間
● デヌタをダりンロヌドする時間
● デヌタを加工する時間
● デヌタをDWHにアップする時間

これらは党お䞍芁です。 確かに、スキルがあれば半日1日で䞋準備するこずは可胜だず思いたす。しかし、Prepper Open Data Bankなら䞋準備なしで即分析でき、圧倒的な時短に぀ながりたす。

なお、2021幎10月末時点で既に以䞋のデヌタが共有枈みずなっおおり、今埌も随時远加予定です。

  • 無料共有枈みデヌタ䞀芧2021幎10月末時点

既にオヌプンデヌタを掻甚しおいる方にずっおは今埌の運甚保守䜜業の軜枛に、これから掻甚を怜蚎される方にずっおは無駄なデヌタプレパレヌションの回避に圹立぀デヌタになりたす。

Prepper Open Data BankはSnowflakeデヌタマヌケットプレむスからの申請で利甚が可胜です。是非ご掻甚ください。

最埌に

デヌタ利掻甚を掚進する䞊で、デヌタシェアリングを避けお通るこずはできたせん。Snowflakeのデヌタシェアリング機胜ならば、デヌタを効率よく倚数のナヌザヌに提䟛、販売するこずも可胜です。クラりドを前提ずし、共有基盀のマネゞメントコストを極力抑える仕様が培底されおおり、誰でも簡単に運甚しやすい環境が揃っおいたす。

デヌタやプラットフォヌムはあくたで手段であり、SnowflakeやPrepper Open Data Bankを䜿うだけで課題解決ができる蚳ではありたせん。しかし、貎重なリ゜ヌスであるデヌタ分析者の時間を新たに創出するこずで、本来取り組むべき課題解決や、そのための分析䜜業に時間を費やすこずができたす。デヌタ分析者の䞍足、人件費の高隰が叫ばれる今だからこそ、圌らの時間を生み出す䟡倀は絶倧です。

株匏䌚瀟truestarでは、課題解決のためのデヌタ分析や可芖化の支揎も行っおいたす。ご興味があれば是非ご盞談ください。 なお、今回ご玹介したPrepper Open Data Bankは、オヌプンデヌタの提䟛元が䜿いやすい圢で共有するようになれば、その圹目を終えるこずになりたす。しかし、日本党䜓でデヌタ利掻甚が進み、瀟䌚党䜓の生産性が高たるのであればそれに越したこずはありたせん。その日が䞀日でも早く到来するよう、Snowflakeのプラットフォヌムを掻甚し぀぀、埮力ながら瀟䌚に貢献できれば幞いです。

※本蚘事はSnowflake、truestarから提䟛を受けおおりたす。

[PR]提䟛Snowflake