人口や労働・賃金、農林水産、土地・建物、運輸・観光、教育など、政府機関が調査した統計をもとにデータ分析を進めていきたい場合もあるだろう。このような場合に活用できるのが「e-Stat」だ。今回は「e-Stat」からデータを抽出してダウンロードする方法を紹介していこう。

データのダウンロード

「e-Stat」とは、政府機関が調査した統計データを公開しているWebサイトのことだ。何らかの統計データをキーワードで検索したときに、このWebサイト内にあるページにたどり着くケースも少なくないので、この機会に使い方を学んでおくとよいだろう。

参考までに「e-Stat」のトップページを紹介しておこう。この画面の右上には「ログイン」ボタンが用意されているが、会員登録しなくても誰でも利用することが可能である。

  • 「e-Stat」のトップページ

カテゴリやキーワードなどで統計情報を絞り込んでいくと、データをダウンロードできるページにたどり着く。この画面で「Excel」や「CSV」といったボタンをクリックすると、そのままExcelで参照できるデータファイルをダウンロードできる。

  • Excel形式でデータが配布されている場合

  • PCSV形式でデータが配布されている場合

ただし、必ずしも最適な形でデータがダウンロードされるとは限らない。ひとつ例を紹介しておこう。

たとえば、国勢調査(平成27年)の「人口、人口増減、面積、人口密度」などを集計したCSVファイルをダウンロードして開くと、以下の図のようなデータがExcelに表示される。

  • 平成27年国勢調査(人口)のCSVファイルを開いた様子

このデータは非常に細かく集計されており、47都道府県のデータだけでなく、札幌市の各区や函館市、小樽市などのように、市区町村別のデータも集計されている。このため、表全体の行数は6,000行以上にも及んでいる。

ここで仮に、調べたいデータが「47都道府県の人口」であったとしよう。この場合、47都道府県のデータだけを、6,000行以上もあるデータの中からピックアップしていかなければならない。これは大変な作業になるはずだ。

データを抽出してダウンロード

このような場合は、「e-Stat」で必要なデータだけを抽出してからダウンロードすると、効率よく作業を進められる。そのためには「Excel」や「CSV」のボタンではなく、「DB」(データベース)のボタンをクリックしなければならない。

※統計データによっては「DB」ボタンが用意されていない場合もあります。

  • 「DB」ボタンをクリック

少し待つと、以下のようなプレビュー画面が表示される。さっそく、データの抽出条件を指定していこう。画面の左上にある「表示項目選択」タブをクリックする。

  • 抽出条件を指定する画面の呼び出し

すると、「どこに条件を指定するか?」を選択する画面が表示される。まずは、列についてデータを抽出していこう。「表彰項目」の欄にある「項目を選択」ボタンをクリックする。

  • 「表彰項目」に条件を指定する場合

今回は「人口に関連するデータ」を調べたいので、「面積」や「世帯数」などの項目は不要だ。よって、必要な項目だけをチェックして「確定」ボタンをクリックする。

  • 表示する項目の選択

「表示項目選択」タブをクリックしてプレビュー画面に戻り、「再表示」ボタンをクリックすると、抽出条件を反映した表に変更することができる。

  • データを抽出した表

同様の手順で、次は「地域」の抽出条件を指定していこう。再び「表示項目選択」タブをクリックし、今度は「地域」の欄にある「項目を選択」ボタンをクリックする。

  • 「地域」に条件を指定する場合

「地域」の項目数は全部で4,500以上もあるため、必要な項目を手作業でチェックしていくのは大変だ。そこでツールを使って抽出条件を指定する。まずは「全解除」ボタンをクリックして、すべての項目の選択を解除する。

  • すべての項目の選択を解除

続いて、「北海道」の項目を選択し、「同一階層の選択/解除」の「選択」ボタンをクリックする。これで「北海道」と同じ階層にある、47都道府県のデータだけを抽出できたことになる。

  • 都道府県の階層だけを選択

このように、「同一階層」にある項目を選択/解除して条件を指定していくと、必要なデータだけをスムーズに抽出することが可能となる。そのほか、ここには「配下グループ」にある項目を選択/解除する機能なども用意されている。

「確定」ボタンをクリックして抽出条件を確定し、プレビュー画面で「再表示」ボタンをクリックすると、抽出条件を反映した表を確認できる。正しくデータが抽出されていることを確認できたら「ダウンロード」ボタンをクリックしよう。

  • データを抽出した表とダウンロード画面の呼び出し

すると、「ファイル形式」を選択したり、「ヘッダ」や「コード」を出力するかを指定したりする画面が表示される。

  • ダウンロード設定

ここで「ファイル形式」に「XLSX形式」を指定すると、Excel形式のファイルをダウンロードできる。ちなみに「コード」は、各行政機関が整理用に付けているID番号のことを指している。よって、特に必要がなければ出力しなくても構わない。

なお、「ダウンロード範囲」は、プレビュー画面の上部にあるボックスでカテゴリや年次などを指定した場合に、それを反映するかを指定する項目となる。「ファイル形式」を指定すると自動的に決定される場合も多いので、特に気にしなくてもよいだろう。

続いて、画面を下へスクロールさせると、以下の図のような選択肢が表示される。

  • 注釈、桁区切りなどを指定してダウンロードを実行

ここでは、注釈の有無、空白行/空白列の出力、桁区切り(,)の有無を指定すればよい。その後、「ダウンロード」ボタンをクリックすると、ファイルをダウンロードすることができる。以上で、Webブラウザでの作業は終了となる。

ダウンロードしたファイルの編集

続いては、Excelでデータ分析を進めていこう。今回の例では、ダウンロードしたファイルを開くと、以下の図のようにデータが表示された。

  • Excelファイルとしてダウンロードされたデータ

内容をひととおり確認し、「注釈」などの列が不要であった場合は、この時点で削除しておこう。また、今回の例は「見出しセル」の文字数が多いので、適当な「見出し」に修正しておくとよい。

続いて、データ型を確認する。上図のように、各セルの左上に「緑色の三角形」が表示されている場合は、「数値データ」が「テキスト形式のデータ」として扱われている可能性が高い。セルを選択すると表示される「!」アイコンの上にマウスを移動し、警告メッセージを確認しておこう。

もしも「テキスト形式のデータ」になっていた場合は、「数値データ」に変換しておく必要がある。この作業を忘れると、数式や関数などを使ってデータを処理できなくなってしまう。データ型の変換は、セル範囲を選択した状態で「!」アイコンをクリックし、「数値に変換する」を選択すると実行できる。

  • 文字を数値に変換

以上で、前準備は完了。あとは自由にデータ分析を進めていけばよい。

以下の図は、表の書式を整えてから「データバー」(条件付き書式)を指定した例となる。この結果を見ると、平成22~27年の間に人口が増加しているのは「東京都」や「神奈川県」、「埼玉県」、「愛知県」などしかなく、他の県は軒並み人口が減少していることを確認できる。これらの中には、3%以上も人口が減少している県もいくつか見受けられる。

  • データバーで数値を可視化した表

このように、「e-Stat」から入手したファイルを分析用のデータとして活用することも可能である。東京都のデータだけをダウンロードして、「どこの市区町村で人口が増えているのか?」などを調べることもできるだろう。

「e-Stat」のWebサイトには、個人や企業では調査することができない、規模の大きい統計データが数多く配布されている。気になる方は、この機会にいちど試してみるとよいだろう。