「棒グラフ」や「折れ線グラフ」、「円グラフ」ほどメジャーではないものの、「散布図」もよく使われるグラフのひとつである。しかし、いざ自分で散布図を作成しようとすると、上手くいかずに困惑してしまう方も多いようだ。そこで今回は、通勤時間と睡眠時間の関連性を探りながら、「散布図」の作成方法を学んでいこう。

散布図の作成に使用するデータ

散布図は「縦軸」と「横軸」の両方を数値軸にして、点(マーカー)の位置で「2つの数値データ」を示していくグラフだ。データ分布を示す場合などによく使われているので、詳しく説明しなくてもグラフの大まかな概要は理解できるだろう。

ただし、実際に自分で散布図を作成しようとすると、予想外のトラブルに見舞われてしまうケースが多いようである。そこで今回は「通勤時間」と「睡眠時間」という2つの数値データを使って「散布図」の作り方を紹介していこう。

今回、例として使用するデータは、以下の図のようになっている。

  • 通勤時間と睡眠時間をまとめた表

このデータは、総務省統計局の「社会生活基本調査から分かる47都道府県ランキング」からデータを抜粋して作成したもので、「通勤時間」と「睡眠時間」の調査結果を47都道府県別にまとめてある。

平成28年(2016年)の調査結果なので少し古いデータになってしまうが、ここ1~2年はコロナ禍の影響でテレワークが増加し、「通勤時間」のデータを収集しにくくなっていることを考えると、むしろ妥当なデータといえるかもしれない。

一説には、「通勤時間」が長くなるほど「睡眠時間」は短くなる、という話もあるようで、両者にはある程度の関連性(相関関係)があると思われる。これを「散布図」で確認してみよう。

なお、参考までに「睡眠時間」のトップ5、ワースト5を紹介しておくと、以下のようになる。

◆睡眠時間 トップ5
 1.秋田  8:02(通勤時間58分)
 2.青森  7:59(通勤時間58分)
 3.山形  7:56(通勤時間60分)
 4.岩手  7:54(通勤時間61分)
 5.島根  7:53(通勤時間58分)

◆睡眠時間 ワースト5
 1.埼玉  7:31(通勤時間96分)
 2.千葉  7:32(通勤時間102分)
 3.神奈川 7:33(通勤時間105分)
 4.東京  7:35(通勤時間94分)
 4.愛知  7:35(通勤時間79分)
 4.兵庫  7:35(通勤時間81分)
 4.奈良  7:35(通勤時間93分)

散布図の作成手順

それでは「散布図」の作成手順を紹介していこう。まずは、普通にセルを1つだけ選択して、散布図を作成してみた。

  • セルの選択と「散布図」の作成

すると、以下の図のようなグラフが作成された。どうやらグラフの作成に失敗しているようで、予想した形にはなってくれない。

  • 作成された散布図(失敗例)

本来であれば、それぞれの軸に「通勤時間」と「睡眠時間」を配置したいのに、縦軸だけが数値軸として扱われ、横軸には47都道府県のデータが順番に並べられている。

このように、一般的な手順で散布図を作成すると失敗してしまうケースが多い。「表全体のセル範囲」を選択して散布図を作成した場合も同じ結果になる。

では、どうすればよいのだろうか? 確実に散布図を作成したいときは、「数値データのセル範囲」だけを選択した状態で「散布図」の形式を選択するのが基本だ。

  • セル範囲の選択と「散布図」の作成

すると、「縦軸」と「横軸」の両方が数値軸になり、正しく散布図を描画できる。

  • 作成された散布図

続いては、このグラフを見やすくカスマイズしていこう。

「軸の書式」のカスタマイズ

散布図を利用するときは、「それぞれの軸が何を示しているのか?」を明確にするために「軸ラベル」を表示しておくのが基本だ。「グラフ要素」のアイコンをクリックし、「軸ラベル」をONにする。

  • 「軸ラベル」の表示

続いて、それぞれの「軸ラベル」に適切な文字を入力する。必要に応じて単位も併記しておくとよいだろう。

  • 「軸ラベル」に文字を入力

次は、各軸の範囲をカスタマイズする。まずは、通常の数値軸として扱われている「横軸」について解説していこう。「横軸」を右クリックし、「軸の書式設定」を選択する。

  • 横軸の「軸の書式設定」の呼び出し

「軸の範囲」を指定するときは、すべてのデータを含むように「最小値」と「最大値」を指定するのが基本だ。

今回の例では、「通勤時間」の最小データは57分(大分県)、最大データは105分(神奈川県)となっている。よって、これらの数値を含むように「横軸の範囲」に55~105を指定した。必要に応じて「単位(主)」にも、切りの良い数値を指定しておこう。

  • 最小値と最大値の指定

すると、「横軸の範囲」が変更され、グラフ全体を広く使えるようになる。

  • 「横軸の範囲」を調整した散布図

続いては、「縦軸の範囲」を調整していこう。今回の例では、縦軸が「時間軸」として扱われている。そのラベルは「7:26」や「7:33」といった切りの悪い数値(時間)になっている。

これを切りの良い数値にするには、縦軸の「最小値」や「最大値」などに指定するシリアル値を調べておく必要がある(シリアル値の詳細については、第24回の連載を参照)。

今回の例では、「睡眠時間」の最小データは7:31(埼玉県)、最大データは8:02(秋田県)となっている。これらを含むように「縦軸の範囲」を7:30~8:05に変更し、5分刻みでラベルを表示してみよう。適当なセルに「7:30」、「8:05」、「0:05」と時刻データを入力する。

  • 最大値、最小値、単位に指定する時刻データを入力

その後、これらのセルの表示形式を「標準」に変更すると、時刻データをシリアル値に変換できる。なお、小数点以下の桁数が多く、すべての数字が表示されていないセルもある。「数式バー」でもシリアル値を確認しておこう。

  • 「標準」の表示形式を指定し、シリアル値に変換

それぞれのシリアル値を確認できたら、「縦軸」を右クリックし、「軸の書式設定」を選択する。

  • 縦軸の「軸の書式設定」の呼び出し

続いて、先ほど調べたシリアル値を「最小値」、「最大値」、「単位(主)」に指定していくと、「縦軸の範囲」を思い通りに調整できる。

  • 最小値、最大値、単位(主)の指定

  • 「縦軸の範囲」を調整した散布図

以上で「軸の範囲」の調整は完了。通常の数値であれば「棒グラフ」や「折れ線グラフ」と同様の手順で「軸の範囲」を指定できるが、時間軸の場合は少しだけ手間がかかる。この機会にシリアル値の考え方を復習しておくとよいだろう(シリアル値の詳細については、第24回の連載を参照)。

マーカーのカスタマイズ

最後に、点(マーカー)の色やサイズを変更する方法について紹介しておこう。

いずれかのマーカーを右クリックし、「塗りつぶし」コマンドで「マーカーの色」を変更することも不可能ではない。

  • 「塗りつぶし」の色を指定

ただし、この場合は、マーカーの内部だけが「指定した色」で塗りつぶされ、マーカーの周囲には「元の色」がそのまま残ってしまう。

「枠線にも同じ色に指定すれば・・・」と考える方もいるかもしれないが、この場合は、以下の図のように、各データをつなぐ線が描画されてしまう。

  • 「枠線」の色を指定

このようなミスを避けるには、「データ系列の書式設定」を使ってマーカーの書式を指定する必要がある。いずれかのマーカーを右クリックし、「データ系列の書式設定」を選択する。

  • 「データ系列の書式設定」の呼び出し

「データ系列の書式設定」が表示されたら、「塗りつぶしと線」のアイコンをクリックし、「マーカー」を選択する。ここで「塗りつぶし」や「枠線」の色を指定すると、マーカー部分のみ色を変更することが可能となる。

  • マーカーの書式指定

そのほか、「マーカーのオプション」に「組み込み」を選択し、マーカーの種類(形状)やサイズをカスタマイズすることも可能だ。

たとえば、マーカーの色を「オレンジ色」に、サイズを「7」に変更すると、グラフの表示は以下の図のように変化する。

  • マーカーの書式をカスタマイズした散布図

今回の連載で紹介したように、散布図を利用するときは、その作成手順やカスタマイズ方法をよく覚えておく必要がある。散布図ならではの書式設定もあるので、時間に余裕があるときに色々と試しておくとよいだろう。

なお、グラフ作成に直接関連する話ではないが、「通勤時間」と「睡眠時間」の関連性についても触れておこう。

先ほど作成した散布図を見ると、47都道府県のデータが「右がりの帯状」に分布していることを確認できる。つまり、「通勤時間」が長くなるほど「睡眠時間」は短くなる、という傾向があるのは確かなようだ。

このように、データ表だけでは状況を把握しにくいときは、散布図を作成すると「明らかな傾向」を発見、確認できるケースもある。そのためにも、散布図の使い方を学んでおく必要がある。いずれ、きっと役に立つはずだ。