今回は、「データのばらつき」をグラフで示すヒストグラムの作成方法を紹介していこう。データ分布の全体像を把握するには、平均値や最大値、最小値といった指標だけでなく、ヒストグラムでデータの形状を知ることも重要である。

ヒストグラムとは?

今回は、以下の図に示したデータを使って解説を進めていこう。このデータは、ある会社が新人研修を行い、その理解度を計るテストの結果をまとめたものとなる。新人研修は「東京本社」と「大阪支社」の2カ所で開催され、それぞれ20人の新人に対して研修を行った。

  • テスト結果の平均値と最大値、最小値

この結果を見ると、東京本社の平均点は68.35点、大阪支社の平均点は68.40点であり、ほとんど差がないと読み取れる。また、最高点は97~98点、最低点は46~47点となり、こちらもほぼ同じ結果であると考えられる。

この結果だけを見ると、「東京と大阪で同じくらいの成果を得られた」と評することができるが、果たして本当にそうであろうか?

実は、これら3つの指標だけで結論を出してしまうのは少々早計である。より正確に評価するには、それぞれのデータについてヒストグラムを作成する必要がある。

ヒストグラムは「階級別グラフ」とも呼ばれるもので、データを適当な範囲に区切り、「それぞれの範囲内にどれくらいのデータがあるか」をグラフ化したものとなる。たとえば、先ほどのデータを「50点以下」、「50~60点」、「60~70点」、・・・と範囲を区切ってグラフ化すると、以下の図のようになる。

  • ヒストグラムで比較した場合

平均点、最高点、最低点が似たような数値であっても、グラフの形状が大きく異なることに気付くはずだ。

東京本社のグラフは、「50点以下」から「90点以上」まで幅広く、同程度に分布している。一方、大阪支社のグラフは、「60~70点」の頻度が圧倒的に大きいことが分かる。つまり、平均点や最高点、最低点が似たような数値であっても、その「ばらつき」は全くの別物であると考えられる。

もう少し深読みすると、東京本社での新人研修は「わかる人にはわかる、わからない人は置いてきぼり」という指導方法になっていたと考えることもできる。一方、大阪支社での研修は、「なるべく多くの人が理解できるように」という指導方法になっていたと評することもできる。

このように、平均値、最大値、最小値だけでは、データの状況を正確に把握できないケースもある。よって、ヒストグラムを使ってデータの分布を確認する習慣を身につけておく必要がある。

ヒストグラムの作成手順

Excelには、ヒストグラムを作成する機能が用意されている。この機能を使えば誰でも簡単にヒストグラムを作成できるが、思い通りのグラフにするには若干のテクニックが必要である。順番に解説していこう。

まずは、ヒストグラムとしてグラフ化するセル範囲を選択する。続いて、「挿入」タブを選択し、「統計グラフの挿入」→「ヒストグラム」を選択する。

  • ヒストグラムの挿入

すると、データの状況にあわせて範囲を自動分割したヒストグラムが作成される。今回の例では、[46, 67]、[67, 88]、[88, 109]という3つの範囲に分けたヒストグラムが作成された。

  • 作成されたヒストグラム

ちなみに、それぞれの範囲は「△△超~△△以下」と理解するのが基本である。ただし、左端のグラフだけは「△△以上~△△以下」という範囲になる。上図の場合、「46以上~67以下」、「67超~88以下」、「88超~109以下」という3つの範囲に分けてデータが集計されたことになる。

これでヒストグラムを作成できたことになるが、あまりに大雑把なグラフであり、このままではヒストグラムとして活用できない。そこで、横軸をダブルクリックして「軸の書式設定」の呼び出し、範囲をカスタマイズする必要がある。

  • 「軸の書式設定」の呼び出し

今回は、それぞれの範囲を10刻みで区切ってみよう。この場合は、「ビンの幅」に10を指定すればよい。

  • 「ビンの幅」の指定

すると、ヒストグラムは以下の図のように変化する。

  • 10間隔で集計されたヒストグラム

確かに、それぞれの範囲が10刻みで分割されているが、「46~56」や「56~66」といった範囲の分け方は、あまり気持ちのよいものではない。このような場合は、「ビンのアンダーフロー」をONにして「切りのよい数値」を指定すると、思い描いていた通りの範囲に分割できる。

  • 「ビンのアンダーフロー」の指定

「ビンのアンダーフロー」は、指定した数値以下を1つのグラフにまとめる機能で、今回の例の場合、「50以下」のデータが1つのグラフで示されるようになる。以降のグラフは、「ビンの幅」を10に指定しているため、「50超~60以下」、「60超~70以下」、「70超~80以下」・・・という具合に範囲が分割されていくことになる。

  • 集計間隔が調整されたヒストグラム

以上で、ヒストグラムのカスタマイズは完了。最後に、何のデータをまとめたグラフか識別できるように「グラフ タイトル」を変更しておこう。

  • 「グラフ タイトル」の変更

同様の手順で「大阪支社」のデータについてもヒストグラフを作成すると、2つのヒストグラムを作成することができる。

  • 「大阪」のデータでヒストグラムを作成

  • 作成されたヒストグラム

ヒストグラムの比較

続いては、2つのヒストグラムを見比べるときに必要となる操作について補足しておこう。

グラフを見比べるときは、それぞれのグラフを同じサイズで描画しておくのが基本だ。グラフのサイズを正確に合わせたいときは、ドラッグ操作によりグラフサイズを変更するのではなく、数値でサイズを指定するとよい。

  • グラフのサイズの指定

2つのヒストグラムのサイズを調整できたら、グラフを横に並べて配置する。このとき、「書式」タブにある「配置」→「上揃え」などを利用すると、グラフを正確に左右に並べて配置することが可能となる。

最後に「縦軸の範囲」を調整する。今回の例では、「東京本社」は0~6の頻度、「大阪支社」は0~10の頻度でグラフが作成されている。

  • 横に並べたヒストグラム

このままでは正しく比較できないので、「縦軸の範囲」が同じになるように設定を変更しておく必要がある。「東京本社」の縦軸をダブルクリックし、「最大値」を10に変更する。

  • 「軸の書式設定」の呼び出し

  • 「最大値」の変更

これで、各グラフの「縦軸の範囲」を0~10に統一できた。あとは、それぞれのグラフを見比べて、データ分布の傾向を見極めていくだけだ。

  • 比較しやすいヒストグラム

なお、今回紹介した「ヒストグラム」の作成機能は、Excel 2016以降(またはOffice 365)でのみ使える機能となる。それ以前のExcelを使っている場合は、分析ツールを使ってヒストグラムを作成しなければならない。これについては、次回の連載で詳しく解説していこう。