「テスト結果」や「利用者の年齢」といった、雑多な数値データをグラフ化したい場合もあるだろう。このような場合は、数値データを適当な範囲に分けて、それぞれの範囲内にある「データの個数」を集計するとよい。このようなグラフのことを「ヒストグラム」と呼ぶ。今回はヒストグラムの作成手順を紹介していこう。

ヒストグラム(度数分布図)とは?

今回は、以下のデータをグラフ化する場合について考えてみよう。このデータは、あるグループがTOEICを受験したときのテスト結果をまとめたものだ。

  • テスト結果をまとめた表

それぞれの数値データ(テストの点数)は、805、655、950、770、490、・・・といった具合にバラバラの値が並んおり、全部で200件分(200名分)のデータがある。このデータを基に「集合縦棒」のグラフを作成すると、以下のような結果になる。

  • 「集合縦棒」のグラフを作成した様子

分類(氏名)の数が200件もあるため、とても使えるようなグラフにはならない。正直な話、「このグラフから何を読み取ればよいのか?」という状況になってしまう。

こういった雑多なデータをグラフ化するときは、「ヒストグラム」(度数分布図)と呼ばれるグラフを作成するのが一般的だ。

  • ヒストグラムの例

上図の例では、数値データを「100刻みの範囲」に分け、それぞれの範囲内にある「データの個数」(頻度)を集計してグラフ化している。

このようなグラフを作成するには、「200点以下のデータは△個」、「201~300点のデータは☆個」、「301~400点のデータは◇個」、・・・という具合に、それぞれの範囲内にある「データの個数」をあらかじめカウントしておく必要がある。とはいえ、これを手作業で行おうとすると、非常に面倒な前準備を強いられることになる。

たとえば、今回の例は全部で200件のデータがあるため、各データが「どこに分類されるか?」を「正」の字などでカウントしていく作業を200回も繰り返さなければならない。これを手作業で行うとなれば、カウントミスを犯す可能性も十分にあり得るだろう。

そこで、Excelのグラフ機能を使ってヒストグラムを作成する方法を覚えておくとよい。この機能を使うとExcelが自動的に「データの個数」をカウントしてくれるため、ほんの数分でヒストグラムを作成できる。自分で「データの個数」を数える必要はない。

ヒストグラム(度数分布図)の作成

それでは、ヒストグラムの作成手順を詳しく解説していこう。まずは、「数値データが入力されているセル範囲」を選択する。データ数が多く、ドラッグしながらスクロールするのが面倒な場合は、以下のように操作してセル範囲を選択してもよい。

  1. 数値データが入力されている「最初のセル」を選択する
  2. 「Ctrl」+「Shift」+「↓」キーを押す
  3. データが入力されている範囲が縦方向に選択される
  • セル範囲の選択

セル範囲を選択できたら「挿入」タブを選択し、「統計グラフの挿入」から「ヒストグラム」を選択する。

  • ヒストグラムの作成

すると、Excelが自動的にデータ集計を行い、ヒストグラムを作成してくれる。今回の例では、以下の図のようなヒストグラムが作成された。

  • 作成されたヒストグラム

このグラフの横軸を見ると、[145, 245]、[245, 345]、[345, 445]、・・・といったラベルが並んでいるのを確認できる。これらのラベルは、「☆☆より大きく、★★以下」という「数値の範囲」を示している。

たとえば、[145, 245]は「145より大きく、245以下」という範囲になる。同様に、[245, 345]は「245より大きく、345以下」という範囲になる。

このようにExcelにより自動設定される「数値の範囲」は切りが悪く、状況を把握しにくいことが多い。これを切りのよい数値にするには、横軸の書式をカスタマイズしなければならない。「横軸」を右クリックし、「軸の書式設定」を選択する。

  • 「軸の書式設定」の呼び出し

それぞれの「数値の範囲」はピンにより指定する。たとえば、「ピンの幅」に50を指定すると、それぞれの「数値の範囲」を50刻みに変更できる。

  • 「ピンの幅」の変更

「ピンの幅」に50を指定した結果、それぞれの「数値の範囲」は145~195、195~245、245~295、・・・に変更され、これらの範囲で「データの個数」を再集計したヒストグラムが表示される。

  • 50刻みで集計したヒストグラム

50刻みでは少し細かすぎるようなので「ピンの幅」を100に戻し、今度は「数値の範囲」の始点を変更してみよう。これを変更するときは、「ピンのアンダーフロー」に切りのよい数値を指定すればよい。

  • 「ピンのアンダーフロー」の変更

上図のように「ピンのアンダーフロー」に200を指定すると、「200以下」のデータをひとまとめにした範囲が「最初の範囲」になり、続いて、「200より大きく、300以下」、「300より大きく、400以下」、・・・という具合に「数値の範囲」が100刻み(ピンの幅)で設定されていく。

  • 200を始点にしたヒストグラム

このように、若干の書式変更を施すだけで、数値データを「指定した範囲」に分割したヒストグラムを作成できる。

このグラフを見ると、最も割合が大きいのは「500~600」の範囲であることがわかる。つまり、(大雑把に見て)テスト結果が500点台の人が最も多い、ということを把握できる(※1、※2)。

(※1)厳密には「500より大きく、600以下」になるため、「501~600点」になります。
(※2)TOEICは5点刻みで採点されるため、さらに厳密にいうと「505~600点」になります。

頻度を割合(パーセンテージ)で示すには?

それぞれの頻度をパーセンテージで示したい場合もあるだろう。ただし、これを自動作成する機能は用意されていない。よって、少しだけ自分で計算を行う必要がある。

まずは、作成したヒストグラムに「データ ラベル」を表示する。すると、それぞれの範囲内にある「データの個数」(頻度)を確認できる。

  • データラベルの表示

これらの数値を書き写して「割合(%)を算出する表」を作成する。今回は、以下の図のように表を作成した。関数SUMを使って「頻度の合計」も計算しておこう。

  • 「割合を計算する表」の作成

続いて、各範囲の割合(%)を計算する。この値は、(頻度)/(合計)で計算できる。このとき、(合計)の部分を絶対参照で記しておくと、数式をオートフィルでコピーできるようになる。

  • 割合(%)を計算した表

あとは、「ラベルとなるセル範囲」と「割合のセル範囲」を選択した状態で「集合縦棒」のグラフを作成するだけ。離れたセル範囲を同時に選択するときは、「Ctrl」キーを押しながら、それぞれの範囲をドラッグしていけばよい。

  • 割合(%)を示すヒストグラムの作成

  • 割合(%)で示したヒストグラム

グラフを読み取りやすくするために、割合(%)の数値も表示しておこう。今回のグラフは割合(%)の数値データを基に作成されているので、この操作は「データ ラベル」を表示するだけで済む。

  • データラベルの表示

続いて、よりヒストグラムらしく見せるために「棒グラフの幅」を太くする。いずれかの棒グラフを右クリックして「データ系列の書式設定」を選択し、「要素の間隔」を小さくする。すると、「棒グラフの幅」を太くすることができる。

  • 棒グラフの太さを変更

最後に、「データ ラベル」などの文字の書式を調整し、「グラフ タイトル」を入力する。これで以下の図に示したようなグラフ(ヒストグラム)に仕上げることができる。

  • データラベルの書式指定

このグラフを見ると、「約23.5%の人が501~600点であった」ということを把握できる。大雑把に見れば、「全体の約1/4が500点台であった」といえるだろう。さらに詳しく見ていくと、401~500点は17.0%、601~700点は19.5%なので、「401~700点の範囲内にいる人は全体の約60%」という分析も行える。

このようにヒストグラムを作成すると、雑多な数値データの分布を把握することが可能となる。データ分析においては「基本中の基本」ともいえる内容なので、よく仕組みを学んでおくとよいだろう。