前回前々回の連載では「ヒストグラム」を作成する方法を紹介した。しかし、「もっと手軽にデータ分布を確認したい」というケースもあるだろう。そこで、「箱ひげ図」と呼ばれるグラフの使い方を学んでおくとよい。グラフを読み取るのに若干の慣れが必要だが、そのぶん手軽にグラフを作成できる。

「箱ひげ図」の作成手順

前回前々回の連載で紹介した「ヒストグラム」は、データの分布を視覚的に分かりやすく示すことができるのが利点となる。その反面、「数値の範囲」の指定など、グラフ(ヒストグラム)を作成するまでに多少の手間を要する。

そこで、「箱ひげ図」と呼ばれるグラフの使い方も学んでおくとい。ヒストグラムほど詳しくはないが、大雑把なデータ分布であれば「箱ひげ図」でも十分に状況を読み取ることが可能だ。

今回もTOEICのテスト結果をまとめた表を例に「箱ひげ図」の使い方を紹介していこう。

  • テスト結果をまとめた表

まずはグラフの作成方法を解説する。「箱ひげ図」を作成するときは、数値データが入力されているセル範囲を選択し、「統計グラフの挿入」から「箱ひげ図」を選択する。たとえば、「1回目」のテスト結果について「箱ひげ図」を作成するときは、以下の図のように操作すればよい。

  • セル範囲の選択と「箱ひげ図」の作成

すると、四角形(箱)の上下に線(ひげ)が伸びたグラフが作成される。

  • 作成された「箱ひげ図」

これが「箱ひげ図」と呼ばれるグラフになる。とはいえ、「このグラフをどう読み解けばよいのか・・・」という方も沢山いるだろう。続いては、「箱ひげ図」の読み取り方を説明していこう。

「箱ひげ図」の読み取り方

まずは「箱ひげ図」を見やすくするために、若干のカスタマイズを行う。「グラフ要素」をクリックし、「データラベル」を表示する。

  • データラベルの表示

続いて、四角形(箱)の部分を右クリックし、「塗りつぶし」の色を「塗りつぶしなし」に変更する。

  • 「塗りつぶし」を「なし」に変更

さらに「枠線」コマンドをクリックして、「線の太さ」を少しだけ太くする。すると、以下の図のような「箱ひげ図」にカスタマイズできる。

  • 見やすくカスタマイズした「箱ひげ図」

この図を使って「箱ひげ図」の読み取り方を説明していこう。

四角形(箱)の上下に伸びる線(ひげ)は、数値データが存在する範囲を示している。最上部にある線は「最大値」、最下部にある線は「最小値」を示している。今回の例では、最高点は950点、最低点は145点であることがグラフから読み取れる。

なお、中央付近にある「×」の印は「平均値」を示している。今回の例では、平均点が572点であった、と確認できる。

  • 「箱ひげ図」の読み取り方(1)

2つの四角形(箱)で示された部分は、すべてのデータを4等分したときに、それぞれの境界線がどこに来るかを示している。下から順に、「第1四分位」、「第2四分位」、「第3四分位」と呼ばれ、ちょうど中央の位置にあたる「第2四分位」は中央値を示す指標にもなる。

少し理解しにくいと思うので、それぞれの範囲をパーセントで示した図も紹介しておこう。

  • 「箱ひげ図」の読み取り方(2)

「データを4等分する」という処理は、「25%ずつにデータを分割する」と考えることもできる。その状況を示したのが上の図だ。

今回の例の場合、145~446点の範囲に「下から25%の人が含まれる」ということになる。そのほか、

 ・693~950点の範囲に「上から25%の人が含まれる」
 ・145~575点の範囲に「下から50%の人が含まれる」
 ・446~693点の範囲に「中央付近の50%の人が含まれる」

などの傾向をグラフから読み取ることが可能だ。

グラフの読み取り方に慣れるまでに多少の訓練が必要と思われるので、データを比較する場合を使って、もう少し具体例を紹介していこう。

「箱ひげ図」を使ったデータ分布の比較

今度は「1回目」と「2回目」のテスト結果について、「箱ひげ図」を作成してみよう。「ラベル」と「数値データ」のセル範囲を選択した状態で「箱ひげ図」を作成する。

  • セル範囲の選択と「箱ひげ図」の作成

すると、2つの「箱ひげ図」が並んだグラフが作成される。先ほど示した手順で「データ ラベル」を表示し、箱の「塗りつぶし」の色を薄くすると、以下の図のようなグラフが得られる。

  • 「塗りつぶし」と「枠線」の書式を変更

TOEICは990点満点なので、1,000点以上の範囲は不要だ。より大きくグラフを表示できるように、縦軸の範囲もカスタマイズしておこう。「縦軸」を右クリックして「軸の書式設定」を選択し、「最大値」を1,000に変更する。

  • 縦軸の範囲の指定

続いて、「凡例」を表示し、「グラフ タイトル」に適当な文字を入力すると、以下の図のようなグラフに仕上げられる。

  • データ分布を比較する「箱ひげ図」

このグラフを見ると、「1回目」と「2回目」のテスト結果のデータ分布を大まかに比較することが可能となる。

まずは、上下に伸びる線(ひげ)を見てみよう。どちらも「最低点」は145点で、「最高点」は950点と965点になっている。つまり、「最低点は変化していないが、最高点は15点だけ上昇した」ということを把握できる。

さらに注目したいのが、中央にある「箱」の部分である。この部分には「中央付近に位置する50%の人」が含まれている。言い換えると、上下25%ずつのデータを省いた、25~75%の位置にいる人が「箱」の中に含まれる、と考えられる。

1回目のテスト結果において「中央部50%」の範囲は446~693点。これが2回目になると、476~714点に変化している。つまり、それだけデータ分布の山が高得点方向へ移動した、ということを確認できる。

また、それぞれの四分位間の範囲は25%になるため、「範囲が狭い部分ほどデータが密になっている」という特徴があることも知っておく必要がある。

理解しやすいように別の例を示しておこう。以下の図は、A店、B店、C点における会員の年齢をまとめた表だ。

  • 各店舗の会員の年齢をまとめた表

この表を基に「箱ひげ図」を作成すると、以下の図のような結果が得られる。

  • 年齢分布を比較する「箱ひげ図」

年齢の低い方から25%分のデータを見ると、A店は15~31歳、B店は15~33歳、C店は15~32歳であることがわかる。3つとも似たような年齢の範囲なので、(大雑把に見て)約30歳以下の割合は3店舗とも大差がない、と考えられる。

一方、それ以上の年齢については店舗によって差があるようだ。年齢の低い方から2番目(25~50%)のデータを見比べると、

 A店 ・・・・・ 31~49歳(年齢幅で18歳)
 B店 ・・・・・ 33~58歳(年齢幅で25歳)
 C店 ・・・・・ 32~41歳(年齢幅で9歳)

となっている。いずれも、この範囲内に全体の約25%の会員が在籍している、と考えられる。年齢幅が広いB店は、それだけ会員の年齢幅が広いことになる。一方、C店は、わずか9歳の年齢幅に25%もの会員が在籍していることになり、(大雑把に見て)30代の会員の割合が非常に高いことが伺える。

同様に「箱」の部分(25~75%)を見比べてみると、

 A店 ・・・・・ 31~67歳(年齢幅で36歳)
 B店 ・・・・・ 33~76歳(年齢幅で43歳)
 C店 ・・・・・ 32~59歳(年齢幅で27歳)

という結果になっている。このデータからも、B店は幅広い年齢の会員が満遍なく在籍している、年齢幅が狭いC店は30~50代の比較的若い世代が多い、という傾向を読み取れる。

このように「箱ひげ図」を描くことで、大雑把ではあるが、データ分布の傾向を読み取れるようになる。「箱ひげ図」を見るときは、25%ずつに分けた範囲が「狭くなっている部分」に注目すること。範囲が狭くなるほど、「その部分にデータが集中している」と考えるのが基本だ。

ヒストグラムに比べると、グラフを読み取るのに若干の経験を求められるが、そのぶん手軽にグラフを作成できる。気になる方は試してみるとよいだろう。

なお、「箱ひげ図」は広く一般に普及しているグラフではないため、その利用シーンにも注意しておく必要がある。

学会のように専門家が集まる場所では「箱ひげ図」を問題なく使えるかもしれないが、「上司への報告書」や「取引先への資料」としては不適切なグラフと考えられる。というのも、相手が「箱ひげ図」を読み取り方を知らない可能性があるからだ。

一般的なビジネスシーンで利用するときは、少し面倒でもヒストグラムを作成するのが基本だ。こちらの方が状況を把握しやすいし、「横軸のラベル」を適切に表記していれば「何を示しているグラフなのか分からない・・・」という事態にはならないはず。

「箱ひげ図」は、データ分布を手軽に確認するための「自分用のグラフ」と割り切って活用していく必要があるだろう。念のため、注意しておこう。