今回は、データのばらつき具合を数値化した「分散」の計算方法を紹介していこう。また、関数を使って「分散」を求める方法も紹介する。統計学的なデータ分析を行うときの基本的な指標となるので、その概要を把握しておくと役に立つだろう。

データの「ばらつき」を数値化するには?

前回や前々回の連載では、ヒストグラムを使ってデータのばらつき具合を確認する方法を紹介した。もういちど、簡単に「おさらい」しておこう。

以下の表は、新人研修の理解度を計るためにテストを行い、その結果をまとめたものとなる。新人研修は「東京本社」と「大阪支社」の2カ所で行われ、それぞれ20人の新人を対象に研修&テストが実施された。

  • テスト結果と平均値

「東京本社」と「大阪支社」のテスト結果を見ると、その平均点にほとんど差がないことが把握できる。ただし、データのばらつき具合には相違があるようだ。各データのヒストグラムを作成して比較すると、以下の図のような結果になる。

  • データの分布をヒストグラムで示した場合

「東京本社」は40点台から90点台まで幅広く一様に分布しているのに対して、「大阪支社」は60~70点の頻度が極めて大きく、「データのばらつき具合は小さい」と考えられる。

このように、ヒストグラムを作成すると「データのばらつき具合」をイメージとして確認することが可能となる。ただし、「どの程度ばらついているか?」を説明するのは難しい。

そこで、「データのばらつき具合」を数値化する方法を考えてみよう。まず最初に思いつくのは、「各データの値」と「平均値」の差を求めてみる方法だ。数式で示すと以下の図のようになる。なお、オートフィルで数式をコピーできるように、「平均値」のセル参照は絶対参照で指定している。

  • 平均値からの差を求める数式

No.2以降についても「各データの値」と「平均値」の差を求め、その合計を関数SUM()で算出してみよう。

  • 差の合計を求めると・・・

  • その結果は必ず0になる

上図を見るとわかるように、この計算結果は必ず0(ゼロ)になってしまう。ある程度、数学に明るい方からすると、当たり前すぎる結果といえるだろう。よって、この方法により算出した数値は、「データのばらつき具合」を示す指標として使えない。

分散の計算方法

続いては、「各データの値」と「平均値」の差を2乗して、必ず正の値になるようにしてから合計してみよう。これを数式で示すと、以下の図のようになる。

  • 「差の2乗」を求める数式(東京)

この数式をオートフィルでコピーし、その合計を求めると、以下の図に示したような結果が得られる。

  • 数式をコピーし、その合計を求める

  • 「東京」の「差の2乗」の合計

「大阪支社」のデータについても同様の処理を行うと、以下の図のような結果が得られる。

  • 「差の2乗」を求める数式(大阪)

  • 「大阪」の「差の2乗」の合計

今度は、「データのばらつき具合」を示す指標として使えそうな結果を得ることができた。「東京本社」の指標は約5,111、「大阪支社」の指標は約2,567という数値になり、「東京本社」の方が数値は大きくなる。よって、「東京本社の方がデータのばらつき具合が大きい」と考えられる。

ただし、この方法により求められた指標には欠陥が含まれていることに注意しなければならない。それは「データの個数」が多くなればなるほど、指標の数値も大きくなってしまうことだ。今回の例は「東京」と「大阪」の人数(データの個数)がどちらも20個であるため、そのまま数値を比較することが可能であるが、「データの個数」が異なる場合には対応できない。

そこで、先ほど求めた数値を「データの個数」で割った値を新しい指標とする。数式で示すと、以下の図のようになる。

  • 「データの個数」で割り算する

同様に、「大阪支社」についても「データの個数」である20で割ると、以下の図のような結果が得られる。

  • 「東京」と「大阪」の指数

この結果は、「東京」が255.53、「大阪」が128.34となり、「東京」の方が大きな数値になる。よって、「東京本社の方がデータのばらつき具合が大きい」と考えられる。

統計学の分野では、このような手順で求めた数値を「分散」と呼び、「データのばらつき具合」を示す主要な指標の一つとして利用されている。計算方法の復習も兼ねて、「分散」の計算式を示すと以下のようになる。

  • 分散の計算式

分散を求める関数VAR.P()の使い方

先ほどは計算方法を示すために手計算で「分散」を求めたが、このような面倒な計算を行わなくても「分散」を求めることは可能である。というのも、Excelには「分散」を求める関数が用意されているからだ。

「分散」を求めるときは、VAR.P()という関数を使用する。カッコ内には、「データのセル範囲」を引数として指定すればよい。基本的な使い方は関数SUM()や関数AVERAGE()などと同じであるが、関数名に「.」(ピリオド)が含まれるのが特徴的といえるだろう。

たとえば、「東京」のデータについて「分散」を求めるときは、引数に「C3:C22」のセル範囲を指定し、以下のように関数VAR.P()を入力すればよい。

  • 関数VAR.P()の入力

同様に、「大阪」のデータの分散は「=VAR.P(D3:D22)」で求めることができる。

  • 関数VAR.P()の入力

もちろん、この結果は、先ほど手計算したものと同じ数値になる。

  • 分散の計算結果

「東京」は255.53、「大阪」は128.34となり、「東京」の方が「分散」の数値は大きくなる。つまり、「東京本社の方がデータのばらつき具合が大きい」と考えられる。

このように「分散」を求めることで「データのばらつき具合」を比較する方法もある。とはいえ、「分散」が示す数値そのものに「どのような意味があるのか?」を理解するのは難しいだろう。そこで次回は、「標準偏差」と「偏差値」について詳しく紹介していこう。