平均値だけでは不十分? 中央値を求める関数MEDIAN

今回は、中央値を求める「関数MEDIAN」の必要性と使い方について解説していこう。データの傾向を把握するために「平均値」を求めることはよくあるが、状況によっては「中央値」のほうが重要になるケースもある。関数MEDIANの使い方は特に難しくないので、「なぜ中央値を調べる必要があるのか？」に的を絞って話を進めていこう。→連載「定時で上がろう! Excel関数の底力」のこれまでの回はこちらを参照。

関数AVERAGEを使った平均値の算出

Excelには「平均値」を手軽に算出できる関数AVERAGEが用意されている。関数SUMに次いで有名な関数なので、「普段からよく使っている」という方もたくさんいるだろう。

しかし、これだけでは不十分なケースもある。というのも、状況によっては「平均値」より「中央値」の方が意味のある指標になるケースがあるからだ。よって、「中央値」を求める関数MEDIANの使い方も覚えておく必要がある。

関数MEDIANの必要性と使い方を紹介

具体的な例を使って紹介していこう。以下の図は、ある企業が「横浜支社」と「大阪支社」で20人ずつ研修を行い、その成果を調べるためにテストを行った結果となる。まずは、各支社についてテスト結果の平均点（平均値）を算出してみよう。

関数AVERAGEの使い方は、カッコ内に「平均を求めるセル範囲」を指定するだけ。基本的には、関数SUMと同じ記述方法になる。例えば、「横浜支社」のテスト結果の平均値を求めるときは、以下の図のように関数を記述すればよい。

平均値を求める関数AVERAGEの入力

同様に関数AVERAGEで「大阪支社」のテスト結果の平均値を求めると、以下の図のような結果が得られた。

「横浜支社」と「大阪支社」の平均値

数値を比較しやすいように、小数点以下の表示桁数に2桁に統一すると、以下の図のようになる。

小数点以下の表示桁数を2桁に統一

この結果を見ると、「横浜支社」の平均点は70.10点、「大阪支社」の平均点は70.05点であり、両者の差はほとんどないように見受けられる。でも、はたして、本当にそうであろうか？

中央値とは？

データの傾向を把握したいときは、それぞれの「中央値」を調べてみるのも効果的だ。中央値は「ちょうど中間に位置するデータ」を示す指標となる。言い換えると「上から50％、下から50％に位置するデータ」を示したものとなる。

普通に考えると、「平均値と中央値は似たような数値になる」と思うかもしれない。しかし、そうはならないケースもある。一つの例を紹介しておこう。

金融広報中央委員会が公表している「家計の金融行動に関する世論調査」（令和3年）によると、20歳代の金融資産保有額は、平均値が179万円、中央値が20万円だという。平均値が179万円なのに、20万円以下の人が約半数もいる、という少し不思議な状況になっているようだ。どちらも20歳代の「代表的な値」を示す指標なのに、両者には大きな差がある。

30歳代のデータを見ても、平均値606万円に対して、中央値は56万円と、こちらも2つの指標に大きな差が生じている。

出典：金融広報中央委員会「家計の金融行動に関する世論調査」（単身世帯調査、令和3年） https://www.shiruporuto.jp/public/document/container/yoron/tanshin/2021/21bunruit001.html

このように、「平均値」だけでは全体像を把握しにくいケースもある。このようなケースに備えて「中央値」も調べておくと、多少なりともデータの傾向が鮮明になる。

少し話がそれてしまったので、「研修後のテスト結果」に話を戻して解説を進めていこう。Excelで「中央値」を求めるときは、関数MEDIANを使用する。その使い方は、カッコ内に「数値データのセル範囲」を指定するだけ。例えば、「横浜支社」の中央値を求めるときは、以下の図のように関数を記述すればよい。

中央値を求める関数MEDIANの入力

同様に、関数MEDIANを使って「大阪支社」の中央値も求めると、以下の図のような結果になる。

「横浜支社」と「大阪支社」の中央値

こちらも、数値を比較しやすいように、小数点以下の表示桁数を2桁に統一しておこう。

小数点以下の表示桁数を2桁に統一

この結果を見ると、「平均値」は大差がないにもかかわらず、「中央値」は10点以上もの差がついていることを把握できる。「大阪支社」の平均点は約70点だが、その一方で「約半数の人が60点以下……」という現実になっている。

となると、「横浜支社と大阪支社の研修成果は同じ」と考えるのは少し無理のある話かもしれない。「平均値」だけでは見えなかった現実が、「中央値」を比べることで少し見えてくる、ともいえるだろう。

データ数が偶数個の場合の処理

ここで、中央値の考え方について補足説明をしておこう。中央値は「ちょうど中間に位置するデータ」を示したものとなる。例えば、数値データが全部で5個あった場合は「3番目のデータ」が中央値になる。同様に、数値データが全部で9個の場合は「5番目のデータ」が中央値になる。

では、数値データが全部で10個あった場合はどうなるだろうか？　この場合、「5番目のデータ」と「6番目のデータ」の間がちょうど中間になる。よって、関数MEDIANにより表示される値も「5番目のデータ」と「6番目のデータ」の中間にある数値となる。

先ほど示した例では、「横浜支社」の「上から10番目のデータ」は72点、「上から11番目のデータ」は71点になる。よって、その中間の71.50が中央値になる。同様に、「大阪支社」の「上から10番目のデータ」は61点、「上から11番目のデータ」が60点なので、その中央値は60.5になる。

このようにデータ数が偶数の場合は、ちょうど中間にある2つのデータを平均した値が「中央値」として表示される。細かな話であるが、念のため覚えておくとよいだろう。

しきい値を指定して合格者数を調べる

続いては、「しきい値」を使ってデータの傾向を把握する方法を紹介していこう。例えば、テスト結果が70点以上の人を「合格」と認定する場合、それぞれの「合格者数」を調べることで各支社の研修成果を比べることが可能となる。

これを視覚的にExcelで実現したいときは、「条件付き書式」を利用するとよい。まずは、数値データが入力されているセル範囲を選択する。

「条件付き書式」の指定（1）

続いて、「ホーム」タブにある「条件付き書式」をクリックし、「セルの強調表示ルール」→「指定の値より大きい」を選択する。

「条件付き書式」の指定（2）

条件とする値を入力する画面が表示される。ここで注意すべきポイントは、条件の指定方法が「★★以上」ではなく、「★★より大きい」になっていること。70点以上を条件に指定したい場合は、「69より大きい」と指定する必要がある。続いて、条件に合うセルの書式を指定する。

「条件付き書式」の指定（3）

このように「条件付き書式」を設定すると、70点以上のデータだけを強調表示することが可能となる。

「70点以上」（69点より大きい）を強調表示した例

あとは、各支社の合格者数を数えていくだけ。今回の例では、「横浜支社」で12人が合格、「大阪支社」で7人が合格、という結果になった。言い換えると、「横浜支社」では過半数が合格にしているのに、「大阪支社」の合格者は半数にも満たない、という結果になる。この結果を見ても、「両者は同じ傾向」と考えるのは無理があるといえるだろう。

なお、今回の例のように数十件程度のデータ数であれば、合格者の人数を「いち、にい、さん……」とカウントしていくことも不可能ではないが、データ数が数百件、数千件になると、手作業でカウントするのは現実的な話ではなくなる。数え間違えを起こす可能性も高くなる、といえるだろう。

このような場合にも関数が役に立つ。以下の図は、「70点以上のデータ」を関数で自動的にカウントした例だ。