平均値は、データの傾向を探る重要な指標の一つといえる。ただし、データの中に「突出した数値」が含まれていると、平均値が“意図していた数値"になっていない可能性もある。ということで、今回は「関数TRIMMEAN」の使い方、ならびに「どのデータをもとに平均値を算出すべきか?」について検討していこう。

上位、下位のデータを除外した平均値

TRIMMEANは「上下XX%を除外した平均値」を算出できる関数で、データの中に「突出した数値」が含まれている場合に活用できる関数となる。ただし、本当に知りたい“有意義な平均値"を求めるには、その計算方法を十分に把握しておく必要がある。具体的な例を使って紹介していこう。

  • 異常値を除いた平均値を求める関数TRIMMEAN

以下の図は、あるWebサイトにおける11月前半のアクセス数をまとめたものだ。関数AVERAGEにより「アクセス数(PV)の平均値」も算出されている。

  • 各日のPV数と平均値

この結果に従うと「1日あたりの平均PV数は約1.68万である」ということになる。でも、果たして本当にそういえるだろうか? データをよく見ると、11月6日だけ「突出して大きな数値」が記録されていることに気付くと思う。

実は、この日、偶然にもSNSでバズった記事があり、通常よりも格段に多いアクセスが記録されていた。このような状況になることは滅多にないため、11月6日の76,944というPV数は実状にそぐわない、イレギュラーな数値と考えるのが順当だ。

このようにデータの中に「突出した数値」が含まれている場合は、その数値を除外して平均値を求めと、より実状に近い平均値を得ることができる。このような場合に活用できる関数がTRIMMEANだ。

◆関数TRIMMEANの書式
=TRIMMEAN(セル範囲,除外割合)

関数TRIMMEANを使って「平均値」を求めるときは、第1引数に「数値データが入力されているセル範囲」、第2引数に「除外する割合」を0~1未満の数値で指定する。

たとえば、「上下20%のデータを除いた平均値」を求めるときは、以下の図のように関数TRIMMEANを入力すればよい。

  • 関数TRIMMEANの入力

すると、「上から10%、下から10%のデータを除外した平均値」が算出される。今回の例では、約1.29万という結果になった。

  • 上下20%(上位10%、下位10%)を除いた平均値

この数値は、通常の方法で求めた平均値(約1.68万)より小さい値になっている。全データのPV数を個別に見ていくと、関数TRIMMEANで算出した平均値のほうが「実状に近い数値」と考えられるのではないだろうか?

参考までに、関数TRIMMEANで平均値を算出する際に除外されたデータを示しておこう。今回の例は全部で15個のデータがあり、そのうち上下20%のデータが除外されるので、15個×20%=3個のデータが除外されることになる。これを上下に振り分けると、「上から1.5個、下から1.5個のデータを除外」となる。とはいえ、1.5個では切りが悪いので、これを整数に切り捨てて「上下とも1個のデータを除外する」という仕組みになる。

  • 平均値の算出時に除外された数値データ

つまり、76,944(最大値)と7,668(最小値)を除外した形で平均値が算出されることになる(上図で色を付けたデータが除外される)。このように計算することで「突出した数値」を除外した平均値を求めることが可能となる。

数値データのセル範囲が離れている場合

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら