Excelでデータ列の平均値を求めるときにはAVERAGE関数を使いますが、中には極端なデータが含まれていて、平均値に影響してしまうこともあります。
たとえば、ある年中無休のスーパーの来店者数のデータであれば、台風等によって交通機関が運休した日の来店者数であったり、ある駅の利用者数であれば、有名アーティストのコンサートがあった日などです。
それらは日常的ではない極端なデータとなりますので、平均値にも大きく影響する場合があります。
Excelでは、上下〇%の極端なデータを除外して平均値を求めるための「TRIMMEAN」という関数があります。
今回は、TRIMMEAN関数について、実例を交えて紹介します。
TRIMMEAN関数│極端なデータを除外した平均値
通常の平均値を求めるためのAVERAGE関数と比べ、TRIMMEAN関数は極端なデータ、具体的には上位・下位それぞれ10%のデータを除外して平均値を求めることが可能です。
上位・下位10%のデータとは
「上位・下位10%のデータ」という表現は、多くの方にとってイメージし辛いかと思いますので、前提として説明しておきます。
平均値を求めたいデータ列の中から、値が最も少ないデータを10%、最も多いデータを10%、それぞれ除外して残りの中央80%のデータを使って平均値を求めるのが、今回紹介するTRIMMEAN関数です。
TRIMMEAN関数の使い方
数式
=TRIMMEAN(計算範囲,除外割合)
例:=TRIMMEAN(B2:B11,0.2)
TRIMMEAN関数を使った平均値の求め方は上記の通りです。この例では、除外割合に「0.2」を設定していますので、20%のデータ、つまり上位10%、下位10%のデータが除外されます。
あとがき~データのバイアスについて
今回は、TRIMMEAN関数を使ったデータ列の平均値の求め方を記事にしました。
取り上げた事例では、上位・下位からそれぞれ10%のデータを除外するものでしたが、データコンディションによって除外範囲は調整することができます(引数に0.3を設定すれば、上位・下位からそれぞれ15%を除外)。
紹介したように、極端なデータは平均値に影響を与えてしまうことがありますが、本来は簡単にデータの母集団を狭めてしまうのは良くありません。たとえば、台風の日の来客数が減ったということは、その前日は台風に備えて来客数は増えた可能性もあるのです。
誤った認識でデータを作成することをデータ分析の分野では「データバイアス」といい、データの信頼性に大きく関わってくる概念です。
もし、慎重を期すデータ分析であれば、専門家に依頼または社内の複数人で議論して手法を決めたほうがよいでしょう。
TRIMMEAN関数は、重要性がそれほど高くない分析で使う身近な関数として理解しておきましょう。