TRIMMEAN関数│上下の極端な値を除いて正常な平均値を求める

Excelでデータ列の平均値を求めるときにはAVERAGE関数を使いますが、中には極端なデータが含まれていて、平均値に影響してしまうこともあります。

たとえば、ある年中無休のスーパーの来店者数のデータであれば、台風等によって交通機関が運休した日の来店者数であったり、ある駅の利用者数であれば、有名アーティストのコンサートがあった日などです。

異常値が平均値に影響する

それらは日常的ではない極端なデータとなりますので、平均値にも大きく影響する場合があります。

Excelでは、上下〇%の極端なデータを除外して平均値を求めるための「TRIMMEAN」という関数があります。

今回は、TRIMMEAN関数について、実例を交えて紹介します。

目次

TRIMMEAN関数│極端なデータを除外した平均値

通常の平均値を求めるためのAVERAGE関数と比べ、TRIMMEAN関数は極端なデータ、具体的には上位・下位それぞれ10%のデータを除外して平均値を求めることが可能です。

上位・下位10%のデータとは

「上位・下位10%のデータ」という表現は、多くの方にとってイメージし辛いかと思いますので、前提として説明しておきます。

平均値を求めたいデータ列の中から、値が最も少ないデータを10%、最も多いデータを10%、それぞれ除外して残りの中央80%のデータを使って平均値を求めるのが、今回紹介するTRIMMEAN関数です。

なお、除外する10%という範囲は引数で調整することが可能です。

データ数が10件であれば、上位・下位それぞれ1件づつ除外される
中央80%のデータで平均値を算出

以上が、TRIMMEANの特徴「上位・下位10%以外」の意味です。この例は分かりやすさを重視していますので、TRIMMEANを使う必要性は感じないと思いますが、実際のデータに極端なデータが含まれている場合に効果を発揮します。

TRIMMEAN関数の使い方

数式

=TRIMMEAN(計算範囲,除外割合)
例:=TRIMMEAN(B2:B11,0.2)

TRIMMEAN関数を使った平均値の求め方は上記の通りです。この例では、除外割合に「0.2」を設定していますので、20%のデータ、つまり上位10%、下位10%のデータが除外されます。

TRIMMEANで極端なデータを除外
上位・下位から10%を除外した平均値
=TRIMMEAN(B2:B11,0.2)

以上、TRIMMEAN関数を使った平均値の求め方です。

あとがき~データのバイアスについて

今回は、TRIMMEAN関数を使ったデータ列の平均値の求め方を記事にしました。

取り上げた事例では、上位・下位からそれぞれ10%のデータを除外するものでしたが、データコンディションによって除外範囲は調整することができます(引数に0.3を設定すれば、上位・下位からそれぞれ15%を除外)。

紹介したように、極端なデータは平均値に影響を与えてしまうことがありますが、本来は簡単にデータの母集団を狭めてしまうのは良くありません。たとえば、台風の日の来客数が減ったということは、その前日は台風に備えて来客数は増えた可能性もあるのです。

誤った認識でデータを作成することをデータ分析の分野では「データバイアス」といい、データの信頼性に大きく関わってくる概念です。

実際のデータ分析の世界では、TRIMMEAN関数が使われることはありません。データを除外するときは、1件1件、精査と根拠が必要だからです。

もし、慎重を期すデータ分析であれば、専門家に依頼または社内の複数人で議論して手法を決めたほうがよいでしょう。

TRIMMEAN関数は、重要性がそれほど高くない分析で使う身近な関数として理解しておきましょう。

目次