データの代表値を求める際に平均値だけでなく中央値も活用することで、外れ値の影響を受けないより正確な分析が可能になります。
中央値はビジネスデータや統計分析において非常に重要な指標のひとつです。
本記事では、エクセルでMEDIAN関数を使って中央値を求める方法を基本から応用まで、条件付き中央値の求め方も含めて詳しく解説いたします。
データ分析の精度をさらに高めたい方に、ぜひお読みいただきたい内容です。
中央値とは何か・平均値との違いを理解しよう
それではまず、中央値の定義と平均値との違いについて解説していきます。
中央値と平均値の違いを正しく理解することで、データの性質に応じて適切な代表値を選択できるようになります。
どちらの代表値を使うかによって分析の結論が大きく変わることも少なくありません。
中央値(メジアン)の定義
中央値とはデータを小さい順に並べた際に、ちょうど中央に位置する値のことです。
データ数が奇数の場合は中央の1つの値、偶数の場合は中央2つの値の平均が中央値になります。
例:データが「10, 20, 30, 40, 100」の場合
中央値(メジアン)= 30(3番目の値)
平均値=(10+20+30+40+100)÷5=40
外れ値「100」の影響で平均値は30より大きくなりますが、中央値は影響を受けません。
平均値と中央値の使い分けポイント
データに外れ値(極端に大きいまたは小さい値)が含まれる場合、平均値は外れ値の影響を強く受けて実態を表しにくくなります。
一方、中央値は外れ値の影響を受けないため、年収・不動産価格・医療費など外れ値が生じやすいデータには中央値のほうが実態を正確に表します。
逆にデータが正規分布に近い場合は平均値も信頼性が高く、中央値と近い値になることが多いです。
分析の目的とデータの性質に応じて、平均値と中央値を使い分けることがデータ分析の基本姿勢といえます。
中央値が特に有効な場面
中央値が特に有効な場面として、給与・売上・年齢など分布に偏りがあるデータの代表値を求める場合が挙げられます。
例えば社員の年収データに役員の高額年収が含まれる場合、平均値では一般社員の実態が見えにくくなりますが、中央値であれば実態に近い値が得られます。
「典型的な値」を知りたい場合は中央値を優先して使うという判断基準を持っておくと分析の質が向上します。
統計レポートや経営分析でも平均値と中央値を併記することで、読む人により正確な情報を伝えることができます。
MEDIAN関数の基本的な使い方
続いては、エクセルでMEDIAN関数を使って中央値を求める基本的な使い方を確認していきます。
MEDIAN関数は非常にシンプルな構文で使いやすく、初心者でもすぐに活用できます。
MEDIAN関数の構文と基本的な使い方
MEDIAN関数の構文は「=MEDIAN(数値1, 数値2, …)」または「=MEDIAN(セル範囲)」です。
例えばA1からA100にデータが入力されている場合、「=MEDIAN(A1:A100)」と入力するだけでその範囲の中央値が求められます。
MEDIAN関数は空白セルと文字列を自動的に無視して数値のみを対象に中央値を計算するため、データが混在していても正確に機能します。
引数は最大255個まで指定でき、複数の範囲を指定して一括で中央値を求めることも可能です。
複数の範囲・データを対象にした中央値の計算
複数の離れた範囲のデータをまとめて中央値の計算対象にしたい場合は、引数をカンマで区切って複数指定します。
「=MEDIAN(A1:A50,C1:C50)」のように入力することで、A列とC列の合計100件のデータの中央値が求められます。
範囲を組み合わせることで非連続なデータの中央値も簡単に求めることができます。
異なるシートのデータを対象にする場合は「=MEDIAN(Sheet1!A:A,Sheet2!A:A)」のようにシート名を指定して参照します。
MEDIAN関数の結果を他の関数と組み合わせて活用する
MEDIAN関数の結果はそのまま他の関数に渡して活用することも可能です。
例えばIF関数と組み合わせて「=IF(A1>MEDIAN(A:A),”上位”,”下位”)」とすることで、各データが中央値より上か下かを自動判定できます。
条件付き書式の条件にMEDIAN関数を使うことで、中央値を上回るセルに自動的に色を付ける視覚的なハイライト機能も実現できます。
このような組み合わせ活用がエクセルのデータ分析力を大きく高めてくれます。
条件付き中央値の求め方と応用テクニック
続いては、特定の条件を満たすデータだけの中央値を求める条件付き中央値の方法を確認していきます。
MEDIANIFという関数はエクセルに存在しないため、配列数式や他の関数との組み合わせで実現する必要があります。
条件付き中央値はデータ分析の実務で頻繁に必要になるテクニックです。
MEDIAN+IF配列数式で条件付き中央値を求める
条件付き中央値を求めるには「=MEDIAN(IF(条件範囲=条件,値範囲))」を配列数式(Ctrl+Shift+Enter)として入力します。
例えばB列が「東京」のデータのみのA列の中央値を求める場合「=MEDIAN(IF(B1:B100=”東京”,A1:A100))」をCtrl+Shift+Enterで入力します。
Excel 2021以降またはMicrosoft 365ではCtrl+Shift+Enterなしで入力できる場合もあります。
この数式はIF関数が条件に一致しない値をFALSEに置き換え、MEDIAN関数がFALSEを無視して条件一致データのみの中央値を返す仕組みです。
複数条件の中央値をAND・OR条件で求める
複数の条件を組み合わせた中央値を求める場合は、IF関数の条件部分に乗算(AND条件)または加算(OR条件)を使います。
AND条件の例として「=MEDIAN(IF((B1:B100=”東京”)*(C1:C100=”男性”),A1:A100))」のように条件を掛け合わせることで、東京かつ男性のデータの中央値が求められます。
条件の数が増えても同様の方法で対応できるため、複雑な絞り込み条件にも応用可能です。
この配列数式はデータ量が多い場合に処理が重くなることがあるため、大量データでは必要最小限の範囲を指定することをおすすめします。
ピボットテーブルとの組み合わせで中央値を分析する
残念ながらピボットテーブルの標準集計には中央値がないため、補助列を追加する方法で対応します。
各カテゴリの中央値をMEDIAN+IF配列数式で別シートに求めておき、その結果をピボットテーブルと並べて表示することでカテゴリ別の中央値分析が可能になります。
グラフを使って平均値と中央値を同じチャートに表示することで、データの分布の偏りを視覚的に示す効果的なレポートが完成します。
分析結果を経営層に報告する際など、視覚的にわかりやすい資料作成にぜひ活用してみましょう。
まとめ
エクセルでMEDIAN関数を使えば中央値を簡単に求めることができ、外れ値の影響を受けない正確なデータ分析が実現します。
条件付き中央値はMEDIAN+IF配列数式で実現でき、複数条件の絞り込みにも対応可能です。
平均値と中央値を使い分けてデータの実態を正確に把握することが、質の高いデータ分析の第一歩といえます。
MEDIAN関数を日常的なデータ分析に積極的に取り入れることで、レポートや集計の信頼性が大幅に向上するでしょう。