統計分析を行ううえで、平均値・中央値・最頻値の三つの代表値をどのように使い分けるべきか、迷ったことはないでしょうか。
「なんとなく平均値を使っているけど、本当にそれで正しいの?」「中央値と最頻値はどういうときに使うの?」という疑問を持つ方も多いはずです。
三つの代表値はいずれもデータの中心的な傾向を示す統計指標ですが、それぞれに異なる特性と適した適用場面があります。
目的に合った代表値を選ばなければ、データの実態を誤って解釈してしまうリスクがあるでしょう。
本記事では、平均値・中央値・最頻値それぞれの特徴と計算方法を整理したうえで、データ分布の形状に応じた正しい使い分け方と選び方をわかりやすく解説していきます。
ビジネス・学術研究・日常のデータ活用まで幅広く役立てていただける内容ですので、ぜひ最後まで読んでみてください。
三つの代表値の特徴と計算方法を改めて整理しよう
それではまず、平均値・中央値・最頻値それぞれの特徴と計算方法を改めて整理して解説していきます。
三つの代表値の性質を正確に把握することが、適切な使い分けの第一歩です。
代表値の選択ひとつでデータの解釈が大きく変わることを念頭に置いておきましょう。
平均値の計算方法と特徴
平均値(算術平均)は、すべてのデータの合計をデータの個数で割って求める最も基本的な代表値です。
平均値の計算式:
平均値 = データの合計 ÷ データの個数
例:3, 5, 7, 8, 12 の平均値
= (3 + 5 + 7 + 8 + 12) ÷ 5 = 35 ÷ 5 = 7
平均値の主な特徴は次のとおりです。
| 特徴 | 内容 |
|---|---|
| 外れ値の影響 | 大きく受ける(外れ値で大きく変動する) |
| 計算の容易さ | 簡単(足して割るだけ) |
| 活用できる統計分析 | 分散・標準偏差・回帰分析など多数 |
| 適用データ型 | 数値データのみ |
平均値は統計分析の基礎として幅広く活用されていますが、外れ値(異常に大きいまたは小さい値)が含まれるデータでは実態から乖離しやすいという弱点があります。
たとえば「1, 2, 3, 4, 100」の平均値は22ですが、この値が「典型的な値」を表しているとは言いにくいでしょう。
中央値の計算方法と特徴
中央値(メジアン)は、データを昇順に並べたときにちょうど中央に位置する値です。
中央値の計算式:
データ数が奇数の場合:中央の1つの値
例:3, 5, 7, 9, 11 → 中央値 = 7(3番目の値)
データ数が偶数の場合:中央の2つの値の平均
例:3, 5, 7, 9 → 中央値 = (5 + 7) ÷ 2 = 6
中央値の主な特徴は、外れ値の影響をほとんど受けないことです。
「1, 2, 3, 4, 100」の中央値は3であり、外れ値「100」を除いても同じ結果となるため、実態を正確に反映しています。
中央値は「半数のデータがこの値以下、残り半数はこの値以上」という意味を持つため、所得分布や不動産価格などの偏ったデータに特に有効です。
最頻値の計算方法と特徴
最頻値(モード)は、データの中で最も多く出現する値のことです。
最頻値の求め方:
データ:5, 7, 7, 8, 9, 9, 9, 10, 11
各値の出現回数:5→1回, 7→2回, 8→1回, 9→3回, 10→1回, 11→1回
最も多く出現する値 → 9(3回)
最頻値 = 9
最頻値は外れ値の影響をほとんど受けず、数値データだけでなくカテゴリデータ(文字列データ)にも適用できる唯一の代表値です。
ただし、最頻値が複数存在するケースや、すべての値が1回ずつしか出現しない場合は最頻値が定まらないという注意点もあります。
データ分布の形状と最適な代表値の選び方
続いては、データ分布の形状に応じて最適な代表値をどう選ぶかを確認していきます。
代表値を選ぶ際の基本的な考え方は、データの分布の形を確認してから判断することです。
分布の形によって、どの代表値がデータの実態を最もよく表すかが変わってきます。
正規分布(対称分布)のデータへの代表値の選び方
データが正規分布(釣り鐘型の左右対称な分布)に近い場合、平均値・中央値・最頻値はほぼ一致します。
このような場合は、三つのどの代表値を使っても大きな誤りはなく、計算が容易な平均値が最もよく使われます。
正規分布に近いデータの例としては、自然界や社会現象に多く見られる身長・体重・IQ・製品の寸法誤差などが挙げられます。
正規分布であれば平均値を基準とした分散・標準偏差などの詳細な統計分析も適切に行えるため、分析の幅が広がるでしょう。
歪んだ分布のデータへの代表値の選び方
データが右歪み(右裾が長い)または左歪みの非対称な分布の場合、平均値は実態から大きく乖離することがあります。
このような場合は、中央値または最頻値の方がデータの実態を正確に表す代表値として機能します。
| 分布の形状 | 推奨する代表値 | 理由 |
|---|---|---|
| 正規分布(対称) | 平均値 | 三つがほぼ一致し、活用できる分析が多い |
| 右歪み(富裕層が少数いる年収など) | 中央値または最頻値 | 平均値が外れ値に引き上げられるため |
| 左歪み(高得点帯に集中する試験結果など) | 中央値または最頻値 | 平均値が実態より低くなるため |
| 双峰型(二集団が混在) | 最頻値(複数)またはグループ分けして分析 | 単一の代表値でデータを表すのが難しい |
| カテゴリデータ | 最頻値のみ | 数値計算ができないため最頻値が唯一の選択肢 |
歪んだ分布のデータに平均値を使うと、「高所得者が少数いる国の年収は平均値で見ると高く見える」というような誤解が生じやすくなります。
このような状況では中央値の方が、一般的な生活水準を正確に反映した代表値となるでしょう。
外れ値の有無による代表値の選択基準
外れ値(データの大多数から大きく離れた値)の有無も、代表値の選択に大きく影響します。
外れ値が含まれているデータに平均値を用いると、実態とかけ離れた値が「中心」として示されてしまう危険があります。
外れ値の影響を確認する例:
データ:10, 12, 13, 14, 15, 100
平均値 = (10+12+13+14+15+100) ÷ 6 = 164 ÷ 6 ≒ 27.3
中央値 = (13+14) ÷ 2 = 13.5
最頻値 = なし(すべての値が1回ずつ)
→ 外れ値100の影響で平均値27.3は実態を反映していない
→ 中央値13.5の方が典型的な値を正確に示している
このように外れ値が存在する場合は、中央値を優先して使用するのが統計的に適切な判断です。
各代表値の適用場面と実際の活用事例
続いては、平均値・中央値・最頻値それぞれが実際にどのような場面で活用されているかを確認していきます。
具体的な活用事例を知ることで、代表値の選び方がより明確にイメージできるようになるでしょう。
平均値が活躍する場面と事例
平均値は以下のような場面で特に有効に機能します。
| 活用場面 | 事例 |
|---|---|
| 製品の品質管理 | 部品の寸法の平均値で製造精度を管理する |
| 気象データの分析 | 月間平均気温・月間平均降水量の算出 |
| 学校の成績管理 | クラスの試験の平均点を算出して授業改善に活用する |
| スポーツの成績分析 | 選手の打率・得点平均などの算出 |
平均値は計算が容易で、数学的な性質(分散・標準偏差・回帰分析など)との親和性が高いため、外れ値が少ない均一なデータの分析において最も多く使われる代表値です。
中央値が活躍する場面と事例
中央値は以下のような場面で特に有効に機能します。
| 活用場面 | 事例 |
|---|---|
| 年収・所得の分析 | 「年収の中央値」で一般的な収入水準を把握する |
| 不動産価格の分析 | 地域の住宅価格の中央値で標準的な価格帯を把握する |
| 医療データの分析 | 入院日数・手術時間の中央値で標準的なケースを把握する |
| 資産評価 | 一部の高額資産が含まれる場合の標準的な評価額の把握 |
ニュースや政府統計で「年収の中央値は〇〇万円」という表現がよく使われますが、これは一部の高所得者の影響を排除し、より実態に近い収入水準を示すためです。
最頻値が活躍する場面と事例
最頻値は以下のような場面で特に有効に機能します。
| 活用場面 | 事例 |
|---|---|
| ファッション・衣料品の販売管理 | 最もよく売れるサイズや色の特定 |
| アンケート・調査分析 | 最も多く選ばれた回答の特定 |
| 顧客属性の分析 | 最も多い年齢層・職業・地域の把握 |
| 製品の規格設定 | 最も多く見られるサイズや仕様の標準化 |
マーケティング分野では、「最もよく選ばれる商品・サービス・属性」を把握するために最頻値が積極的に活用されています。
特にカテゴリデータの分析では最頻値が唯一の代表値となるため、実務での重要性は高いといえるでしょう。
三つの代表値を組み合わせた多角的なデータ分析
続いては、三つの代表値を組み合わせることで実現できる多角的なデータ分析の方法を確認していきます。
一つの代表値だけに頼るのではなく、三つを合わせて確認することで、データの全体像がより明確に見えてきます。
複数の代表値を組み合わせることが、データの正確な解釈につながるでしょう。
代表値の差から読み取れるデータの特性
平均値・中央値・最頻値の値の差を確認することで、データの偏りや外れ値の有無を把握することができます。
代表値の差からわかるデータの特性:
平均値 = 中央値 = 最頻値 → 正規分布に近い均一なデータ
平均値 > 中央値 > 最頻値 → 右歪みのデータ(高い値の外れ値が存在する可能性)
平均値 < 中央値 < 最頻値 → 左歪みのデータ(低い値の外れ値が存在する可能性)
最頻値が複数 → 双峰型データ(二つのグループが混在している可能性)
この関係を理解しておくことで、データを初めて見たときでも分布の形状を素早く推測できるようになります。
統計レポートに複数の代表値を並べて記載することは、データの透明性を高めるうえでも重要な実践です。
代表値を選ぶための実践的なチェックリスト
代表値選択のチェックリスト:まずデータが数値かカテゴリかを確認する。カテゴリデータには最頻値のみが使える。数値データの場合は外れ値の有無を確認する。外れ値があれば中央値または最頻値を優先する。外れ値がなければ分布の形(対称か歪みがあるか)を確認する。対称分布(正規分布)であれば平均値を使う。歪んだ分布であれば中央値を使う。「最も多い値・典型的な選択肢」を知りたいときは最頻値を使う。
データ分析レポートでの代表値の記載方法
データ分析レポートでは、一つの代表値だけでなく複数の代表値を並記することが推奨されます。
たとえば「平均値:75点、中央値:72点、最頻値:70点」のように三つをセットで記載することで、読者がデータの分布の形状をイメージしやすくなります。
三つの値に大きなズレがある場合は、その背景にある外れ値や偏りについても補足説明を加えることで、データの透明性と信頼性が高まるレポートになるでしょう。
代表値の選択と記載の工夫が、質の高いデータ分析の基本といえます。
まとめ
本記事では、平均値と中央値と最頻値の使い分けについて、それぞれの特徴と計算方法、適した場面と選び方を詳しく解説しました。
平均値はデータ全体を反映しますが外れ値の影響を受けやすく、正規分布に近いデータに適しています。
中央値は外れ値の影響を受けにくく、偏ったデータや所得・不動産価格などの分析に適しています。
最頻値は最も多く出現する値であり、カテゴリデータや「最も典型的な値」を知りたい場面に特に有効です。
データ分布の形状(正規分布・右歪み・左歪み・双峰型)を確認してから代表値を選ぶことで、データの実態を正確に反映した分析が可能になります。
三つの代表値を組み合わせた多角的な分析が、より正確でわかりやすいデータ解釈の基本となるでしょう。
本記事を参考に、目的とデータの性質に合った代表値を選択し、統計分析のスキルをぜひ高めていただければ幸いです。