統計を学ぶ際、「最頻値と中央値の違いって何だろう?」と疑問を感じる方は少なくないでしょう。
最頻値・中央値・平均値はいずれもデータの中心的な傾向を表す「代表値」ですが、それぞれの意味や計算方法、適した使い場面が異なります。
それぞれの特性を正しく理解せずに代表値を選んでしまうと、データの実態を誤って解釈してしまう危険性があります。
本記事では、最頻値と中央値(メジアン)の違いを基本から丁寧に解説し、平均値も含めた三つの代表値の特徴と適切な使い分け方をわかりやすく説明していきます。
統計を学ぶ方だけでなく、ビジネスや研究でデータを扱う方にも役立つ内容ですので、ぜひ参考にしてください。
最頻値と中央値・平均値の基本的な違いを理解しよう
それではまず、最頻値と中央値・平均値それぞれの基本的な意味と違いについて解説していきます。
三つの代表値はいずれもデータの特徴を一つの数値で表すものですが、「何を表しているか」という点で大きな違いがあります。
それぞれの定義を正確に把握することが、正しいデータ解釈の第一歩です。
最頻値(モード)の定義と特徴
最頻値とは、データの中で最も多く出現する値のことです。
英語では「Mode(モード)」と呼ばれ、データの中心というよりも「最も頻繁に現れるパターン」を示す指標です。
最頻値の主な特徴は以下のとおりです。
| 特徴 | 内容 |
|---|---|
| 計算方法 | 出現回数が最も多い値を探す |
| 外れ値の影響 | ほぼ受けない |
| 複数存在の可否 | 複数の最頻値が存在することがある |
| 適用可能なデータ型 | 数値データ・カテゴリデータ両方 |
最頻値は、特に「最も多い選択肢を知りたい」場面や、データが正規分布していない場合に有効です。
たとえば「最もよく売れた商品のサイズ」や「最も多い年齢層」を把握したいときに最頻値が役立つでしょう。
中央値(メジアン)の定義と特徴
中央値とは、データを昇順(または降順)に並べたときにちょうど真ん中に位置する値のことです。
英語では「Median(メジアン)」と呼ばれ、データの「中央」を示す指標です。
中央値の求め方:
データ数が奇数の場合:並べ替えた中央の1つの値
例:3, 5, 7, 9, 11 → 中央値 = 7
データ数が偶数の場合:中央の2つの値の平均
例:3, 5, 7, 9 → 中央値 = (5 + 7) ÷ 2 = 6
中央値の最大の特徴は、外れ値(極端に大きいまたは小さい値)の影響を受けにくいことです。
たとえば「1, 2, 3, 4, 100」というデータでは、平均値は22となりますが、中央値は3であり実態をより正確に反映しています。
平均値の定義と特徴
平均値とは、すべてのデータの合計をデータの個数で割った値です。
英語では「Mean(ミーン)」または「Average(アベレージ)」と呼ばれ、最もよく使われる代表値のひとつです。
平均値は計算が直感的でわかりやすい反面、外れ値の影響を大きく受けやすいという弱点があります。
大多数のデータが集中している範囲から外れた値がひとつあるだけで、平均値が大きく変わってしまうことがあるでしょう。
最頻値・中央値・平均値の計算方法を具体例で比較
続いては、最頻値・中央値・平均値の計算方法を具体的な例を用いて比較しながら確認していきます。
実際の数値で三つの代表値を計算することで、それぞれの違いがより明確に見えてくるでしょう。
シンプルなデータセットでの計算例
データ例:10人のテスト点数
50, 60, 70, 70, 70, 80, 80, 90, 90, 100
平均値 = (50+60+70+70+70+80+80+90+90+100) ÷ 10 = 760 ÷ 10 = 76
中央値 = 5番目と6番目の平均 = (70+80) ÷ 2 = 75
最頻値 = 70(3回出現、最多)
このデータでは、三つの代表値がそれぞれ異なる値(76・75・70)となっています。
データが比較的均一に分布している場合、三つの代表値は近い値になる傾向があります。
外れ値がある場合の代表値の変化
外れ値を含むデータ例:
50, 60, 70, 70, 70, 80, 80, 90, 100, 500(最後の1人が極端に高い)
平均値 = (50+60+70+70+70+80+80+90+100+500) ÷ 10 = 1170 ÷ 10 = 117
中央値 = (70+80) ÷ 2 = 75
最頻値 = 70(変化なし)
外れ値「500」が加わることで、平均値は76から117へと大きく上昇しています。
一方、中央値(75)と最頻値(70)は外れ値の影響をほとんど受けず、ほぼ変化がありません。
このことから、外れ値が含まれるデータでは平均値より中央値や最頻値の方がデータの実態を反映しやすいことがわかります。
三つの代表値の特性まとめ
| 代表値 | 外れ値の影響 | 計算の容易さ | カテゴリデータへの適用 |
|---|---|---|---|
| 平均値 | 大きく受ける | 簡単 | 不可 |
| 中央値(メジアン) | ほぼ受けない | やや手間 | 順序データには可 |
| 最頻値(モード) | 受けない | 簡単 | 可 |
三つの代表値にはそれぞれ異なる特性があり、データの性質や分析の目的に応じて使い分けることが重要です。
最頻値と中央値の使い分け方と適した場面
続いては、最頻値と中央値をどのような場面でどう使い分けるべきかを確認していきます。
代表値の選択は、データの性質と分析目的によって決まります。
適切な代表値を選ぶことが、正確なデータ解釈につながるのです。
最頻値が適している場面
最頻値は以下のような場面に特に適しています。
| 場面 | 理由 |
|---|---|
| カテゴリデータの分析 | 数値計算が必要なく、最多選択肢を把握できる |
| 最も人気のある選択肢を知りたいとき | 頻度が最大のカテゴリが一目でわかる |
| データが多峰性(複数の山がある)のとき | 複数の最頻値で異なるグループを把握できる |
| 外れ値が多いデータ | 外れ値の影響を受けずに中心傾向を把握できる |
たとえば、消費者アンケートで「好きなブランドカラー」を調査する場合、最頻値が最も多く選ばれた色を示してくれるため非常に有効です。
また、靴のサイズや服のサイズなどの商品管理においても、最頻値は在庫計画を立てるうえで重要な指標となるでしょう。
中央値(メジアン)が適している場面
中央値は以下のような場面に特に適しています。
| 場面 | 理由 |
|---|---|
| 収入・資産データの分析 | 一部の富裕層による外れ値の影響を排除できる |
| 不動産価格の分析 | 高額物件による偏りを排除した中心を把握できる |
| 外れ値が含まれるデータ | 極端な値の影響を受けずに中央を示せる |
| 順序尺度データ(5段階評価など) | 数値間の間隔が一定でないデータにも適用できる |
特に「年収の中央値」という表現は、ニュースや統計レポートでよく使われており、一部の高所得者に引っ張られない実態に近い収入水準を示すのに役立っています。
中央値は「半数以上の人がこの値以下(または以上)」という意味を持つため、社会統計の文脈でも重要な指標です。
平均値が適している場面
平均値は以下のような場面で最も効果的に機能します。
外れ値がほとんどなく、データが正規分布に近い場合は、平均値がデータの中心を最もよく表す代表値になります。
たとえば、工場での製品の寸法管理や、気温・降水量などの気象データ、学校のテストの平均点などは平均値が実態をよく反映しやすいデータです。
また、平均値は後述する標準偏差や分散といった他の統計指標の計算にも使われるため、統計分析の基礎として欠かせない指標です。
データ分布と代表値の関係を理解しよう
続いては、データの分布の形と各代表値の関係について確認していきます。
データの分布の形によって、最頻値・中央値・平均値の位置関係が変わります。
この関係を理解することで、データを見ただけにどの代表値が適切かを判断しやすくなるでしょう。
正規分布(対称分布)の場合
データが正規分布(釣り鐘型の対称な分布)に近い場合、最頻値・中央値・平均値はほぼ同じ値になります。
このような場合は、三つのどの代表値を使っても実態と大きく乖離することはないでしょう。
正規分布は身長・体重・IQなど多くの自然現象で見られるため、日常的なデータ分析では平均値が有効なケースが多いです。
歪んだ分布(非対称分布)の場合
データが右に歪んでいる(右裾が長い)場合、代表値の大小関係は「最頻値 < 中央値 < 平均値」となるのが一般的です。
これは高所得者が少数いることで平均値が引き上げられる所得分布などで典型的に見られる現象です。
分布の形と代表値の選び方のポイント:右歪みや左歪みのデータ(非対称分布)では中央値または最頻値が適切です。正規分布(対称分布)に近い場合は平均値も有効です。カテゴリデータには最頻値が唯一の選択肢となります。データを可視化し、分布の形を確認してから代表値を選ぶことが正確な統計指標の活用につながります。
実際のデータ分析での代表値選択の考え方
実際のデータ分析では、一つの代表値だけに頼るのではなく、三つの代表値を比較することでデータの偏りや外れ値の有無を把握することができます。
平均値と中央値の差が大きい場合は、外れ値の存在やデータの偏りを疑うサインです。
最頻値・中央値・平均値を組み合わせた多角的な分析が、より正確なデータ解釈を実現します。
まとめ
本記事では、最頻値と中央値の違いについて、平均値も合わせて三つの代表値の特徴と使い分けを詳しく解説しました。
最頻値はデータの中で最も多く出現する値であり、カテゴリデータや外れ値が多いデータに特に有効です。
中央値(メジアン)はデータを並べたときの中央の値であり、外れ値の影響を受けにくいという強みがあります。
平均値はすべてのデータを反映した指標ですが、外れ値の影響を大きく受けやすい点に注意が必要です。
三つの代表値はデータの性質や分析目的によって使い分けることが大切であり、複数の代表値を比較することでデータの特徴をより正確に把握できます。
正しい代表値の選択が、正確なデータ解釈と適切な意思決定につながるでしょう。
本記事を参考に、最頻値・中央値・平均値の違いと使い分けをしっかりと理解し、統計分析に役立てていただければ幸いです。