統計を学ぶうえで欠かせない概念のひとつが、最頻値です。
最頻値とは、データの中で最も多く登場する値のことを指し、データセットの特徴を把握するための重要な指標として広く活用されています。
平均値や中央値と並ぶ「代表値」のひとつとして、統計処理や日常のデータ解析でも頻繁に登場する概念でしょう。
しかし、「最頻値ってどうやって求めるの?」「度数分布表やヒストグラムから読み取る方法は?」と疑問を感じている方も多いのではないでしょうか。
本記事では、最頻値の基本的な意味から、データセットや度数分布表、ヒストグラムを使った算出方法まで、具体的な手順をわかりやすく解説していきます。
統計初心者の方はもちろん、改めて基礎を固めたい方にも役立つ内容になっていますので、ぜひ最後まで読んでみてください。
最頻値とは何か?その基本的な意味と定義
それではまず、最頻値の基本的な意味と定義について解説していきます。
最頻値とは、一組のデータの中で最も頻繁に現れる値のことです。
英語では「Mode(モード)」と呼ばれ、統計学における代表値のひとつとして位置づけられています。
代表値とは、データ全体の特徴を一つの数値で表すための指標であり、平均値・中央値・最頻値の三つが代表的な例として挙げられます。
たとえば、あるクラスの生徒10人のテストの点数が「60, 70, 70, 80, 80, 80, 90, 90, 100, 100」だったとしましょう。
データ例:60, 70, 70, 80, 80, 80, 90, 90, 100, 100
60 → 1回、70 → 2回、80 → 3回、90 → 2回、100 → 2回
最も多く出現する値 → 80(3回)
したがって、最頻値 = 80
このように、データの中で出現回数が最も多い値を見つけることが、最頻値を求める基本的な考え方です。
最頻値は、数値データだけでなく、カテゴリデータ(例:「好きな色」「選んだ商品の種類」など)にも適用できるのが特徴のひとつでしょう。
平均値が極端な値(外れ値)の影響を受けやすいのに対し、最頻値はデータの分布の「山」を直感的に把握できるという利点があります。
最頻値が複数存在する場合はどうなるか
データによっては、最頻値が複数存在することがあります。
たとえば「10, 20, 20, 30, 30, 40」というデータでは、20と30がそれぞれ2回ずつ登場します。
この場合、最頻値は20と30の二つとなり、これを「多峰性(たほうせい)のデータ」と呼ぶこともあります。
複数の最頻値が存在するときは、それぞれをすべて列挙するのが一般的な取り扱い方です。
統計ソフトやエクセルなどのツールでは、最頻値が複数ある場合の処理方法が異なることもあるため、使用するツールの仕様を確認しておくとよいでしょう。
最頻値と他の代表値との違い
最頻値・平均値・中央値は、いずれもデータの中心的な傾向を示す代表値ですが、それぞれ異なる特性を持っています。
| 代表値 | 定義 | 特徴 |
|---|---|---|
| 平均値 | 全データの合計 ÷ データ数 | 外れ値の影響を受けやすい |
| 中央値(メジアン) | データを並べたときの中央の値 | 外れ値の影響を受けにくい |
| 最頻値(モード) | 最も多く出現する値 | カテゴリデータにも使える |
たとえば年収データのように、一部に極端に高い値が含まれる場合、平均値は実態より高く見えることがあります。
そのようなケースでは、最頻値や中央値の方がデータの実情をより正確に反映することがあるでしょう。
どの代表値を使うべきかは、データの性質や目的によって異なるため、それぞれの特徴を理解したうえで使い分けることが大切です。
最頻値が使われる場面
最頻値は、特に「最も多い選択肢や値を知りたい」場面で役立ちます。
たとえば、アンケート調査での「最も多く選ばれた回答」や、商品販売データでの「最もよく売れたサイズや色」を把握したいときに活用されます。
教育現場では、試験の点数分布においてどの得点帯に生徒が集中しているかを把握するためにも用いられるでしょう。
また、マーケティング分析や品質管理の分野でも、最頻値は重要な統計指標として活用されています。
データセットから最頻値を求める方法と手順
続いては、データセットから最頻値を求める具体的な方法と手順を確認していきます。
データセットから最頻値を求めるには、大きく分けて「手動で数える方法」と「ツールを使う方法」の二つがあります。
まずは手動での基本的な手順を押さえておくことが、統計の理解を深める近道になるでしょう。
手動で最頻値を求める基本ステップ
手動でデータセットから最頻値を求める際は、以下の手順で進めていきます。
ステップ1:データを小さい順(または大きい順)に並べ替える
ステップ2:各値が何回登場するかを数える(度数を調べる)
ステップ3:最も度数が大きい値を探す
ステップ4:その値を最頻値として記録する
たとえば、「3, 7, 5, 3, 9, 3, 5, 7, 3, 5」というデータセットがあるとします。
まずこれを並べ替えると「3, 3, 3, 3, 5, 5, 5, 7, 7, 9」となります。
次に各値の出現回数を調べると、3が4回、5が3回、7が2回、9が1回です。
最も多く出現しているのは「3」(4回)なので、最頻値は3となります。
この手順はシンプルですが、データ数が多くなるほど手間がかかるため、実務では表計算ソフトや統計ソフトの活用が一般的です。
度数を整理して最頻値を見つける方法
データ数が多い場合は、各値の度数を整理した「度数一覧表」を作成すると最頻値が見つけやすくなります。
| 値 | 出現回数(度数) |
|---|---|
| 3 | 4 |
| 5 | 3 |
| 7 | 2 |
| 9 | 1 |
このように表に整理することで、どの値が最も多く出現しているかが一目でわかりやすくなります。
データが大量にある場合でも、表を作ることで視覚的に最頻値を特定しやすくなるでしょう。
また、度数の一覧を作成することは、後述する度数分布表やヒストグラムの作成にも役立つため、統計処理の基礎として習得しておきたいスキルのひとつです。
複数のデータセットで最頻値を比較する方法
複数のデータセットを比較する場面では、それぞれの最頻値を求めて並べることで、データ間の特徴の違いを把握できます。
たとえば、A店とB店の商品の売れ筋サイズを最頻値で比較することで、それぞれの店舗の顧客層の違いが浮かび上がってくることもあるでしょう。
最頻値の比較は、マーケティングや品質管理の場面でもよく用いられる手法です。
複数グループのデータを比較する際には、最頻値だけでなく平均値や中央値も合わせて確認すると、より多角的な分析が可能になります。
度数分布表から最頻値を求める方法
続いては、度数分布表から最頻値を求める方法を確認していきます。
度数分布表は、データを一定の区間(階級)に分けて、各階級に含まれるデータの個数(度数)をまとめた表のことです。
度数分布表を使うことで、大量のデータでも最頻値を効率的に求めることができます。
度数分布表の構成要素と読み方
度数分布表の基本的な構成要素を理解しておきましょう。
| 用語 | 意味 |
|---|---|
| 階級 | データを分類する区間(例:60以上70未満) |
| 階級幅 | 各階級の幅(例:10点刻み) |
| 度数 | 各階級に含まれるデータの個数 |
| 相対度数 | 度数 ÷ 全データ数(割合) |
| 累積度数 | 最初の階級から当該階級までの度数の合計 |
度数分布表において、最頻値に相当する階級を「最頻階級」または「モード階級」と呼びます。
度数分布表の場合、個々の値ではなく階級を用いて最頻値(最頻階級)を特定するのが一般的な方法です。
階級の中央の値を「階級値」と呼び、最頻階級の階級値を最頻値の代表として用いることも多いでしょう。
度数分布表から最頻値を求める具体的な手順
度数分布表から最頻値を求める手順を、具体的な例で確認しましょう。
例:あるクラス30人のテスト点数(10点刻みの階級)
50以上60未満 → 度数:3
60以上70未満 → 度数:7
70以上80未満 → 度数:12(最大)
80以上90未満 → 度数:6
90以上100以下 → 度数:2
最頻階級:70以上80未満 階級値(中央値):75
最頻値 = 75
このように、度数が最大の階級を「最頻階級」として特定し、その階級の中央の値(階級値)を最頻値として読み取ります。
階級値は「(階級の下限 + 階級の上限) ÷ 2」で求めることができます。
上記の例では「(70 + 80) ÷ 2 = 75」となるため、最頻値は75と求められます。
度数分布表における最頻値の求め方のポイント:度数が最も大きい階級(最頻階級)を見つけ、その階級値(上限と下限の平均)を最頻値とする。度数が同じ階級が複数ある場合は、最頻値も複数存在することになる。
階級幅が異なる場合の注意点
度数分布表において、階級幅が一定でない場合は注意が必要です。
階級幅が異なると、単純に度数が大きい階級を最頻階級とするのは適切でないことがあります。
その場合は「度数 ÷ 階級幅」で求められる「度数密度」を比較して最頻階級を特定するのが正確な方法です。
実務や試験では階級幅が等しいケースがほとんどですが、データを自分で整理する際には階級幅の設定にも注意を払いましょう。
ヒストグラムから最頻値を読み取る方法
続いては、ヒストグラムから最頻値を読み取る方法を確認していきます。
ヒストグラムとは、度数分布表をグラフ化したもので、横軸に階級、縦軸に度数をとった棒グラフの一種です。
視覚的にデータの分布を把握しやすいため、最頻値を直感的に読み取ることができるでしょう。
ヒストグラムの構造と最頻値の関係
ヒストグラムでは、最も高い棒(バー)に対応する階級が最頻階級です。
その階級の中央値(階級値)が最頻値となります。
ヒストグラムの形状によって、データの分布の特徴を把握することもできます。
| ヒストグラムの形状 | データの特徴 | 最頻値の位置 |
|---|---|---|
| 左右対称(釣り鐘型) | 正規分布に近い | 中央付近 |
| 右に偏った形(右裾が長い) | 低い値に集中 | 左側(低い値側) |
| 左に偏った形(左裾が長い) | 高い値に集中 | 右側(高い値側) |
| 二つの山がある形(双峰型) | 二つの集団が混在 | 二か所に存在 |
ヒストグラムを読む際は、棒の高さ(度数)だけでなく、全体的な形状にも注目することが大切です。
データの分布がどのような形をしているかを把握することで、最頻値の持つ意味をより深く理解できるでしょう。
ヒストグラムから最頻値を読み取る具体的な手順
ヒストグラムから最頻値を読み取る手順は、以下のとおりです。
手順1:ヒストグラムの縦軸(度数)を確認する
手順2:最も高い棒(最大度数の棒)を探す
手順3:その棒に対応する横軸の階級を確認する
手順4:その階級の階級値(上限と下限の中央)を求める
手順5:求めた階級値が最頻値となる
例として、横軸が「点数(10点刻み)」、縦軸が「人数(度数)」のヒストグラムがあるとします。
最も高い棒が「70〜80点」の区間であった場合、その階級値は「(70 + 80) ÷ 2 = 75」となります。
したがって、最頻値は75点と読み取ることができます。
ヒストグラムと度数分布表の連携
ヒストグラムは度数分布表を視覚化したものですので、両者を合わせて確認することでより正確に最頻値を把握できます。
ヒストグラムで最頻階級を視覚的に特定し、度数分布表で詳細な数値を確認するという使い方が実践的でしょう。
統計ソフトやエクセルでは、度数分布表とヒストグラムを同時に作成できる機能があるため、積極的に活用することをおすすめします。
データを可視化することで、最頻値だけでなくデータ全体の傾向や外れ値の存在なども発見しやすくなるでしょう。
最頻値を正確に求めるための注意点と実践ポイント
続いては、最頻値を正確に求めるための注意点と実践ポイントを確認していきます。
最頻値の概念はシンプルに見えますが、実際のデータ処理では注意すべきポイントがいくつかあります。
正確な算出と適切な活用のために、以下の点を意識しておくとよいでしょう。
データの種類によって最頻値の意味が変わる
最頻値は、数値データだけでなくカテゴリデータにも適用できる汎用性の高い指標です。
しかし、データの種類によって最頻値の解釈や求め方が異なることに注意が必要です。
| データの種類 | 最頻値の求め方 | 例 |
|---|---|---|
| 離散データ(数値) | 出現回数が最多の値 | テストの点数 |
| 連続データ(数値) | 度数分布表の最頻階級の階級値 | 身長・体重 |
| カテゴリデータ | 最も多く選ばれたカテゴリ | 好きな色・職業など |
連続データは個々の値がすべて異なることが多いため、そのままでは最頻値を求めることが難しく、度数分布表に整理してから最頻値を特定するのが一般的です。
カテゴリデータの場合は、数値的な大小関係は関係なく、単純に最も多く登場するカテゴリが最頻値となります。
外れ値が最頻値に与える影響
最頻値は、外れ値(異常に大きいまたは小さい値)の影響をほとんど受けないという特性があります。
これは平均値との大きな違いであり、外れ値が多いデータでは最頻値の方が実態を反映しやすい場合があります。
たとえば、従業員10人の月収データに一人だけ非常に高い報酬を得る幹部がいる場合、平均値は高くなりすぎてしまいます。
そのような場合でも、最頻値は一般的な従業員の収入水準をより正確に示すことができるでしょう。
最頻値活用のポイント:最頻値は外れ値の影響を受けにくく、カテゴリデータにも適用できる汎用性の高い代表値です。ただし、最頻値だけで全体像を判断するのではなく、平均値・中央値と合わせて多角的に分析することで、より正確なデータ解釈が可能になります。
最頻値を使ったデータ解析の実践例
最頻値は実際のビジネスや研究の場でどのように活用されているのでしょうか。
たとえば、アパレル業界では最もよく売れるサイズや色の最頻値を分析することで、在庫管理や生産計画に役立てています。
医療分野では、患者の症状の出現頻度を最頻値で把握することで、疾患のパターンを分析することができます。
教育分野では、試験の得点分布における最頻値を確認することで、授業の難易度調整の指標として活用することも可能です。
このように最頻値は、さまざまな分野でデータの特徴を素早く把握するための強力なツールとなっています。
統計処理の基本である最頻値の算出方法をしっかりとマスターすることで、データ解析のスキルを大きく高めることができるでしょう。
まとめ
本記事では、最頻値の求め方と計算手順について、データセット・度数分布表・ヒストグラムのそれぞれを使った方法を詳しく解説しました。
最頻値とは、データの中で最も多く登場する値のことであり、統計における重要な代表値のひとつです。
データセットから手動で求める場合は、各値の出現回数を数えて最大のものを選ぶだけというシンプルな手順で算出できます。
度数分布表からは最頻階級を特定し、その階級値を最頻値として読み取ることができます。
ヒストグラムでは、最も高い棒に対応する階級が最頻階級であり、その階級値が最頻値となります。
最頻値は外れ値の影響を受けにくく、カテゴリデータにも適用できる汎用性の高い指標です。
平均値・中央値と合わせて最頻値を活用することで、データの特徴をより多角的かつ正確に把握できるでしょう。
本記事を参考に、最頻値の正しい求め方と活用法を身につけていただければ幸いです。