統計処理の中でも、度数分布表から最頻値を求める方法は、データ解析の基礎として非常に重要なスキルです。
大量のデータをそのまま扱うのは難しくても、度数分布表に整理することでデータの傾向が見えやすくなり、最頻値も効率的に算出できます。
「階級って何?」「度数と相対度数の違いは?」「最頻階級から最頻値をどう求めるの?」といった疑問を持っている方も多いでしょう。
本記事では、度数分布表の基本的な構造から、実際に最頻値を求めるための具体的な手順まで、わかりやすく丁寧に解説していきます。
学校の授業から実務のデータ整理まで役立つ内容ですので、ぜひ最後まで読んでみてください。
度数分布表の基本構造と最頻値の求め方の概要
それではまず、度数分布表の基本的な構造と、そこから最頻値を求める方法の概要について解説していきます。
度数分布表は、大量のデータを見やすく整理するための統計ツールであり、最頻値を求めるためには不可欠な基礎知識です。
度数分布表とは何か
度数分布表とは、データを一定の区間(階級)に分け、各区間に含まれるデータの個数(度数)をまとめた表のことです。
たとえば、100人のテストの点数データを「50点以上60点未満」「60点以上70点未満」…と10点刻みの階級に分けて、各階級に何人が属するかをまとめたものが度数分布表です。
大量のデータも度数分布表に整理することで、データの分布の形や傾向を一目で把握できるようになります。
度数分布表の構成要素
| 用語 | 読み方 | 意味 |
|---|---|---|
| 階級 | かいきゅう | データを分類する区間(例:60以上70未満) |
| 階級幅 | かいきゅうはば | 各階級の幅の大きさ(例:10) |
| 階級値 | かいきゅうち | 各階級の中央の値(上限と下限の平均) |
| 度数 | どすう | 各階級に属するデータの個数 |
| 相対度数 | そうたいどすう | 度数 ÷ 全データ数(割合) |
| 累積度数 | るいせきどすう | 最初の階級から当該階級までの度数の合計 |
これらの構成要素をしっかり理解することが、度数分布表から正確に最頻値を読み取るための第一歩です。
最頻値を求めるうえでの重要な概念「最頻階級」
度数分布表から最頻値を求める場合、まず「最頻階級(さいひんかいきゅう)」を特定することが重要です。
最頻階級とは、度数分布表の中で最も度数が大きい階級のことです。
最頻階級の階級値(上限と下限の平均)を最頻値として用いるのが一般的な方法です。
この手順を理解することで、どんな度数分布表からも最頻値を求められるようになるでしょう。
度数分布表を作成してから最頻値を求める手順
続いては、生データから度数分布表を作成し、そこから最頻値を求めるまでの具体的な手順を確認していきます。
実際にデータを整理するプロセスを理解することで、最頻値の求め方がより深く定着するでしょう。
生データから度数分布表を作成するステップ
度数分布表作成の手順:
ステップ1:データの最大値と最小値を確認する
ステップ2:階級幅を決定する(データの範囲に応じて5〜10刻みなどを選択)
ステップ3:各階級の範囲を設定する(重複なく、すべてのデータが含まれるように)
ステップ4:各データを対応する階級に振り分ける
ステップ5:各階級の度数(個数)を数える
ステップ6:度数分布表として整理する
たとえば、30人のテスト点数データを使って度数分布表を作成する場合、まずデータの最大値・最小値を確認し、適切な階級幅(例:10点刻み)を設定します。
その後、各点数が各階級に何個属するかを数えて表にまとめていきます。
この作業を丁寧に行うことで、正確な度数分布表が完成します。
具体的な度数分布表の例と最頻値の特定
例:30人のテスト点数の度数分布表
| 階級 | 階級値 | 度数(人数) | 相対度数 |
|---|---|---|---|
| 40以上50未満 | 45 | 2 | 0.07 |
| 50以上60未満 | 55 | 4 | 0.13 |
| 60以上70未満 | 65 | 8 | 0.27 |
| 70以上80未満 | 75 | 11 | 0.37 |
| 80以上90未満 | 85 | 4 | 0.13 |
| 90以上100以下 | 95 | 1 | 0.03 |
| 合計 | ― | 30 | 1.00 |
この度数分布表を見ると、「70以上80未満」の階級の度数が11と最も大きいことがわかります。
この階級が最頻階級であり、その階級値は「(70 + 80) ÷ 2 = 75」です。
したがって、この度数分布表から求められる最頻値は「75」となります。
相対度数を使って最頻値を確認する方法
相対度数(各階級の度数 ÷ 全体のデータ数)を使っても、最頻階級を特定することができます。
相対度数が最も大きい階級が最頻階級となり、その階級値が最頻値です。
度数と相対度数のどちらを使っても最頻階級は同じになるため、目的に合わせて使い分けると良いでしょう。
相対度数を使うことで、異なるデータ数のグループ間でも比較しやすくなるという利点があります。
階級幅の設定と最頻値への影響
続いては、度数分布表を作成する際の「階級幅の設定」と、それが最頻値に与える影響について確認していきます。
実は、階級幅の設定の仕方によって最頻値(最頻階級)が変わることがあります。
適切な階級幅の設定が、正確な統計処理のカギとなります。
適切な階級幅を選ぶための基準
階級幅は、データの範囲とデータ数に応じて適切に設定することが重要です。
| データ数の目安 | 推奨する階級数 | 参考となるルール |
|---|---|---|
| 〜50個 | 5〜7階級 | スタージェスの公式 |
| 50〜100個 | 7〜10階級 | スタージェスの公式 |
| 100〜200個 | 10〜12階級 | スタージェスの公式 |
| 200個以上 | 12〜15階級以上 | データの性質に応じて調整 |
「スタージェスの公式」とは、適切な階級数を「1 + log₂(n)」で求める方法であり、データ数に応じた適正な階級数の目安として統計学でよく使われます。
階級幅が狭すぎると各階級の度数が少なくなり最頻値が不安定になり、広すぎるとデータの細かい分布が見えなくなります。
階級幅の違いによる最頻値の変化の例
同じデータでの階級幅の違いによる影響の例:
データ:50〜100点の100人分のテスト点数
階級幅5点の場合:最頻階級が「70以上75未満」→ 最頻値 = 72.5
階級幅10点の場合:最頻階級が「70以上80未満」→ 最頻値 = 75
階級幅20点の場合:最頻階級が「60以上80未満」→ 最頻値 = 70
このように、同じデータでも階級幅の設定によって最頻値の値が変わることがわかります。
度数分布表から求める最頻値はあくまでも「近似値」であり、階級幅の設定に依存することを理解しておくことが重要です。
特に連続データを分析する際には、階級幅の選択に慎重を期すことが求められます。
階級幅が一定でない度数分布表への対応
度数分布表の階級幅がすべて等しくない場合(不等間隔の階級幅)は、単純に度数の大小で最頻階級を判断することは適切ではありません。
この場合は、「度数密度(度数 ÷ 階級幅)」を計算し、度数密度が最大の階級を最頻階級とする方法が正確です。
度数密度の計算例:
階級A:50以上60未満(階級幅10)、度数10 → 度数密度 = 10 ÷ 10 = 1.0
階級B:60以上80未満(階級幅20)、度数16 → 度数密度 = 16 ÷ 20 = 0.8
度数は階級Bの方が大きいが、度数密度は階級Aが大きいため最頻階級は階級Aとなる
このような判断ができることで、より正確な最頻値の特定が可能になるでしょう。
複数の度数分布表を使った統計処理の実践
続いては、複数の度数分布表を比較したり、実際の統計処理に活用したりする方法を確認していきます。
度数分布表と最頻値の組み合わせは、実務のデータ分析でも非常に役立つ手法です。
複数グループの最頻値の比較方法
複数のグループのデータを比較する際は、それぞれの度数分布表を作成して最頻値を求めることで、グループ間の特性の違いを把握できます。
たとえば、A組とB組の試験点数の度数分布表を並べて最頻値を比較することで、どちらのクラスに点数が集中しているかの傾向が明確になります。
| 階級 | A組の度数 | B組の度数 |
|---|---|---|
| 50以上60未満 | 3 | 7 |
| 60以上70未満 | 7 | 10 |
| 70以上80未満 | 12 | 8 |
| 80以上90未満 | 8 | 5 |
この表から、A組の最頻階級は「70以上80未満」(最頻値75)、B組の最頻階級は「60以上70未満」(最頻値65)とわかります。
A組の方が高い点数帯に最頻値があるため、全体的な成績の分布が高い傾向にあると読み取ることができます。
度数分布表の活用事例
度数分布表と最頻値は、さまざまな実務場面で活用されています。
品質管理の分野では、製品の寸法データを度数分布表に整理し、最頻値を確認することで製造ラインの精度や傾向を把握することができます。
マーケティング分野では、顧客の購買金額や来店頻度を度数分布表にまとめることで、最も典型的な顧客行動パターンを把握し、施策立案に活用します。
教育現場では、試験得点の度数分布表から最頻値を求めることで、授業内容や難易度の適正化に役立てることができるでしょう。
エクセルで度数分布表を作成してから最頻値を求める方法
エクセルでは、COUNTIFS関数やFREQUENCY関数を使って度数分布表を自動作成することができます。
FREQUENCY関数を使った度数分布表の作成:
=FREQUENCY(データ範囲, 階級の上限値の範囲)
例:A1:A30のデータを10点刻みで集計する場合
=FREQUENCY(A1:A30, {50,60,70,80,90,100})
※配列数式(Ctrl + Shift + Enter)として入力
FREQUENCY関数で度数分布表を作成した後、MAX関数で最大度数を特定し、MATCH関数と組み合わせて最頻階級の位置を特定することができます。
エクセルの関数を活用することで、大量データの度数分布表作成と最頻値算出が格段に効率化されるでしょう。
度数分布表から最頻値を求めるポイントのまとめ:度数が最大の階級(最頻階級)を特定し、その階級値(上限+下限÷2)が最頻値となります。階級幅が一定でない場合は度数密度を用いて比較しましょう。エクセルのFREQUENCY関数で度数分布表を自動作成し、MODE関数と組み合わせることで、効率的な統計処理が可能になります。
まとめ
本記事では、度数分布表から最頻値を求める方法について、基本的な構造の理解から具体的な手順、実践的な活用方法まで詳しく解説しました。
度数分布表の構成要素(階級・階級幅・階級値・度数・相対度数)を正確に理解することが、最頻値を正しく求めるための基礎となります。
最頻値を求めるには、度数が最大の「最頻階級」を特定し、その階級値を最頻値として用いる手順を覚えておきましょう。
階級幅の設定によって最頻値が変わることもあるため、データの性質に合わせた適切な階級幅の設定が重要です。
複数グループの比較やエクセルを使った効率的な処理方法も活用することで、実務でのデータ整理・統計処理に役立てることができます。
本記事を参考に、度数分布表と最頻値の関係をしっかりと理解し、統計処理スキルの向上にぜひお役立てください。