データの中で最も頻繁に出現する値(最頻値)を知ることは、データの傾向や特徴を把握する上で非常に有用です。
最頻値を活用することで、平均値や中央値では見えてこないデータの特徴が浮かび上がります。
本記事では、エクセルでMODE関数・MODE.SNGL関数・MODE.MULT関数を使った最頻値の計算方法について、複数の最頻値が存在する場合の対処法も含めて詳しく解説いたします。
データ分析の手法をさらに広げたい方に、特におすすめの内容です。
最頻値とは何か・どんな場面で使うかを理解しよう
それではまず、最頻値の定義と実際のビジネス場面での活用方法について解説していきます。
最頻値は統計の3大代表値(平均値・中央値・最頻値)のひとつとして重要な位置づけにあります。
最頻値を適切に活用できる場面を知っておくことが分析の幅を広げます。
最頻値(モード)の定義と計算の考え方
最頻値とはデータの中で最も多く出現する値のことで、英語でMode(モード)とも呼ばれます。
例えば「10, 20, 20, 30, 30, 30, 40」というデータでは「30」が3回出現して最も多いため、最頻値は30になります。
最頻値は必ずしもデータの中央や平均付近にある必要はなく、どのような値でも出現頻度が最も高ければ最頻値になります。
データが離散値(整数など決まった値のみ)で構成される場合に特に有意義な代表値として機能します。
最頻値が活躍する実務場面
最頻値が特に役立つ場面として、商品の最も売れているサイズや価格帯の把握・アンケートの回答で最も多かった選択肢の特定・顧客の購買頻度パターンの分析などが挙げられます。
「最も多くのお客様が選ぶ価格帯はいくらか」を知りたい場合、平均値より最頻値のほうが実態に即した答えを提供します。
マーケティングや在庫管理の場面では最頻値が最も実用的な代表値となることが多いです。
データの分布が多峰型(複数の頻出値がある)の場合は最頻値が複数存在することもあり、その把握も重要です。
平均値・中央値・最頻値の3つを比較して使う
優れたデータ分析では平均値・中央値・最頻値の3つを合わせて確認することが推奨されます。
3つの値が近い場合はデータが正規分布に近く、大きく乖離している場合はデータに偏りや外れ値があることを示します。
3つの代表値を比較することでデータの分布の形状や特性を把握でき、分析の質が格段に向上します。
エクセルではAVERAGE・MEDIAN・MODEの3関数を並べて計算するだけで、この比較が簡単に実現できます。
MODE関数・MODE.SNGL・MODE.MULTの使い方
続いては、エクセルで最頻値を求める各関数の使い方を確認していきます。
エクセルには最頻値を求める関数が複数あり、用途によって使い分けることが重要です。
MODE関数の基本的な使い方
MODE関数はエクセルの旧来の最頻値関数で、「=MODE(数値1, 数値2, …)」または「=MODE(セル範囲)」の構文で使います。
「=MODE(A1:A100)」と入力するだけで、A1からA100のデータの中で最も多く出現する値が返されます。
最頻値が複数ある場合はMODE関数は最初に見つかった最頻値のみを返します。
Excel 2010以降ではMODE関数は後継のMODE.SNGL関数に置き換えられていますが、互換性のため引き続き使用可能です。
MODE.SNGLとMODE.MULTの違いと使い分け
Excel 2010以降で追加されたMODE.SNGLはMODE関数と同様に単一の最頻値を返し、MODE.MULTは複数の最頻値をすべて返す関数です。
| 関数名 | 返す値 | 使いどき |
|---|---|---|
| MODE | 最頻値(単一) | 旧バージョン互換が必要な場合 |
| MODE.SNGL | 最頻値(単一) | 最頻値が1つと想定される場合 |
| MODE.MULT | 最頻値(複数) | 最頻値が複数ある可能性がある場合 |
MODE.MULTは配列数式として複数セルに入力することで複数の最頻値を表示できるため、データに複数の最頻値が存在する可能性がある場合に適しています。
MODE.MULTで複数の最頻値を取得する手順
MODE.MULTを使う場合は、最頻値を表示したいセル範囲を選択してから数式を入力し、Ctrl+Shift+Enterで確定します。
例えばE1:E5を選択した状態で「=MODE.MULT(A1:A100)」をCtrl+Shift+Enterで入力すると、最大5つの最頻値が返されます。
最頻値の数がセル数より少ない場合は余ったセルに#N/Aエラーが表示されますが、IFERROR関数と組み合わせてエラーを非表示にすることが可能です。
Excel 2021以降やMicrosoft 365ではスピル機能により自動的に複数のセルに結果が展開されるため、より使いやすくなっています。
最頻値の応用分析とビジュアライゼーション
続いては、最頻値を使った応用分析とグラフによる視覚化の方法を確認していきます。
最頻値を求めるだけでなく、その値をデータ分析や報告に効果的に活用する方法を身につけましょう。
COUNTIF関数で各値の出現頻度を確認する
最頻値がどの程度の頻度で出現しているかを把握するには、COUNTIF関数と組み合わせて確認します。
「=COUNTIF(A:A,MODE(A:A))」という数式で最頻値の出現回数が求められるため、最頻値がデータ全体の何割を占めるかを把握することも可能です。
全データ件数に対する最頻値の出現割合が低い場合は、最頻値の代表性が低いことを意味するため解釈に注意が必要です。
出現頻度の一覧表を作成する際はCOUNTIF関数をデータの全ユニーク値に対して適用し、頻度の高い順に並べ替えると傾向が一目でわかります。
ヒストグラムで最頻値の分布を視覚化する
最頻値を視覚的に確認する最も効果的な方法がヒストグラムの作成です。
エクセルの「挿入」→「グラフ」→「ヒストグラム」からデータ範囲を選択するだけでヒストグラムが作成でき、どの値が最も多く出現するかが一目でわかります。
ヒストグラムの山の頂点が最頻値に対応しており、分布の形状から正規分布・偏った分布・多峰分布などの特徴も把握できます。
グラフに平均値・中央値・最頻値を示す縦線を追加することで、3つの代表値の位置関係を視覚的に比較できる高品質なレポートが完成します。
カテゴリ別の最頻値を求めて比較分析する
カテゴリ別(地域別・性別・年代別など)に最頻値を求めることで、グループ間の違いを明確にした比較分析が可能です。
「=MODE(IF(B1:B100=”東京”,A1:A100))」のような配列数式を使うことで、特定カテゴリに絞った最頻値が求められます。
カテゴリ別の最頻値を一覧表にして比較することで、マーケティングや商品開発の判断材料として活用できる実践的なデータ分析が実現します。
複数カテゴリの結果を棒グラフで比較表示することで、より説得力のある報告資料が完成するでしょう。
まとめ
エクセルで最頻値を求めるにはMODE・MODE.SNGL・MODE.MULTの3つの関数を使い分けることが基本です。
複数の最頻値が存在する可能性があるデータにはMODE.MULTを配列数式として使うことで、すべての最頻値を取得できます。
平均値・中央値と並べて最頻値を確認することでデータの分布特性を正確に把握でき、分析の質が向上します。
COUNTIF関数やヒストグラムと組み合わせた分析により、最頻値をさらに深く活用したデータ分析が実現するでしょう。