統計の話をしようじゃないか - ソフトウェア品質のための統計入門（No.3 代表値の使い分け：平均・中央値・最頻値）

はじめに

「統計の話をしようじゃないか」第3回は、「代表値の使い分け」についてお話しします。

世の中にはデータが溢れています。
「データの中心って、どう表せばいいのか？」
統計の最も基本的な問いの一つがこれです。

品質データを扱うとき、よく「平均値」が使われますが、それだけで本当に適切な判断ができているでしょうか？

実は、「平均・中央値・最頻値」はそれぞれ違った特徴を持っており、使い方を間違えると誤解を招く恐れもあります。
この回では、代表値の違いと使い分けのポイントを、ソフトウェア品質の実務例とともにやさしく解説します。

代表値とは何か？

「代表値」とは、あるデータの分布において、中心的な傾向を示す数値のことです。
統計でよく使われる3つの代表値は以下のとおりです：

種類	説明	使用例（ソフトウェア品質）
平均値	全データの合計 ÷ データ数	バグ修正にかかる平均日数
中央値	大小順に並べたときの真ん中の値	テストケース実行時間の中央値
最頻値	最も頻繁に出現する値	最もよく出るエラーコード

平均値：みんな大好きだけど“要注意”

平均値は「全データの合計 ÷ データ数」で計算されます。

● 特徴

シンプルで計算しやすく、直感的にも分かりやすい
全体の傾向を一つの数値で表現できる
ExcelやPythonなどのツールでも自動計算でき、集計の初手として使われがち

実務でも、「とりあえず平均を出しておこう」となることは多いですが、必ずしもそれが最適とは限りません。

● 外れ値の影響を強く受ける

平均値はすべてのデータを“均等に”扱うため、極端な値（外れ値） があると簡単に引きずられてしまいます。

例：テスト実行時間（秒）

テスト実行時間（秒）が以下の例を考えてみましょう。

20, 22, 21, 19, 105

平均値：37.4秒
中央値：21秒

Information

※ヒストグラムは、データの分布状況（どの値がどれくらい出ているか）を棒の高さで示すグラフです。
値の範囲（ビン）ごとの件数を視覚化することで、偏りの有無や外れ値の影響、中心傾向やばらつきを一目で把握できます。
ソフトウェア品質の現場では、テスト実行時間、レビュー所要時間、不具合件数などの時間や件数の分布把握に有効です。

この場合、1件の異常に長い実行時間（105秒）が、平均を大きく押し上げています。
実務で「平均37秒」と言われても、それが全体像を反映しているとは言いにくいですよね？

これは、データが正規分布(※1)ではないときに平均値を使うリスクの典型です。

Information

※1：「正規分布」とは、データの多くが平均値付近に集中し、左右対称な“山型の分布”を指します。
　　本シリーズでは後の回で詳しく説明しますが、ここでは「極端に小さい値や大きい値が少なく、中心付近にデータが集まっている状態」と理解しておけば十分です。

● 実務での注意点

修正工数、テスト時間、レビュー所要時間などでごく一部に極端な値がある場合、平均値だけで判断すると「過大評価・過小評価」につながる
KPI(※2)やSLA(※3)の基準に使うときは、中央値やパーセンタイル(※4) と併用するのが望ましい
平均で報告していたらクレームが出た！ という品質現場も少なくありません

Information

※2：KPI（Key Performance Indicator）→重要業績評価指標。プロジェクトや業務の達成度を測るための数値目標です。（例：バグ修正平均日数、レビュー完了率など）
※3：SLA（Service Level Agreement）→サービス提供者と利用者の間で取り決められるサービス品質に関する合意指標です。（例：障害対応の初動時間や修正完了までの時間など）
※4：パーセンタイル（Percentile）→データを小さい順に並べたとき、下から数えて何％目にあたるかを示す指標です。（例：90パーセンタイル（P90）が20秒なら、「全体の90％のテストケースが20秒以内に完了した」ことを意味します）

● いつ平均値を使えばよいか？

値が大きく偏っていない（＝分布が対称的である）
全体像をざっくり把握したい
複数のチーム・工程で比較をしたい

といったケースでは、平均値が非常に有効です。
ただし、使う前にデータの分布を確認することが鉄則です！

補足：平均の種類

実は「平均」には種類があります：

平均の種類	特徴	用途例
算術平均	最も一般的。合計 ÷ 件数	工数・実績など日常的な平均
加重平均	重み付き（重要度や件数を反映）	チーム別バグ件数の平均など
幾何平均	倍率・成長率などに使われる	性能評価（例：処理速度）など

たとえば、チームごとのレビュー件数を平均する場合、加重平均で「チームごとの件数に応じた重み」を加えると公平な評価になります。

中央値：ばらつきがあるときの“安心代表”

中央値（メディアン）は、データを小さい順に並べたときの“真ん中の値”を指します。
「全体のちょうど50％が、この値より小さいか大きい」という位置づけにあるため、分布の中心を把握するうえで非常に安定した指標です。

● 特徴

並べたときの“真ん中”なので、外れ値の影響を受けにくい
特に偏ったデータや非正規分布で有効
観測データが少ない場合でも意味がある（例：奇数個でも偶数個でも計算可能）

例：テスト実行時間（平均値と同じ例）

平均値と同じ [20, 22, 21, 19, 105] の中央値は 21 です。

平均値：37.4秒
中央値：21秒

Information

※箱ひげ図（Boxplot）は、データの分布やばらつき、外れ値の有無をひと目で把握できるグラフです。
箱は「中央50%の範囲（四分位範囲）」を示し、線（ひげ）は広がりの程度を、点や線の外の極端な値は「外れ値」を表します。
実務では、処理時間や工数などのばらつき評価・異常値の検出に役立ちます。

このように、105という極端に大きい値があっても、中央値はその影響を受けにくく、“典型的な値” としての信頼性が高いのが特徴です。

● 実務での活用

テスト実行時間やレビュー所要時間など、作業のばらつきが大きい工程で「代表値」を出す場合、中央値は実態を反映しやすい
顧客対応件数、問い合わせ対応時間なども、中央値を使うことで“異常な長時間対応”による過大評価を避けられる
工程ごとの実績比較などでも、中央値なら“極端な担当者差”を吸収しやすい

例えば「レビュー平均時間：100分」と「中央値：35分」だった場合、実際には大多数のレビューは35分程度で終わっており、ごく少数の長時間レビューが平均を押し上げているだけかもしれません。

● 中央値は「安心指標」としておすすめ

初学者でも概念がわかりやすい
データの分布状況を大きく歪めない
平均とセットで報告すると、分布の偏りを伝えるヒントになる

最頻値：パターン認識に最適

最頻値（モード）は、データの中で最も頻繁に出現する値です。
平均や中央値とは異なり、「どの値が一番よく現れたか」を直接示すため、典型パターンの把握に優れた指標です。

● 特徴

最もよく出現する値に注目する
データがカテゴリ型や離散的な数値の場合に特に有効
分布の中心ではなく、「山の頂点」をとらえる指標とも言える

例：バグ修正所要日数（日）

バグ修正所要日数が以下の例を考えてみましょう。

1, 2, 1, 1, 5, 3

バグ修正所要日数が [1, 2, 1, 1, 5, 3] なら、最頻値は 1 です。

平均値：2.2
中央値：1.5
最頻値：1

「1日で直せるバグが一番多い」ことを意味します。

● 実務での応用

最も多いバグのタイプ（例：UI関連が最多）
よくある修正工数（例：1日で完了する修正が多い）
典型的な所要時間・頻出するレビュー指摘項目の把握

など、繰り返し発生するパターンの把握に向いています。
特に、分類・カテゴリごとの傾向をつかむ際には、最頻値が直感的で分かりやすい指標となります。

例えば、レビューコメントの内容をカテゴリ別に集計した結果、「命名ルール違反」が最頻であれば、その観点に対するルール再教育が必要かもしれません。

● 注意点と限界

最頻値が複数あるケース（二峰性分布など）では扱いに注意が必要です
連続データでは使いにくい（階級にまとめてヒストグラムから見ることも）
平均や中央値と異なり、全体の分布形状を必ずしも表すとは限らない

どう使い分ける？：実務判断の視点

代表値は一つに決め打ちするものではなく、データの性質や判断の目的に応じて使い分けることが重要です。
以下は代表的な判断基準の一例です。

目的	向いている代表値	理由
一般的な傾向を示したい	平均値	全体の値を合計して件数で割るため、「ざっくりとした中心傾向」が分かる
外れ値が気になる	中央値	並び順の真ん中を取るため、極端な値に引きずられにくく安定している
一番よく出るケースを知りたい	最頻値	最頻出値を示すので、「典型パターンの把握」やカテゴリ分布に適している

● 補足：それぞれの限界と併用のすすめ

平均値：外れ値に弱い。すべての値を合計して件数で割るため、1つの異常値（外れ値）に大きく引っ張られる性質があります。データ分布が偏っているときは注意。
中央値：真ん中の値だけを見て判断するため、極端な値に影響されにくいという強みがあります。しかし一方で、「上位と下位の差がどれほどあるか（ばらつきの程度）」は反映しません。
最頻値：「一番よく出た値」に注目するシンプルな指標ですが、データによっては「値がばらけていて最頻値が存在しない」や「同じ回数で出現した値が複数あり、複数の最頻値になる（例：双峰性）」などで、適用しにくいこともあります。

そのため、平均＋中央値＋最頻値をセットで示すことで、データの分布や傾向を多面的に捉えることが可能になります。
実務では、平均だけでなく「中央値やパーセンタイルも補足する」ことが、誤解や過信を防ぐ第一歩です。

視覚的に理解しよう：ヒストグラムと代表値の関係

実際にヒストグラムを描くと、平均・中央値・最頻値が分布のどこにあるかを視覚的に比較できます。

正規分布：3つの値はほぼ一致

正規分布の場合、平均・中央値・最頻値がほぼ同じ位置に存在します。

歪んだ分布：平均だけがズレやすい

右に歪んだ分布（外れ値あり）の場合、外れ値によって平均が右に引っ張られ、中央値・最頻値からズレます。

まとめ

代表値は「平均」「中央値」「最頻値」の3種類がある
平均は便利だが、外れ値に弱い
中央値は安定しており、ばらつきに強い
最頻値は“よくあるパターン”を示すのに向いている
データの特性と目的に応じて使い分けることが重要

次回予告

次回は「ばらつきをつかむ」をテーマに、ヒストグラムや箱ひげ図を使って、分散・標準偏差・レンジといった「散らばりの指標」について見ていきます。

こちらに統計関連情報をまとめています。

データ分析にご活用いただければ幸いです。