統計の話をしようじゃないか - ソフトウェア品質のための統計入門（No.14 予測：回帰分析で品質を読み解く）

はじめに

「統計の話をしようじゃないか」第14回では、回帰分析という手法を用いて「将来を予測する」ことに挑戦します。
この連載では、過去データから全体像や関係性を把握してきましたが、今回はその知見を活かして、「将来どうなるか」を具体的な数値で予測する方法を学びます。

たとえば――

過去のテスト工数とバグ数の関係から、今後の不具合数を見積もる
モジュールのコード行数から、レビュー指摘件数を予測する
レスポンスタイムの変化から、ユーザー満足度の低下を予測する

このように、回帰分析は「関係性」から「未来の推定」へと踏み込むための統計的な道具です。
ソフトウェア品質の現場においては、経験則だけではなく、定量的な予測が意思決定を支える場面が増えています。

今回は、回帰分析の基本である「単回帰分析」を取り上げ、理論から実践、そしてPythonによる実装までをコンパクトに解説していきます。
「統計って予測にも使えるんだ！」と感じてもらえたら嬉しいです。

回帰分析とは何か？

回帰分析とは、ある変数（目的変数）を、他の変数（説明変数）によって予測するための統計手法です。
単なる相関分析では「関係がある／ない」といった傾向の把握にとどまりますが、回帰分析ではその関係性を数式としてモデル化し、具体的な数値を推定・予測することが可能になります。

たとえば――

テスト工数（説明変数）がわかれば、将来のバグ件数（目的変数）を予測する
モジュールのコード行数や複雑度がわかれば、レビュー指摘数や欠陥数を推定できる
スキルや経験年数と欠陥発生の関係をモデル化して、チームリスクを分析する

このように、回帰分析は次のような目的で使われます：

予測
説明変数の値をもとに、目的変数の値を予測します。
例：
- モジュールの行数 → そのモジュールに潜在する欠陥数の予測
- テスト設計工数 → 発見される不具合件数の予測
要因分析
どの説明変数が目的変数にどの程度影響を与えているかを定量的に評価します。
例：
- 複雑度、コード量、開発者スキルが欠陥数に与える影響の大小比較

Information

この手法は統計学の基本であると同時に、近年では機械学習における予測モデリングの基盤としても用いられています。精度が高く解釈しやすいため、ソフトウェア品質分析でも定番の分析法とされています。

単回帰分析：最も基本的な回帰モデル

回帰分析にはさまざまな種類がありますが、最も基本的なのが単回帰分析（simple linear regression） です。
これは「1つの説明変数（X）から1つの目的変数（Y）を予測する」ための非常にシンプルなモデルです。

単回帰分析の基本的な数式は以下のとおりです：

Y = \beta_0 + \beta_1 X + \varepsilon

各記号の意味は次の通りです：

$Y$ ：予測したい変数（目的変数）
$X$ ：説明変数（予測に使う変数）
$\beta_0$ ：切片（Xが0のときのYの予測値）
$\beta_1$ ：回帰係数（Xが1単位増えたときにYがどれくらい変化するか）
$\varepsilon$ ：誤差項（モデルでは説明できないズレ）

この式は、XとYの間に線形の関係があると仮定して、予測のための「一本の直線（回帰直線）」を引こうとするものです。
直感的には、「データの散布図に最もよく合う線を引く」ことで、YをXから予測できるようにすることが目的です。

● 回帰式の求め方（最小二乗法）

では、どうやって「最もよく合う直線」を見つけるのでしょうか？
その答えが、最小二乗法（Least Squares Method） です。

残差とその最小化

「残差」とは、各データ点における実際の観測値と、回帰直線による予測値とのズレのことです。

\varepsilon_i = y_i - (\beta_1 x_i + \beta_0)

この残差ができるだけ小さくなるように、回帰直線を調整します。
ただし、単に残差を合計すると正負が打ち消し合ってしまうので、残差の二乗の和を最小にするようにします：

最小化の目的

\text{目的：} \quad \sum_{i=1}^{n} (y_i - \beta_1 x_i - \beta_0)^2 \quad を最小にする

このようにして、すべてのデータ点と直線とのズレを最も小さくするような最適な直線が得られます。
数学的には、微分を用いて $\beta_0$ （切片）と $\beta_1$ （傾き）を導出できますが、Pythonなどのツールを使えば自動的に求めることができます。

Information

● 実務的なポイント
「最小二乗法で求められた回帰直線」は、必ずしもすべてのデータにぴったり合うわけではありません。
しかし、「全体的な傾向」を捉えるには非常に有効な手段です。
その有効性を確認するためには、次の章で解説する決定係数（ $R^2$ ）や残差分析が重要です。

● 例：テスト工数からバグ件数を予測する

ソフトウェア開発では、テストにかけた工数（時間や人日）と、発見されたバグ件数には一定の関係があると仮定できます。
そこで、過去のプロジェクトデータを用いて、テスト工数から将来のバグ件数を予測するモデルを作成する例を以下に示します。

使用する過去データ

テスト工数（人日）	バグ件数（件）
5	4
10	6
15	10
20	14
25	16

このようなデータに基づいて、線形回帰モデルを用いた予測を行います。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 日本語フォント設定（Windows 環境向け）
plt.rcParams['font.family'] = 'Meiryo'

# 過去データ（例：テスト工数 [人日] とバグ件数）
x = np.array([5, 10, 15, 20, 25]).reshape(-1, 1)  # 説明変数：テスト工数
y = np.array([4, 6, 10, 14, 16])                  # 目的変数：発見されたバグ件数

# 単回帰モデルの作成と学習
model = LinearRegression()
model.fit(x, y)

# 回帰係数と切片の取得
a = model.coef_[0]
b = model.intercept_
print(f"回帰式：バグ件数 = {a:.2f} × テスト工数 + {b:.2f}")

# 予測と可視化
x_pred = np.linspace(0, 30, 100).reshape(-1, 1)
y_pred = model.predict(x_pred)

plt.scatter(x, y, label='実測値（観測データ）', color='blue')
plt.plot(x_pred, y_pred, label='回帰直線', color='red')
plt.xlabel('テスト工数（人日）')
plt.ylabel('バグ件数')
plt.title('テスト工数とバグ件数の回帰分析')
plt.legend()
plt.grid(True)
plt.show()

上記のプログラムを実行すると以下のような結果が出力されました。

この例では、テスト工数が多ければバグの発見数も多くなるという正の相関関係が仮定されています。
もちろん、現実にはテストの質や仕様の難易度など他の要因も関わりますが、単一の要因に注目した簡易的な予測モデルとして有効です。

回帰モデルの当てはまり：決定係数

作成した回帰モデルが「どれくらい当てはまっているか（＝どれだけ役に立つか）」を評価するための指標が、決定係数（ $R^2$ ） です。

$R^2$ は 0〜1の範囲の値をとり、1に近いほどモデルの説明力が高いことを意味します。

たとえば $R^2 = 0.75$ の場合：

「Yのばらつきの75%がXによって説明できる」と読みます。
残りの25%は、説明に使っていない他の変数や、ランダムな誤差によるものと考えられます。

● 実務上の活用ポイント

決定係数は「予測の信頼度」を客観的に評価するためのベースラインになります。
ただし、 $R^2$ が高いからといって常に「良いモデル」とは限らないため、他の指標と併用して判断する必要があります。

Pythonでの確認例（続き）

r2 = model.score(x, y)
print(f"決定係数 R^2 = {r2:.2f}")

上記を計算すると結果は「決定係数 $R^2$ = 0.98」となりました。
このようにして、モデルが実データにどれくらいフィットしているかを数値で確認できます。

Information

● なぜ $R^2$ だけでは「良いモデル」とは限らないのか？

決定係数 $R^2$ は「モデルが目的変数（ $Y$ ）のばらつきをどれくらい説明できるか」という説明力の指標です。
しかし、 $R^2$ が高くても必ずしも良いモデルとは言い切れません。その理由は以下の通りです。

・ $R^2$ だけでは判断できない理由

モデルの仮定が破れている可能性
- 残差が偏っていたり、外れ値の影響を強く受けていると、 $R^2$ が高くても信頼できません。
過学習（Overfitting）
- 特に重回帰分析では、説明変数を増やせば $R^2$ は上がりやすいですが、予測精度が高くなるとは限りません。
関係の非線形性を見落としている
- 真の関係が非線形でも、線形モデルで近似すれば $R^2$ は上がってしまう可能性があります。

・では、何を用いて確認するのでしょうか？

モデルの妥当性を検証するには、次のような方法を併用することが重要です。

残差分析（Residual Analysis）

残差プロットにパターンがないかを確認（線形性）
残差のばらつきが一定か（等分散性）
残差の分布が正規分布に近いか（正規性）
外れ値が存在しないか

Adjusted $R^2$ （自由度調整済み決定係数）

説明変数の数を考慮し、無意味に高くならないよう補正された $R^2$
特に重回帰モデルでは必須の指標です。

交差検証（Cross Validation）

データを訓練用・検証用に分割し、未知データへの汎化性能（予測力） を確認

ドメイン知識との整合性

モデルの出力が実務において妥当な解釈や行動につながるかを評価する
例：「テスト時間が2倍でバグ件数が10倍」は実務的に不自然 → モデル見直しのサイン

・まとめ

$R^2$ は「当てはまり」の指標であって、「正しさ」や「信頼性」の保証ではない。
残差分析、交差検証、Adjusted $R^2$ 、ドメイン知識を併せて使い、総合的にモデルを評価することが重要です。

モデルの妥当性を確認する：残差分析

モデルが単に「当てはまりがよい」だけでなく、統計的に正しく構築されているかを確認するには、残差分析（residual analysis） が欠かせません。

残差とは、実際の観測値と回帰モデルによる予測値との差です：

\varepsilon_i = y_i - \hat{y}_i

理想的な回帰モデルでは、この残差が「ランダムにバラついている」＝パターンがないことが重要です。

● 残差分析で確認すべきポイント

残差プロットに傾向やパターンがないか（曲線的な偏り・異常な分布など）
残差の正規性（ヒストグラムやQ-Qプロットで正規分布に従っているか）
等分散性（予測値に対する残差の分布が一様かどうか）
外れ値の有無（極端に大きな残差がないか）

Pythonで残差プロットを描く（続き）

import seaborn as sns

# 残差の計算
y_pred = model.predict(x)
residuals = y - y_pred

# 残差プロット
plt.scatter(y_pred, residuals)
plt.axhline(y=0, color='red', linestyle='--')
plt.xlabel('予測値')
plt.ylabel('残差')
plt.title('残差プロット')
plt.grid(True)
plt.show()

上のグラフから確認ポイントを評価します。

評価観点	評価	コメント
残差プロットの傾向やパターン	〇問題なし	残差は予測値に対してランダムに分布し、明確な曲線的傾向は見られない。
残差の正規性	△ 要検証	残差の分布が正規分布に従うかは、この図だけでは不十分。Q-Qプロットなどが必要。
等分散性（ホモスケダスティシティ）	△ やや不安定	予測値に対する残差のばらつきに若干の変動が見られる。検定での確認が望ましい。
外れ値の有無	〇問題なし	極端に大きな残差は見られず、全体としてモデルに対して良好にフィットしている。

この残差プロットからは、以下のような改善・確認の必要性が読み取れます：

残差に明確なパターンは見られないが、等分散性と正規性の確認は必要です。
Q-QプロットやBreusch-Pagan検定でモデル仮定の妥当性を検証すべきです。
必要に応じて、多項式回帰や特徴量追加も検討可能です。

● 実務でのまとめ

決定係数が高くても、残差にパターンがある場合は信頼できるモデルではない可能性があります。
そのため、「決定係数（ $R^2$ ）」と「残差分析」は、常にセットでモデルの妥当性を確認するのが基本です。

重回帰分析：説明変数が複数ある場合

実際の現場では、品質や不具合の発生に影響を与える要因が1つだけとは限りません。
たとえば「テスト工数」だけでなく、「担当者の熟練度」「仕様の複雑さ」「レビュー実施有無」など、複数の要因が絡むのが一般的です。
そのため、複数の説明変数を同時に扱う 重回帰分析 が必要になります。

重回帰モデルの一般形は以下の通りです：

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \varepsilon

ここでの注意点：

多重共線性：説明変数同士が強く相関していると、各係数の推定が不安定になります。
例：レビュー回数とテスト工数が常に比例するような場合、それぞれの影響を分離できなくなります。
自由度調整済み決定係数（Adjusted $R^2$ ）：変数の数が多いと単なる $R^2$ は過大評価されがちです。
Adjusted $R^2$ を使うことで、モデルの説明力をより信頼性高く比較できます。
実務的意義の検証：統計的に有意な説明変数でも、実際の改善や制御が困難な変数（例：開発期間中の天候）などは除外を検討します。

● モデル改善の視点

目的変数に対して因果関係があり得る説明変数を選定することが重要です。
VIF（分散拡大係数）による多重共線性の定量評価を行い、必要なら変数削減（ステップワイズ法など）を検討します。
残差分析や交差検証を通じて、過学習の回避と汎化性能の確認も忘れずに行いましょう。

Information

● VIF（分散拡大係数）とは？
VIF（Variance Inflation Factor） は、多重共線性（説明変数同士の相関）がどの程度あるかを定量的に評価する指標です。
ある変数 $X_i$ の VIF は次のように定義されます：

\text{VIF}_i = \frac{1}{1 - R_i^2}

ここで $R_i^2$ は、 $X_i$ を他の説明変数で回帰したときの決定係数です。
VIF の目安は以下の通り：

VIF の値	解釈
1.0〜2.0	問題なし
5以上	多重共線性の疑いがある
10以上	多重共線性が強く、モデルが不安定

ポイント：VIF が高い変数は他の説明変数と強く相関しており、重回帰モデルの係数推定に悪影響を及ぼす可能性があります。

● 変数削減（ステップワイズ法など）とは？
重回帰分析では、説明変数が多すぎると 過学習や解釈性の低下 を招くことがあります。
そのため、変数選択法（変数削減） によって必要最小限の説明変数を選ぶことが重要です。

・主な変数選択法

手法	概要
ステップワイズ法	前進選択法と後退消去法を組み合わせ、説明変数を追加・削除しながら最適モデルを探索
前進選択法	説明変数を1つずつ追加し、モデルの改善が見られた場合のみ採用
後退消去法	最初はすべての変数を使い、影響の小さい変数を順次削除

ポイント：変数の選択には、AIC・BIC・Adjusted $R^2$ などのモデル評価指標を活用することで、信頼性の高いモデル構築が可能になります。

重回帰分析は、実務における「多因子が絡む複雑な現象」を捉えるための基本ツールです。
品質管理の現場でも、「製造条件」や「試験方法」など複数の因子の影響を同時に評価するために重宝されます。

回帰分析の限界と注意点（実務でありがちな落とし穴）

回帰分析は非常に有用なツールですが、使用にあたってはいくつかの重要な限界と注意点を理解しておく必要があります。

● 因果関係ではない

相関があるからといって、必ずしも因果があるとは限らない。

例：アイスクリームの売上と熱中症発生数に相関があっても、因果関係があるとは言えない（両者の背後に「気温上昇」という共通要因がある）。

⇒ 実務では、因果推論の視点（例：介入や統制）を持つことが重要です。

● 外挿に弱い（モデルの適用範囲に注意）

観測データの範囲を超えた予測（外挿）は、精度が大きく劣化する可能性があります。

モデルはあくまで「観測された範囲」での規則性に基づいています。
未知の領域に適用すると、不合理な予測を出すことがあります。

⇒ 実務では「データの有効範囲」を意識して使うべきです。

● データ品質が命（Garbage In, Garbage Out）

入力データの精度・信頼性が悪ければ、モデル結果も当然悪くなります。

欠損、異常値、誤入力などの前処理を怠ると、信頼できない分析になります。
特に、品質管理の現場では測定誤差やデータ収集条件のばらつきにも注意が必要です。

⇒ 分析前の「データクレンジング」や「EDA（探索的データ解析）」は不可欠です。

Information

● データクレンジング（Data Cleansing）とは
分析に用いるデータは、収集ミス・入力エラー・欠損値・異常値などを含んでいることが多く、そのままでは信頼性の高い分析はできません。
そのため、以下のような 「クレンジング処理」 が必要です：

欠損値（NaN）の確認と処理（除外・補完など）
異常値・外れ値の検出と対応（例：3σを超える値など）
型の統一（例：数値が文字列として扱われている）
データの重複・整合性の確認（例：同じIDの重複、矛盾する値の排除）

・ポイント：
クレンジングは「ゴミデータが結果を歪めるのを防ぐ」ための第一歩です（＝Garbage In, Garbage Outを避けるため）。

● EDA（探索的データ解析：Exploratory Data Analysis）とは
EDAとは、データの構造・分布・傾向・異常を事前に可視化・要約して把握する工程です。
分析の前に「このデータで何が起きているか？」を直感的に理解することが目的です。

主な手法：

ヒストグラム・箱ひげ図・散布図による分布の可視化
相関係数マトリクスで変数同士の関係を俯瞰
グループごとの集計や分割による傾向確認（例：工程別・担当者別）

・ポイント：
EDAは、統計モデルの前提（線形性・正規性など）を満たしているかの確認にもつながります。

これらの工程を丁寧に行うことで、分析の精度・信頼性・説明力が大きく向上します。
回帰分析や機械学習モデルを適用する前に、「データと向き合う時間」 をしっかり取りましょう。

● 補足：その他の注意点

サンプル数の不足：データ数が少ないと過学習や統計的な不安定性が起きやすくなります。
非線形な関係の見落とし：線形モデルでは表現できない複雑な関係が潜んでいることもあります。
モデル過信のリスク：モデルの精度が高くても、ビジネス判断に活かせるとは限りません（解釈可能性、運用性の評価が必要）。

相関と回帰の違い

観点	相関	回帰
目的	関係の強さ（関連性）を見る	数式モデルを使って「予測」や「影響の量」を定量化
出力	相関係数（ $r$ ）	回帰式（ $Y = aX + b$ など）
解釈の方向性	対称的（XとYの役割は同等）	非対称（Xが説明変数、Yが目的変数）
因果関係の示唆	なし	必ずしも因果を示さないが、仮説構築には有用
活用例	品質指標間の関連性調査など	バグ件数の予測、工数見積もりなど

● 相関とは？

相関は「2つの変数がどの程度一緒に変動しているか」を示します。
相関係数 $r$ は −1〜+1 の範囲を取り、値が大きいほど強い線形関係があることを意味します。
ただし、強い相関がある＝因果関係があるとは限りません。

● 回帰とは？

回帰分析は「ある変数（説明変数）から、別の変数（目的変数）を予測するモデルを作る」ための手法です。
単回帰では1つの説明変数、重回帰では複数の説明変数を使って目的変数を予測します。
実務では「品質予測」「工数見積もり」「信頼性分析」などに広く活用されます。

Information

相関があっても因果関係があるとは限りません。回帰分析を使うときも、変数間の関係の意味づけには注意しましょう。
例：「テスト工数」と「バグ件数」に相関があるとしても、それだけで因果があるとは言えません。外的要因の存在を検討すべきです。

ソフトウェア品質における活用例（回帰分析の応用）

回帰分析は、ソフトウェア品質管理やプロジェクトマネジメントにおいても有効なツールです。
以下に代表的な活用例を示します。

● 欠陥予測

概要：モジュールのコード量（LOC）や変更回数、複雑度などのメトリクスを説明変数として、将来の欠陥数を予測します。
目的：品質の劣化が懸念されるモジュールを事前に特定し、重点的にレビューやテストを行うことで、品質の向上とコスト削減を図ります。

● 工数見積もり

概要：画面数や要件数、機能点数などの開発規模指標から、設計・実装・テストの各フェーズの工数を予測します。
目的：過去の実績データを活用して、より客観的で再現性の高い見積もりを実現し、見積もりブレの低減や工程管理の高度化を支援します。

● リスク分析

概要：過去プロジェクトの実績や欠陥履歴から、不具合傾向や遅延リスクの高いパターンを抽出・予測します。
目的：将来の不具合発生や遅延のリスクを事前に把握し、早期対応・品質向上の打ち手を計画的に講じます。

まとめ

回帰分析は、ソフトウェア品質データに対して「定量的に未来を予測する」ための強力なツールです。
ただし、安易な適用では誤解を招く可能性もあるため、統計的前提の検証とドメイン知識との融合が欠かせません。

回帰分析は「数値の予測」に役立つ手法です
単回帰は最も基本的なモデルで、実務でもよく使われます
相関との違いや、因果関係に注意しながら使いましょう

次回予告

次回 No.15 では、本シリーズのまとめとして、統計的品質管理の実務応用について紹介します。

こちらに統計関連情報をまとめています。

データ分析にご活用いただければ幸いです。