複雑な関係から真の関係を絞り込む(偏相関)
以前のブログで複数のデータ群間の関係の強さをみる「相関行列」を学びました。
今回は、他のデータの影響を除外して”2つのデータ群間の相関のみ”を導き出す「偏相関」について見ていきたいと思います。
偏相関とは
#相関係数は「2つのデータ群間の関係の強さ」を示す値です。
相関係数は対象としているデータ以外からの影響の有無は考慮されていません。
データ群が互いに”独立”である場合なら、相関係数は2つのデータ群間の関係の強さ”のみ”を表しますが、データ群のすべてが”独立”であると判断できるケースは稀であり、多かれ少なかれデータ同士は互いに影響を与えていると考えた方が自然です。
相互に影響しあう複数のデータ群間の”関係の強さ”を確認するために他のデータ群の影響を取り除いた相関係数が「偏相関係数」です。
「統計解析シリーズ」で何度も使用しているjamoviを使って「偏相関」を計算してみましょう。
例題「仕様書作成工数の影響を取り除く」
#ソフトウェア開発部隊から直近のプロジェクトのソフトウェア・メトリクスを収集しました。
データ項目は
- 仕様書規模(頁)
- 仕様書作成工数(人時)
- レビュー指摘件数(件)
です。
それぞれのデータは以下のようになっていました。
仕様書規模(頁) | 仕様書作成工数(人時) | レビュー指摘件数(件) |
---|---|---|
40 | 26 | 10 |
95 | 46 | 21 |
83 | 48 | 19 |
97 | 40 | 20 |
50 | 30 | 11 |
65 | 32 | 13 |
これらのデータを使って相関行列・偏相関を確認します。
相関行列を確認する
#最初は相関行列を確認します。
メニューの「分析」-「回帰分析」-「相関行列」を選択し、以下のように設定します。
相関行列として以下の表が出力されました。
相関の強弱の判断は以下の閾値で考えます。
(文献によって区分値が多少異なる場合がありますが、ここではおおよそで考えます)
-1 ~ -0.7: 強い負の相関
-0.7 ~ -0.5: 負の相関
-0.5 ~ 0.5: ほぼ相関なし
0.5 ~ 0.7: 正の相関
0.7 ~ 1: 強い正の相関
上記の判断基準でデータを見ると、すべての相関係数が「強い正の相関」を示しています。
p値もすべて有意を示しています。
2つのデータ群間だけの関係の強さを求めたい
#先ほど得た相関行列のデータだけでは、相関係数が他のデータからどれだけ影響を受けているかを知ることは出来ません。
「仕様書規模(頁)」と「レビュー指摘件数(件)」の関係のみに絞って相関係数を見たい場合は「偏相関」を使います。
それでは「仕様書作成工数(人時)」の影響を除外した「仕様書規模(頁)」と「レビュー指摘件数(件)」の間の「偏相関」を求めたいと思います。
メニューの「分析」-「回帰分析」-「偏相関」を選択し、以下のように設定します。
「仕様書作成工数(人時)」は「統制変数」という項目に設定します。
偏相関として以下の表が出力されました。
相関行列で求めた相関係数は「0.981」でしたが、偏相関係数は「0.941」です。
p値は有意を示しています。
「仕様書作成工数(人時)」を除外したところ、相関係数の値自体は少し小さくなりましたが、依然として「強い正の相関」を示しているのがわかります。
まとめ
#偏相関を使うと、2つのデータ群間の相関だけに絞って関係の強さを求めることができます。
影響を与えあうデータ間で相関係数を求める時にとても有効な手段になります。
偏相関を手計算で求めるのは骨の折れる作業ですが、統計解析ツール「jamovi」が煩雑な作業を軽減してくれます。
ぜひ利用してみてください。
データ分析に活用して頂ければ幸いです。