対応のあるデータの差を検定する

| 2 min read
Author: shuichi-takatsu shuichi-takatsuの画像

前回のブログ記事では「対応なしt検定」について見ていきました。
今回は「対応ありt検定」で例題を解いていきましょう。

今回も統計解析ツールjamoviを使ってデータ分析を行っていきます。

お題「2種類の試行の差の確認」

#

今回のお題は以下を考えます。

ある組織では静的解析ツールを用いてプログラムのソースコードから欠陥候補を抽出している。
これまで設定Aでツールを運用してきたが、新しく設定Bを作成した。
設定Aと設定Bの2種類の設定で、静的解析ツールの欠陥抽出数に差があるかどうかを確認したい。
設定Bの方が性能が良ければ設定Bを標準としたい。
異なる開発者が作成したソースコードをランダムに7個抽出し、設定Aと設定Bのそれぞれの設定で欠陥候補を抽出した。
データの単位は欠陥候補数とする。

設定A 設定B
12 15
34 33
32 35
18 21
57 55
22 24
45 50

さっそくjamoviにデータを設定します。

データパネル

記述統計での確認

#

メニューの「分析」-「探索」-「記述統計」を選択します。
統計量の設定を以下のように行います。
(記述統計「行に変数を配置」を選択しています)

記述統計データが以下のように表示されました。

平均値と中央値の値は、設定Aよりも設定Bの方が大きくなっています。
感覚的にですが「設定Aよりも設定Bの方が欠陥候補の抽出数が大きい」ように見えます。
しかし、得られたデータには設定Bの方が欠陥候補数が少ないケースもあるので判断に迷うところです。

今回は「対応のある2群(ペア)のデータの差を検定する」のでt検定は「対応ありt検定」を選択します。

対応ありt検定での確認

#

メニューの「分析」-「t検定」-「対応ありt検定」を選択し、以下のように設定します。
対応ありを選択したので、変数がペアとして横一列に並んでいます。

対立仮説として「設定Aよりも設定Bの方が欠陥候補の抽出数が大きい」にするので、仮説の部分は

測定値1 < 測定値2

としています。

検定結果として以下の値が得られました。
p値は0.047で5%以下なので、帰無仮説は棄却され、
欠陥候補の抽出能力は「設定A < 設定B」と言える、となりました。

まとめ

#

同一の被験対象に2つの施策を実施したときに、効果に差があるかどうかが判断できました。

これまでのブログ記事でjamoviが提供する3つのt検定機能

  • 対応なしt検定
  • 対応ありt検定
  • 1標本t検定

を紹介できました。

よろしければ他のブログ記事も参照ください。

データ分析に活用して頂ければ幸いです。

豆蔵デベロッパーサイト - 先週のアクセスランキング
  1. ChatGPTのベースになった自然言語処理モデル「Transformer」を調べていたら「Hugging Face」に行き着いた (2023-03-20)
  2. ChatGPTに自然言語処理モデル「GPT2-Japanese」の使用方法を聞きながら実装したら想像以上に優秀だった件 (2023-03-22)
  3. 基本から理解するJWTとJWT認証の仕組み (2022-12-08)
  4. AWS認定資格を12個すべて取得したので勉強したことなどをまとめます (2022-12-12)
  5. 自然言語処理初心者が「GPT2-japanese」で遊んでみた (2022-07-08)
  6. Nuxt3入門(第8回) - Nuxt3のuseStateでコンポーネント間で状態を共有する (2022-10-28)
  7. Nuxt3入門(第4回) - Nuxtのルーティングを理解する (2022-10-09)
  8. 直感が理性に大反抗!「モンティ・ホール問題」 (2022-07-04)
  9. Nuxt3入門(第1回) - Nuxtがサポートするレンダリングモードを理解する (2022-09-25)
  10. ORマッパーのTypeORMをTypeScriptで使う (2022-07-27)