統計学で避けて通れない自由度の話
”自由度”…統計学を勉強したことがある人なら、誰でも一度は耳にしたことのある言葉でしょう。 ”自由度”を教科書通りに説明すると「自由に決めることができる値の個数」ですが、何度聞いても何度考えてもピンときません。 統計学を勉強していて”自由度”で躓いた人も多いのではないでしょうか。 今回はそんな”自由度”についてお話したいと思います。 平均とは # あるデータの母集団があり、そこからサンプルとしてa, b, cの3つのデータを抽出したとしましょう...
記事を読む何となくは通用しない(カイ2乗適合度検定)
取り得る状態が「はい・いいえ」など2つのみのデータの検定(2項検定)を以前のブログで扱いましたが、今回は「多値」データの検定についてご紹介します。 カイ2乗検定とは # 取り得る状態が「はい・いいえ」など2つのみの場合は「2項検定」を使用しましたが、状態が3つ以上の「多値」データである場合の検定は「カイ2乗検定」を使用します。 t検定がt分布を利用した検定であったように、カイ2乗検定もカイ2乗分布を利用した検定です。 t分布は”平均”を扱いますが、カイ2乗分布は”分散”を扱います...
記事を読む君子は豹変すべし(ベイズ更新)
「君子は豹変す」という諺があります。 ”豹変”という言葉を聞くと「考えをコロコロ変えて主義主張が無い」ような悪いイメージがあるかも知れませんが、諺の本来の意味は「(出来る人は)過ちを速やかに改め、自らを一新する」であり良い意味で使われるものです。 昔のドキュメンタリー番組で優秀なプロジェクトマネージャが「決断しないで後悔するよりも、決断して後悔する方を選ぶ」とおっしゃっていました。 今回は逐次情報を得ながら自身の持つ”信念”を更新していく「ベイズ更新」についてお話しようと思います...
記事を読む選択された結果を分析する(2項検定)
皆さんは仕事やプライベートで「アンケート」への回答を求められた経験をお持ちだと思います。 アンケート回答方法としては複数の選択肢から選ぶもの、点数を付けるものなど様々でしょう。 回答する側から言わせてもらえれば、手間のかかるアンケートだと回答する気力が失せるので、回答の選択肢が「はい・いいえ」くらいの簡単なアンケートの方が応えやすいですね。 過去、大手フリマサイトの購入者・出品者の評価は「良い・普通・悪い」からの3択でしたが、現在は「良い・悪い」の2択になっているようです...
記事を読む転ばぬ先のベイズの定理
前回のブログ記事でベイズ統計について簡単にご紹介しました。 今回はベイズ統計の基本中の基本である「ベイズの定理」について私の理解した範囲でご説明したいと思います。 ベイズの定理とは # ベイズの定理は以下の式で表されます。 ここでAとBは事象であり、式として成立するためにP(B)は0ではないです。 P(A|B)は「Bを前提としてAが発生する確率(事後確率)」を示します。(条件付き確率) P(B|A)は上記の逆で「Aを前提としてBが発生する確率」を示します...
記事を読むベイジアンの逆襲
皆さんは「ベイズ統計」という言葉を聞いたことがあるでしょうか? 私が統計学を勉強した時は、統計と言えば「記述統計」か「推計統計」のことでした。 なので最初にベイズ統計という言葉を聞いた時も「ベイズ?何それ美味しいの?」っていう感じでした。 近年はベイズ統計やベイズの定理、ベイズ確率などの言葉を頻繁に聞くようになりました。 ベイズの理論を使って実用化されている物には「迷惑メールの振り分け機能」などがあり、様々な分野で利用されているようです...
記事を読む仮説検定はなぜ遠回りするのか
今回は統計解析の原点に立ち戻って「仮説検定」について私が理解した範囲でご説明したいと思います。 仮説検定とは # 統計解析の勉強を始めて一番最初に引っかかる概念に「仮説検定」があります。 私は最初に仮説検定の話を聞いたときに「なんて回りくどい解法なんだろう」と思いました。 仮説検定とは、簡単にいうと「ある仮説を立てて、その仮説が正しいか正しくないかを統計学を用いて検証する」手法です。 仮説検定には「帰無仮説」「対立仮説」というものが出てきます...
記事を読む線形回帰を疑ってかかるこれだけの理由
今回は「線形回帰」について解説します。 皆さんは「回帰分析」という言葉を一度くらいは聞いたことがあるのではないでしょうか。 線形回帰は統計学で言うところの回帰分析の一つです。 説明変数(入力)を使って従属変数(予測値)を予測します。 線形回帰のうち、説明変数が1つの場合を単回帰、2つ以上の場合を重回帰と呼びます。 今回は線形回帰を使って、説明変数(入力)から従属変数(予測値)を計算する予測式を作ってみましょう...
記事を読む相関係数だけで一喜一憂してはいけない理由
今回は「相関行列」について解説します。 これまでデータの関係性を「平均値の差」や「分散の差」で確認してきました。 今回はデータの関係性を別な方法で確認してみましょう。 お題:「データ間の関係の強弱を見極めたい」 # あなたが品質管理者だと仮定します。 ソフトウェア開発現場から数プロジェクトの仕様書レビューの結果が持ち込まれました。 持ち込まれたデータからデータ間の関係性を見出し、次の施策につなげたいと考えています...
記事を読む2要因の分散分析
前回のブログ記事では「1要因分散分析」を見てきました。 今回は2つの要因の分散分析について見ていきましょう。 要因が増えると何がおこる? # コロナ禍になって出社勤務から在宅勤務に切り替えた会社さんも多いのではないでしょうか。 これまでは出社して皆で直接顔を突き合わせて実施してきた共同作業からリモート環境での共同作業に変わったときに、従来の作業パフォーマンスが出せているのか非常に気になるところだと思います。 出社形態を1要因と考えて、「出社」と「在宅」という条件の2水準を持つとしてみましょう...
記事を読む