• 統計の話をしようじゃないか - ソフトウェア品質のための統計入門(No.4 ばらつきの把握:分散・標準偏差・レンジ)

    はじめに # 「統計の話をしようじゃないか」第4回は、ばらつきの把握をテーマにお話しします。 品質データに限らず、あらゆる実測データは多かれ少なかれ、ばらつきを含んでいます。 平均値や中央値といった代表値だけでは、分布の広がり(散らばり)が見えず、誤った解釈につながることもあります...

    記事を読む
  • 統計の話をしようじゃないか - ソフトウェア品質のための統計入門(No.3 代表値の使い分け:平均・中央値・最頻値)

    はじめに # 「統計の話をしようじゃないか」第3回は、「代表値の使い分け」についてお話しします。 世の中にはデータが溢れています。 「データの中心って、どう表せばいいのか?」 統計の最も基本的な問いの一つがこれです。 品質データを扱うとき、よく「平均値」が使われますが、それだけで本当に適切な判断ができているでしょうか? 実は、「平均・中央値・最頻値」はそれぞれ違った特徴を持っており、使い方を間違えると誤解を招く恐れもあります...

    記事を読む
  • 統計の話をしようじゃないか - ソフトウェア品質のための統計入門(No.2 データとの正しい向き合い方)

    はじめに # 「統計の話をしようじゃないか」第2回は、統計を扱う前提となる「データそのもの」との向き合い方についてお話しします。 どれだけ立派な分析手法を使っても、元となるデータが適切でなければ意味がありません...

    記事を読む
  • 統計の話をしようじゃないか - ソフトウェア品質のための統計入門(No.1 統計って何? ソフトウェア品質になぜ必要?)

    はじめに # あるIT企業のとある部門。 部長(品質保証):「先日のリリース、バグがやけに多かった気がするんだけど、どうなんだ?」 開発リーダー:「そうですね…たしかにちょっと多かったかも、って印象はあります」 部長:「“印象”ねぇ…数字ではどうなってる?」 開発リーダー:「え、ええっと…」 部長:「それと、先月追加したテスト、あれ効果出てる? 不具合減った?」 メンバー:「体感では減ってる気はしますが…はっきりとは…」 こんな会話、IT企業の現場では珍しくありません...

    記事を読む
  • |ブログ|14 min read
    #新人向け#小技#Analytics

    Excelを使って簡単にオープンデータを分析する(発展編)

    前回の記事ではExcelとPowerQueryを利用して簡単にインターネット上の公開データを分析する手法を紹介しました。これでも手軽にデータを取得/分析するには十分ではあるのですが、もう少し作り込むことで簡単なデータ分析ツールとして活用できるようになります。 特にデータ取得の部分に関しては、取得したいデータのAPI仕様などに由来して痒いところに手を届かせたくなることがあります。そこで今回はPowerQueryの内容を作り込んでみます...

    記事を読む
  • |ブログ|3 min read
    #Analytics

    要注意!統計的検定にはびこる誤解

    はじめに # こんにちは。教育グループの高です。 最近、研修の中で統計学について取り扱うことがありました。その際、統計的検定について世間一般ではかなり誤解されていることが分かりました(かくゆう私も、研修準備をしている中で、誤解していることがあることに気が付きました...)。 統計的検定は、統計以外を専門とする研究者であっても誤解していることが多いです。そのため、一部学会では以下のような動きがあります(記事のタイトルはいずれもP値となっていますが、中身は統計的検定について言及されています)...

    記事を読む
  • |ブログ|5 min read
    #Analytics

    猫を飼うべきこれだけの理由

    今日は統計学の”堅苦しい数字”から少し離れて、ほのぼのする話をしてみましょう。 お題は”猫と生産性”です。 在宅勤務になり、仕事場と家庭が同一空間に # 2020年は新型コロナが流行し、在宅勤務にシフトした人も多かっただろうと思います。 私の場合、前職の2020年に在宅勤務に移行し、2021年には会社に出勤した日が10日に満たないような状況でした...

    記事を読む
  • |ブログ|4 min read
    #Analytics

    箱ひげ図と散布図を同時に描画して概要を把握する(層別・分析編)

    前回は仕様書レビューの品質データを「箱ひげ図」と「散布図」に同時に描画して可視化するところまで実施しました。 今回は可視化したデータを”層別”して分析し、品質のチェックポイント(勘所)を見つけていきたいと思います。 層別 # 「層別」とは、数多くのデータを、データの特徴に基づいて、いくつかのグループに分けることです。 層別することでデータを分析し易くなります。 「分析」とは「物事を理解する」ことです。 ”層別”を使って物事を理解するところから始めましょう。 段階を追って層別していきます...

    記事を読む
  • |ブログ|5 min read
    #Analytics

    箱ひげ図と散布図を同時に描画して概要を把握する(描画編)

    以前のブログでは「箱ひげ図」を使ったデータの可視化手法をご紹介しました。 今回は「箱ひげ図」と「散布図」を使ってデータの可視化を行っていきたいと思います。 箱ひげ図とは(おさらい) # 箱ひげ図とは、下図に示すように最小値、第1四分位数、第2四分位数(中央値)、第3四分位数、最大値を持ち、第1四分位数から第3四分位数までの範囲を箱で描画し、最小値、最大値は箱の両端からそれぞれ線を引き出した図です。 箱は第2四分位数(中央値)で区切ってあります。 下図には平均値を箱の中の黒点で示しています...

    記事を読む
  • |ブログ|3 min read
    #Analytics

    複雑な関係から真の関係を絞り込む(偏相関)

    以前のブログで複数のデータ群間の関係の強さをみる「相関行列」を学びました。 今回は、他のデータの影響を除外して”2つのデータ群間の相関のみ”を導き出す「偏相関」について見ていきたいと思います。 偏相関とは # 相関係数は「2つのデータ群間の関係の強さ」を示す値です。 相関係数は対象としているデータ以外からの影響の有無は考慮されていません...

    記事を読む

豆蔵では共に高め合う仲間を募集しています!

recruit

具体的な採用情報はこちらからご覧いただけます。