データ分析

データ分析

統計学界の青本!現役DSが「自然科学の統計学」得た学びをご紹介

今回の記事では、統計学界の青本「自然科学の統計学」を読んで現役DSが得た学びをご紹介していきたいと思います。 本書は東大出版の統計学シリーズの2作目にあたる本で、統計学界の赤本「統計学入門」で統計学の基礎について学んだのちに待ち受ける、統計学の発展的な内容について解説された1冊になります。 本書は初版1992年に発行された歴史ある統計学書でありながら、統計学者必見の書として語り継がれており、丁寧な説明、図表、ふんだんな演習問題によって統計学に対する理解を統計学入門以上に深めることができる1冊となっています。 本記事では本書から私が得た学びのエッセンスをみなさんにご紹介させていただきたいと思います!
PowerBI

データを利活用したいビジネスマン必見!「データ利活用の教科書」を読んで現役DSが学びを得た点

今回の記事では、データ利活用支援・コンサルティングの老舗であるマクロミルの知見が盛り込まれた「データ利活用の教科書 データと20年向き合ってきたマクロミルならではの成功法則」から現役データサイエンティストの私が得た学びを紹介していきたいと思います。 本書は対象者をデータサイエンティストのような統計学やエンジニアリングに特化した専門家に限定しておらず、データ分析を行うにあたっての論点の整理やマーケティングの考え方、データを集めるための調査の設計の仕方など、データ利活用をしたい!と考えている方にとって広く有用な書籍となっています。 本記事では本書の中から私が学びになったと思ったエッセンスを抽出して紹介させていただきますので、ご参考にしていただけると幸いです!
コンサル

データ分析の転ばぬ先の杖!現役DSが「データ分析失敗事例集」から得た学びを書き連ねてみた

今回の記事では、データ分析の成功事例集ではなく、あえて失敗事例集を集めた「データ分析失敗事例集 失敗から学び、成功を手にする」について、現役データサイエンティストが得た学びを共有させていただきたいと思います! この本はデータ分析における「こんな失敗あるよね〜」と思わず唸ってしまうような失敗集がフィクションながらもリアルに書き連ねられており、車の教習所で見るヒヤリハットの動画のような「明日は我が身かもしれない」と思わされる事例がこれでもかと詰められています。 本記事では、本書を読んで私が「この本で先に知ることができてよかった...」と思った事例を3選してみなさんにご紹介させていただきます。 本書の素晴らしさは私が選んだ3選にとどまらず、なんと25もの事例が載っていることなので、本記事を読んで気になった方はぜひ本書を手に取ってみてください!
Python

「自然科学の統計学」第8章演習問題1-線形確率モデルとの比較をPythonで解いてみた

今回の記事では、統計学の青本「自然科学の統計学」の第8章-演習問題1「線形確率モデルとの比較」をPythonで解いていきたいと思います。 今回の問題は非常にシンプルな単回帰モデルの構築なので、かなり理解いただきやすいかと思われます。
Python

「自然科学の統計学」第5章演習問題6のブラッドリー・テリーのモデルへの$\chi^2$適合度検定をPythonで解いてみた

今回の記事では、統計学の青本「自然科学の統計学」の第5章-演習問題6「ブラッドリー・テリーのモデル」にPythonを適用して問題を解いていきたいと思います。 今回実装するPythonコードの詳細については別記事で紹介しているので、本記事では実装コードと結果について簡単に共有させていただきます!
Python

統計学の青本「自然科学の統計学」第5章演習問題5のポアソン分布と負の二項分布に対する$\chi^2$適合度検定をPythonで解いてみた

今回の記事では、統計学の青本「自然科学の統計学」の第5章-演習問題5「適合度検定: 得点データへの分布の当てはめ」にPythonを適用して問題を解いていきたいと思います。 今回の問題ではポアソン分布や負の二項分布などのマーケティング領域でよく使われる分布が出てきますので、みなさんもぜひマーケティング分野において$\chi^2$検定を行いたい場合には、本記事の実装を調整して活用してみてください!
Python

「自然科学の統計学」第5章演習問題4のある分布の仮定を置いた時の$\chi^2$適合度検定をPythonで解いてみた

今回の記事では、統計学の青本「自然科学の統計学」の第5章-演習問題4「$\chi^2$適合度検定統計量の分布」にPythonを適用して問題を解いていきたいと思います。 今回の記事のコードを使用すれば、自身で仮定した分布に対する$\chi^2$適合度検定を実施することができるようになるので、ぜひみなさんの検定にも活用してみてください!
Python

「自然科学の統計学」第5章演習問題2の擬似標準正規乱数と標準正規分布の理論値の$\chi^2$適合度検定をPythonで実装してみた

今回の記事では、統計学の青本「自然科学の統計学」の第5章「適合度検定」の演習問題2「疑似乱数の適合度検定」における疑似標準正規乱数と標準正規分布の理論値の$chi^2$適合度検定のPythonでの実装について紹介いたします! 私は今回のコード作成を通じて、正規分布や$\chi^2$分布の上側確率をPythonで求める方法について知ることができました! 皆さんも本記事を通して、統計学的側面またはPythonの実装の側面で何らかの学びを得ていただけると幸いです!
Python

「自然科学の統計学」第5章演習1問目の$\chi^2$適合度検定をPythonで解いてみた

今回の記事では、統計学の青本「自然科学の統計学」の第5章-演習問題1「カイ二乗適合度検定統計量の分布」にPythonを適用して問題を解いていきたいと思います。 カイ二乗適合度検定に馴染みのない方でも理解いただけるように解説したので、カイ二乗適合度検定のPythonでの実装が気になる方や、数学の問題を通してPythonについての理解を深めたい方はぜひ参考にしてください!
Python

統計学の青本「自然科学の統計学」の勝敗の確率モデル(ブラッドリー・テリーのモデル)を利用してチームの強さを推定してみた

今回の記事では、統計学の青本「自然科学の統計学」に登場する、チーム間の勝敗を計算するモデル「ブラッドリー・テリーのモデル(Bradly-Terry's model)」によるチームの強さの推定をPythonで実装してみたので、実装の中身について紹介いたします。 このプログラムは$N\times N$の勝敗表があれば、それぞれのチームの強さを数値で求めることができ、なおかつ2つのチームが対戦した場合の勝率についても理論的に計算することができますので、チーム間の勝率を計算してみたい方はぜひご活用ください!