「自然科学の統計学」第1章演習問題1-二項分布を丁寧に解説してみた

統計基礎
元教師
元教師

こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!

今回の記事では、統計学の青本「自然科学の統計学」の第1章-演習問題1「二項分布」を丁寧に解説していきたいと思います。

確率分布の期待値/分散計算の基礎的な内容を扱っているので、皆さんもぜひ本演習から他の確率分布の期待値/分散を求めていただけると幸いです!

問題文

<二項分布>

二項分布$Bi(n, p)$の期待値と分散を、定義に従って導け.

東京大学教養学部統計学教室『自然科学の統計学』(東京大学出版社/2001) 第1章 P22

離散確率分布の期待値と分散の定義

離散的な確率変数において、取りうる値が$x_i,~i = 0,1,2,\cdots$であるとき確率関数$p_i$を

$$p_i = P(X = x_i)~~(i = 0,1,2,\cdots)$$

で定義する。この時、期待値$E(X)$と以下の式で定義する。

$$E(X) = \sum_i p_i x_i$$

また、$\mu = E(X)$とすると分散$V(X)$は以下の式で定義する。

$$V(X) = E\{(X- \mu)^2\} = \sum_i p_i (x_i – \mu)^2$$

また、上式を変形すると、以下の式が求められる

$$V(X) = E\{(X- \mu)^2\} = E(X^2) – \mu^2$$

二項分布の確率関数

ある試行が成功する確率を$p$、失敗する確率を$q=1-p$とすると、$n$回中$k$回成功する確率$p(x)$は以下の式で与えられる。

$$p(x) = {}_n \mathrm{C}_k p^k (1-p)^{n-k}$$

組み合わせ${}_n \mathrm{C}_k$

$n$個から$k$個を取り出す組み合わせの総数${}_n \mathrm{C}_k$は次のように計算する

$${}_n \mathrm{C}_k = \frac{n!}{(n-k)! k!}$$

二項定理とは?

任意の有理数$a, b$と任意の正整数$n$について、以下の式を二項定理と呼ぶ

$$(a + b)^n = \sum_{k = 0}^n {}_n \mathrm{C}_k a^{n-k} b^{k}$$

$E(X)$の導出

$$E(X) = \sum_{k=1}^n k {}_n \mathrm{C}_k p^k q^{n-k}$$

$$= \sum_{k=1}^n \frac{n!}{(n-k)!k!} kp^k q^{n-k}$$

ここで、

$$\frac{k}{k!} = \frac{k}{k\cdot (k-1)\cdots 1} = \frac{1}{(k-1)\cdots 1}$$

であるから、

$$E(X)= \sum_{k=1}^n \frac{n!}{(n-k)!(k-1)!} p^k q^{n-k}$$

$$ = \sum_{k=1}^n \frac{n \cdot (n-1)!}{(n-k)!(k-1)!} p^k q^{n-k}$$

$$ = \sum_{k=1}^n {}_{n-1}\mathrm{C}_{k-1} n p^k q^{n-k}$$

$$ = np \sum_{k=1}^n {}_{n-1}\mathrm{C}_{k-1} p^{k-1} q^{n-k}$$

$$ = np \sum_{k=0}^n {}_{n-1}\mathrm{C}_k p^k q^{n-k-1}$$

$$ = np (p + q)^{n-1} = np \times 1^{n-1} = np$$

$V(X)$の導出

$V(X)$を求めるために、$\mu = np$が分かっているので$E(X^2)$が分かればいい。

先ほどの計算を利用すると、$E(X^2)$を求めるために$E\left[ X(X-1)\right]$をまず求める。

$$E\left[ X(X-1)\right] = \sum_{k=1}^n k(k-1) {}_n \mathrm{C}_k p^k q^{n-k}$$

$$=\sum_{k=1}^n \frac{n!}{(n-k)!k!} k(k-1)p^k q^{n-k}$$

$$=\sum_{k=1}^n \frac{n!}{(n-k)!(k-2)!} p^k q^{n-k}$$

$$=n(n-1) \sum_{k=1}^n \frac{(n-2)!}{(n-k)!(k-2)!} p^k q^{n-k}$$

$$=n(n-1) \sum_{k=1}^n {}_{n-2} \mathrm{C}_{k-2} p^k q^{n-k}$$

$$= n(n-1)p^2 \sum_{k=1}^n {}_{n-2} \mathrm{C}_{k-2} p^{k-2} q^{n-k}$$

${}_{n-2} \mathrm{C}_{k-1}$において、$k=0, 1$の場合を考えると${}_{n-2} \mathrm{C}_{-1}$のようになりますが、これは文章にすると「$n-2$個の中から$-1$個を取り出す」という意味となり、そのような組み合わせは存在しないことが分かります。

つまり、${}_{n-2} \mathrm{C}_{-1} = {}_{n-2} \mathrm{C}_{-2} = 0$となります。

余談ですが、${}_{n} \mathrm{C}_0 = 1$はあらかじめ定められています。

${}_{n-2} \mathrm{C}_{-1} = 0$は以下のようなロジックでも導くことができます。

$(n-1)!$について考える

$$\frac{n!}{n} = (n-1)! \cdots(*)$$

であることは自明と考えられます。

$(-1)!$について考える

$(*)$式に$n=0$を代入すると、

$$(-1)! = \frac{0!}{0} = \frac10$$

となり、$(-1)!$は無限大に発散することがわかります。

${}_{n-2} \mathrm{C}_{-1}$について考える

$${}_{n-2} \mathrm{C}_{-1} = \frac{(n-2)!}{(n-1)!(-1)!}$$

である、分母に無限大があることから、

$${}_{n-2} \mathrm{C}_{-1} = 0$$

となることがわかります。

よって、

$$E\left[ X(X-1)\right] = n(n-1)p^2 \sum_{k=2}^n {}_{n-2} \mathrm{C}_{k-2} p^{k-2} q^{n-k}$$

$$=n(n-1)p^2 \sum_{k = 0}^{n-2} {}_{n-2} \mathrm{C}_{k} p^{k} q^{n-k-2}$$

$$ = n(n-1)p^2 (p + q)^{n-2} = n(n-1)p^2$$

よって、

$$E\left[X(X-1)\right] = n(n-1)p^2$$

$$E(X^2) – E(X) = n(n-1)p^2$$

$$E(X^2) = n(n-1)p^2 + E(X) = n(n-1)p^2 + np$$

よって、

$$V(X) = E(X^2) – \mu^2 = n(n-1)p^2 + np – (np)^2$$

$$ = n^2p^2 – np^2 + np – n^2p^2 = np – np^2 = np(1-p)$$

まとめ

今回の記事では、統計学の青本「自然科学の統計学」の第1章-演習問題1「二項分布」を丁寧に解説しました!

本書には略解しか書いていませんが、意外に厳密に計算をしようとすると組み合わせ${}_n\mathrm{C}_k$の$k$が負の数にぶち当たったりなど、本書とはまた違った学びがあったかと思います。

本記事が皆さんの独学のお役に立てていれば幸いです!

コメント

タイトルとURLをコピーしました