こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!
今回の記事では、統計学の青本「自然科学の統計学」の第1章-演習問題1「二項分布」を丁寧に解説していきたいと思います。
確率分布の期待値/分散計算の基礎的な内容を扱っているので、皆さんもぜひ本演習から他の確率分布の期待値/分散を求めていただけると幸いです!
問題文
<二項分布>
二項分布$Bi(n, p)$の期待値と分散を、定義に従って導け.
東京大学教養学部統計学教室『自然科学の統計学』(東京大学出版社/2001) 第1章 P22
離散確率分布の期待値と分散の定義
離散的な確率変数において、取りうる値が$x_i,~i = 0,1,2,\cdots$であるとき確率関数$p_i$を
$$p_i = P(X = x_i)~~(i = 0,1,2,\cdots)$$
で定義する。この時、期待値$E(X)$と以下の式で定義する。
$$E(X) = \sum_i p_i x_i$$
また、$\mu = E(X)$とすると分散$V(X)$は以下の式で定義する。
$$V(X) = E\{(X- \mu)^2\} = \sum_i p_i (x_i – \mu)^2$$
また、上式を変形すると、以下の式が求められる
$$V(X) = E\{(X- \mu)^2\} = E(X^2) – \mu^2$$
二項分布の確率関数
ある試行が成功する確率を$p$、失敗する確率を$q=1-p$とすると、$n$回中$k$回成功する確率$p(x)$は以下の式で与えられる。
$$p(x) = {}_n \mathrm{C}_k p^k (1-p)^{n-k}$$
組み合わせ${}_n \mathrm{C}_k$
$n$個から$k$個を取り出す組み合わせの総数${}_n \mathrm{C}_k$は次のように計算する
$${}_n \mathrm{C}_k = \frac{n!}{(n-k)! k!}$$
二項定理とは?
任意の有理数$a, b$と任意の正整数$n$について、以下の式を二項定理と呼ぶ
$$(a + b)^n = \sum_{k = 0}^n {}_n \mathrm{C}_k a^{n-k} b^{k}$$
$E(X)$の導出
$$E(X) = \sum_{k=1}^n k {}_n \mathrm{C}_k p^k q^{n-k}$$
$$= \sum_{k=1}^n \frac{n!}{(n-k)!k!} kp^k q^{n-k}$$
ここで、
$$\frac{k}{k!} = \frac{k}{k\cdot (k-1)\cdots 1} = \frac{1}{(k-1)\cdots 1}$$
であるから、
$$E(X)= \sum_{k=1}^n \frac{n!}{(n-k)!(k-1)!} p^k q^{n-k}$$
$$ = \sum_{k=1}^n \frac{n \cdot (n-1)!}{(n-k)!(k-1)!} p^k q^{n-k}$$
$$ = \sum_{k=1}^n {}_{n-1}\mathrm{C}_{k-1} n p^k q^{n-k}$$
$$ = np \sum_{k=1}^n {}_{n-1}\mathrm{C}_{k-1} p^{k-1} q^{n-k}$$
$$ = np \sum_{k=0}^n {}_{n-1}\mathrm{C}_k p^k q^{n-k-1}$$
$$ = np (p + q)^{n-1} = np \times 1^{n-1} = np$$
$V(X)$の導出
$V(X)$を求めるために、$\mu = np$が分かっているので$E(X^2)$が分かればいい。
先ほどの計算を利用すると、$E(X^2)$を求めるために$E\left[ X(X-1)\right]$をまず求める。
$$E\left[ X(X-1)\right] = \sum_{k=1}^n k(k-1) {}_n \mathrm{C}_k p^k q^{n-k}$$
$$=\sum_{k=1}^n \frac{n!}{(n-k)!k!} k(k-1)p^k q^{n-k}$$
$$=\sum_{k=1}^n \frac{n!}{(n-k)!(k-2)!} p^k q^{n-k}$$
$$=n(n-1) \sum_{k=1}^n \frac{(n-2)!}{(n-k)!(k-2)!} p^k q^{n-k}$$
$$=n(n-1) \sum_{k=1}^n {}_{n-2} \mathrm{C}_{k-2} p^k q^{n-k}$$
$$= n(n-1)p^2 \sum_{k=1}^n {}_{n-2} \mathrm{C}_{k-2} p^{k-2} q^{n-k}$$
${}_{n-2} \mathrm{C}_{k-1}$において、$k=0, 1$の場合を考えると${}_{n-2} \mathrm{C}_{-1}$のようになりますが、これは文章にすると「$n-2$個の中から$-1$個を取り出す」という意味となり、そのような組み合わせは存在しないことが分かります。
つまり、${}_{n-2} \mathrm{C}_{-1} = {}_{n-2} \mathrm{C}_{-2} = 0$となります。
余談ですが、${}_{n} \mathrm{C}_0 = 1$はあらかじめ定められています。
${}_{n-2} \mathrm{C}_{-1} = 0$は以下のようなロジックでも導くことができます。
$(n-1)!$について考える
$$\frac{n!}{n} = (n-1)! \cdots(*)$$
であることは自明と考えられます。
$(-1)!$について考える
$(*)$式に$n=0$を代入すると、
$$(-1)! = \frac{0!}{0} = \frac10$$
となり、$(-1)!$は無限大に発散することがわかります。
${}_{n-2} \mathrm{C}_{-1}$について考える
$${}_{n-2} \mathrm{C}_{-1} = \frac{(n-2)!}{(n-1)!(-1)!}$$
である、分母に無限大があることから、
$${}_{n-2} \mathrm{C}_{-1} = 0$$
となることがわかります。
よって、
$$E\left[ X(X-1)\right] = n(n-1)p^2 \sum_{k=2}^n {}_{n-2} \mathrm{C}_{k-2} p^{k-2} q^{n-k}$$
$$=n(n-1)p^2 \sum_{k = 0}^{n-2} {}_{n-2} \mathrm{C}_{k} p^{k} q^{n-k-2}$$
$$ = n(n-1)p^2 (p + q)^{n-2} = n(n-1)p^2$$
よって、
$$E\left[X(X-1)\right] = n(n-1)p^2$$
$$E(X^2) – E(X) = n(n-1)p^2$$
$$E(X^2) = n(n-1)p^2 + E(X) = n(n-1)p^2 + np$$
よって、
$$V(X) = E(X^2) – \mu^2 = n(n-1)p^2 + np – (np)^2$$
$$ = n^2p^2 – np^2 + np – n^2p^2 = np – np^2 = np(1-p)$$
まとめ
今回の記事では、統計学の青本「自然科学の統計学」の第1章-演習問題1「二項分布」を丁寧に解説しました!
本書には略解しか書いていませんが、意外に厳密に計算をしようとすると組み合わせ${}_n\mathrm{C}_k$の$k$が負の数にぶち当たったりなど、本書とはまた違った学びがあったかと思います。
本記事が皆さんの独学のお役に立てていれば幸いです!
コメント