こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!
今回の記事では、統計学の青本「自然科学の統計学」の第7章-演習問題2「標本平均と標本中央値」の証明について解説していきたいと思います。
今回の問題の主題は「標本平均はなぜ二乗誤差を最小にするのか」「標本中央値はなぜ絶対誤差を最小にするのか」です。
本解説を読んで、標本平均と標本中央値に対する理解度を深めていただけると幸いです!
問題文
<標本平均と標本中央値>
i ) 観測値$X_1, \cdots, X_n$が与えられた時、
$$\sum_{i = 1}^n (X_i – \theta)^2$$
を最小にする$\theta$は$\theta = \bar{X}$であることを示せ
ii ) 同じく$\theta = X_{med}$は
$$\sum_{i = 1}^n \left|X_i- \theta\right|$$
を最小にすることを示せ。
(注) ii) は順序統計量$X_{(1)} \leqq \cdots \leqq X_{(n)}$を考えれば、扱いやすくなる。
東京大学教養学部統計学教室『自然科学の統計学』(東京大学出版社/2001) 第7章 演習問題 P228
(i)の解説
(i)について、$L(\theta)=\sum_{i = 1}^n (X_i – \theta)^2$とすると、$L(\theta)$が最小になるように$\theta$の値を見つけることがゴールです。
ここで、$L(\theta)$を二乗を展開して式変形していくと
$$L(\theta) = \sum_{i = 1}^n (X_i – \theta)^2$$
$$=\sum_{i = 1}^n (X_i^2 – 2\theta X_i + \theta^2)$$
$$= \sum_{i = 1}^n X_i^2 -2\theta \sum_{i=1}^n X_i + \sum_{i = 1}^n \theta^2$$
$$ = \sum_{i = 1}^n X_i^2 – 2\theta \sum_{i = 1}^n X_i + n\theta^2$$
$$ = n\theta^2 – 2\theta \sum_{i=1}^n X_i + \sum_{i=1}^n X_i^2$$
$$ = n \left(\theta^2 – 2 \theta \frac{\sum_{i=1}^n X_i}n\right) + \sum_{i=1}^n X_i^2$$
$$ = n\left( \theta^2 – 2\theta \bar{X} + \bar{X}^2 – \bar{X}^2\right) + \sum_{i = 1}^n X_i^2$$
$$= n\left( \theta^2 – 2\theta \bar{X} + \bar{X}^2 \right)- n\bar{X}^2 + \sum_{i=1}^n X_i^2$$
$$ =n ( \theta – \bar{X})^2 – n\bar{X}^2 + \sum_{i = 1}^n X_i^2$$
ここで、$\theta$を動かして$L(\theta)$を最小にすることを考えると、上式から$\theta = \bar{X}$で$L(\theta)$最小となることがわかる。
(ii)の解説
次に、$\sum_{i = 1}^n \left| X_i – \theta\right|$を最小にする$\theta$が$X_{med}$であることを証明しましょう。
証明の方針として、$L(\theta) = \sum_{i = 1}^n \left| X_i – \theta\right|$とした時
どんな$\theta = m$をとっても、$L(m) \geqq L(X_{med})$となってしまう
ということを示したいと思います。
前提条件として、$n$が奇数である時を考え、$n=2k + 1$とします。
そして、$X_{(1)} \leqq \cdots \leqq X_{(k)} \leqq \cdots \leqq X_{(n)}$のように右下の数字が大きくなるにつれ、$X_{(i)}$の値が大きくなるものとすると
$$X_{med} = X_{(k)}$$
となります。
ここで、$\delta = m – X_{med}$とし、$\delta \geqq 0$について考えます。
まずは、以下の2パターンについてそれぞれ考えてみましょう。
- $i \leqq k + 1$の時
- $i > k +1$の時
$i \leqq k + 1$の時
$i \leqq k + 1$の時、$X_{med} – X_i \geqq 0$が常に成り立ちます。
ここで、$|m – X_i|$について考えると、
$$|m – X_i| = |X_{med} + m – X_{med} – X_i|$$
$$=|X_{med} + \delta – X_i| = (X_{med} – X_i) + \delta = |X_{med} – X_i| + \delta$$
$i > k +1$の時
$i > k +1$の時、$X_i – X_{med} \geqq 0$が常に成り立ちます。
ここで、$|m – X_i|$について三角不等式を適用すると、
$$|m – X_i| = |(X_{med} + \delta) – X_i| \geqq |X_{med} – X_i| + \delta$$
よって、$L(m)$について考えると
$$L(m) = \sum_{i = 1}^{k + 1} |m- X_{med}| + \sum_{i = k + 2}^n |m – X_{med}|$$
$$\geqq \sum_{i = 1}^{k+ 1}(|X_{med} – X_i| + \delta ) + \sum_{i = k + 2}^{n}(|X_{med} – X_i| + \delta )$$
$$ = L(X_{med}) + n\delta$$
ここで、$\delta \geqq 0$であるから、$L(m) \geqq L(X_{med})$
よって、$\theta = X_{med}$の時、$L(\theta)$は最小となる。
同様にして、$n$が偶数の時や$\delta < 0$の時も同様に証明することができます。
まとめ
今回の記事では、統計学の青本「自然科学の統計学」の第7章-演習問題2「標本平均と標本中央値」の証明について解説しました。
二乗誤差については式変形によって証明を行い、絶対誤差についてはいかなる値$\theta = m$の時よりも$\theta = X_{med}$の時の値の方が小さいという観点で証明を行いました。
ちなみに二乗誤差については$L(\theta)$を$\theta$で偏微分することでも$\theta = \bar{X}$で最小値を取ることを証明することができます。
お時間のある方はぜひチャレンジしてみてください!
コメント