こんにちは!データサイエンティストの青木和也(https://twitter.com/kaizen_oni)です!
今回の記事では、統計学の青本「自然科学の統計学」の第6章-演習問題4「正規分布の母平均の一様最強力検定」の証明について解説していきたいと思います。
解説には載っていないような途中式まで明記をして証明をしていきたいと思いますので、参考にしていただけると幸いです。
問題文
<正規分布の母平均の一様最強力検定>
ネイマン・ピアソンの補題を用いて、正規分布で$\sigma^2 = \sigma_0^2$が既知の場合の$\mu$に関する片側検定で、(6.11)の検定が一様最強力検定となることを証明せよ
※(6.11)式は以下のとおり
$$Z > z_{\alpha}$$
東京大学教養学部統計学教室『自然科学の統計学』(東京大学出版社/2001) 第6章 演習問題 P200
ネイマン・ピアソンの補題
「自然科学の統計学」にはネイマン・ピアソンの補題について以下のような記載があります。
なお、一部を今回の問題のために書き換えています。
密度関数または確率関数を$f_{\theta}(x)$とする。
単純帰無仮説を単純対立仮説に対して検定する検定問題
$$(6.35)~~~H_0~:~\theta = \theta_0~~~~H_1~:~\theta = \theta_1$$
を考える。
$$\frac{f_{\theta_1}(x)}{f_{\theta_0}} > kならば帰無仮説を棄却,$$
$$\frac{f_{\theta_1}(x)}{f_{\theta_0}} \leqq kならば帰無仮説を採択$$
で定義される検定方式を$\delta^*$とおく。
なお、上式は$n=1$の場合について考えているが、$f_{\theta}(x)$を$\prod_{i=1}^n f_[\theta}(x_i)$とすれば一般の$n$についても成り立つ。
いま、定数$k$を$\delta^*$の第一種の過誤の確率が、指定された$\alpha$に対して
$$(6.37)~~~~\alpha = P_{\theta_0}(f_{\theta_1}(X) / f_{\theta_0}(X) > k)$$
となるようにおこう。この時、有意水準$\alpha$の検定の中で$\delta^*$は$\theta_1$における検出力を最大にする。
すなわち、$\delta^*$は最強力検定である。
東京大学教養学部統計学教室『自然科学の統計学』(東京大学出版社/2001) 第6章 P197
単純帰無仮説/単純対立仮説とは?
単純帰無仮説/単純対立仮説とは、帰無仮説及び対立仮説がともに1点であるような検定のことをいいます。
本問題のように、
$$H_0~:~\theta = \theta_0~~~~H_1~:~\theta = \theta_1$$
における検定はともに単純検定ですし、逆に
$$H_0~:~\theta = \theta_0~~~~H_1~:~\theta \neq \theta_0$$
のような検定は単純仮説ではありません。
第一種の過誤とは?
第一種の過誤とは、帰無仮説が正しいときに帰無仮説を棄却してしまうような誤りのことを言います。
例えば、帰無仮説が「がんではない」、対立仮説が「がんである」のような時に
本当はがんでないにも関わらず、がんだと診断してしまうような状況は第一種の過誤と呼べるでしょう。
最強力検定/一様最強力検定とは?
まずは、一般の検定問題において、帰無仮説$H_0:~\theta \in \Theta_0$、対立仮説$H_0:~\theta \in \Theta_1$とします。
有意水準$\alpha$とすると、すべての$\theta \in \Theta_0$に対して
$$\beta_{\delta}(\theta) \leqq \alpha $$
であるような検定(=第一の過誤の確率が有意水準以下に抑えられている検定)の中で、
特定の対立仮説の点$\theta_1 \in \Theta_1$において検出力を最大
$$\max_{\delta}\beta_{\delta}(\theta_1) = \beta_{\delta \theta_1}^*(\theta_1)$$
にする検定$\delta_{\theta_1}^*$を、$\theta_1$における最強力検定と呼ぶ。
上記は特定の一点$\theta_1\in\Theta_1$においてでしたが、これがいかなる対立仮説の点$\theta_1\in\Theta_1$で成り立つ場合は$\delta^*$を一様最強力検定と呼びます。
証明
上記のCheckを含めると証明のための準備は整っているので、順次証明を進めていきましょう。
証明は以下のような手順で進めていきます。
- 一般の$n$についてのネイマン・ピアソンの補題を正規分布に適応する
- 両辺の対数を取って、最終的に$Z = \frac{\sqrt{n}(\bar{x] – \mu_0)}{\sigma_0}$を作るために、$\bar{x} > ⚪︎$の式を作成する
- $Z>z_{\alpha}$となるように⚪︎の値を調整する
一般の$n$についてのネイマン・ピアソンの補題を正規分布に適応する
正規分布の密度関数は$\frac1{\sqrt{2\pi}}\exp\left(
-\frac{(x-\mu_1)^2}{2\sigma_0^2}\right)$なので、一般の$n$についてのネイマン・ピアソンの補題より、単純帰無仮説を棄却するような検定$\delta^*$は以下の式で表される
$$\frac{\prod \exp\left(-\frac{(x_i-\mu_1)^2}{2\sigma_0^2}\right)}{\prod \exp\left(-\frac{(x_i-\mu_0)^2}{2\sigma_0^2}\right)} > k$$
なお、上式では分母・分子の$\frac1{\sqrt{2\pi}}$はすでに約分されている。
上式の左辺を計算すると、
$$\frac{\prod \exp\left(-\frac{(x_i-\mu_1)^2}{2\sigma_0^2}\right)}{\prod \exp\left(-\frac{(x_i-\mu_0)^2}{2\sigma_0^2}\right)} = \frac{\exp\left(-\frac{\sum(x_i-\mu_1)^2}{2\sigma_0^2}\right)}{\exp\left(-\frac{\sum(x_i-\mu_0)^2}{2\sigma_0^2}\right)} $$
と計算され、分母・分子の$\exp$をさらに計算すると
$$\frac{\exp\left(-\frac{\sum(x_i-\mu_1)^2}{2\sigma_0^2}\right)}{\exp\left(-\frac{\sum(x_i-\mu_0)^2}{2\sigma_0^2}\right)} = \exp\left(\frac{\sum(x_i-\mu_0)^2 – \sum(x_i-\mu_1)^2}{2\sigma_0^2}\right) > k$$
となる。
両辺の対数を取って、最終的に$Z = \frac{\sqrt{n}(\bar{x} – \mu_0)}{\sigma_0}$を作るために、$\bar{x} > ⚪︎$の式を作成する
ここで、指数関数$e^x$は必ず0より大きいので、両辺の対数を取ると、
$$\frac{\sum(x_i – \mu_0)^2 – \sum(x_i – \mu_1)^2}{2\sigma_0^2} > \log k$$
ここで、両辺に$2\sigma_0^2$を掛け算し、左辺の2乗を展開して整理すると、
$$ 2(\mu_1 – \mu_0)\sum x_i + n(\mu_0^2 – \mu_1^2) > 2\sigma_0^2 \log k$$
$$2(\mu_1 – \mu_0)\sum x_i > 2\sigma_0^2 \log k + n(\mu_1^2 – \mu_0^2)$$
$$2(\mu_1 – \mu_0)\sum x_i > 2\sigma_0^2 \log k+ n(\mu_1 – \mu_0)(\mu_1 + \mu_0)$$
$$\frac{\sum x_i}n > \frac{2\sigma_0^2 \log k+ n(\mu_1 – \mu_0)(\mu_1 + \mu_0)}{2n(\mu_1 – \mu_0)}$$
$$\bar{x} > \frac{\sigma_0^2 \log k}{n(\mu_1 – \mu_0)} + \frac{\mu_1 – \mu_0}{2}$$
ここで、右辺の$x_i$の値によらず$k,~\mu_1,~\mu_0,~\sigma_0$から決定するので、定数$c$で置き換えることにより
$$\bar{x} > c$$
と表すことができる。
$Z>z_{\alpha}$となるように⚪︎の値を調整する
ここで、ゴールを$Z>z_{\alpha}$に持っていくために、$Z=\frac{\sqrt{n}(\bar{x} – \mu)}{\sigma}$について考える。
この時、$\frac{\sqrt{n}(\bar{x} – \mu)}{\sigma} > z_{\alpha}$の左辺を$\bar{x}$となるように順次計算をしていくと
$$\frac{\sqrt{n}(\bar{x} – \mu)}{\sigma} > z_{\alpha}$$
$$\bar{x} > \frac{\sigma z_{\alpha}}{\sqrt{n}} + \mu$$
よって、先ほど求めた$\bar{x} > c$と見比べると、
$$c = \frac{\sigma z_{\alpha}}{\sqrt{n}} + \mu$$となるように$k$の値を操作して決定することによって、$\bar{x} > c$の検定は$Z > z_{\alpha}$となる。
よって、ネイマン・ピアソンの補題より
$$Z > z_{\alpha}$$
は最強力検定である。
ここで、$c$の値を決定する際に、対立仮説$\mu_1$がどのような値であっても、$k$を調整することによって、$c$を$\frac{\sigma z_{\alpha}}{\sqrt{n}} + \mu$の値と等しくすることは可能である。
つまり、$Z>z_{\alpha}$は対立仮説によらず最強力検定であるので、一様最強力検定である。
まとめ
今回の記事では、統計学の青本「自然科学の統計学」の第6章-演習問題4「正規分布の母平均の一様最強力検定」の証明について解説していきました。
本書の解説の証明はやや端折っている部分があるため、今回の記事ではかなり詳細に式変形について記述をさせていただきました。
証明読解の参考になれば幸いです。
コメント