【統計検定1級対策】F分布の確率密度関数と期待値・分散の導出
目次
前書き
本日紹介するのは$F$分布です。
$F$検定で使用する$F$検定統計量が従う分布となっています。
$U\sim \chi^2(p), V\sim \chi^2(q)$が独立の時$X=\frac{U/p}{V/q}$が従う分布は$F$分布となります。
先日学習しましたカイ二乗分布を用いて変数変換をします。
$U,V$のそれぞれの確率密度関数は
$$
\begin{eqnarray}
f_U(u)&=&\frac{1}{\Gamma\left(\frac{p}{2}\right)}\left(\frac{1}{2}\right)^{\frac{p}{2}}u^{\frac{p}{2}-1}e^{-\frac12u}\\\
f_V(v)&=&\frac{1}{\Gamma\left(\frac{q}{2}\right)}\left(\frac{1}{2}\right)^{\frac{q}{2}}v^{\frac{q}{2}-1}e^{-\frac12v}
\end{eqnarray}
$$
となります、ここで変数変換をしていくために$V=Y$を導入してあげます。
これで1対1の関数が定義できましたので逆関数を考えます。
$$
\begin{eqnarray}
u&=&\frac{p}{q}xy\\\
v&=&y
\end{eqnarray}
$$
$U,V$から$X,Y$へ変数変換しますのでヤコビアン$J(x,y)$を求めましょう。
$|J(x,y)|=\left|
\begin{vmatrix}
\frac{p}{q}y & \frac{p}{q}x \\\
0 & 1
\end{vmatrix}
\right|
=\left|\frac{p}{q}y\right|
=\frac{p}{q}y$。
ここで
最終項で絶対値が取れているのは$y$はカイ二乗分布に従うため定義域が$y>0$であるからです。
それでは変数変換の合言葉「分布関数を求めて、微分、周辺化」をやっていきます。
表記を楽にするため$A:=(-\infty,x] \times (-\infty,y]$、
$(X,Y)^T=\mathbf{h}(u,v)=(h_1(u,v),h_2(u,v))^T=\left(\frac{q}{p}\frac{u}{v},v\right)^T$、
$(U,V)^T=\mathbf{h}^{-1}(x,y)=(h_1^{-1}(x,y),h_2^{-1}(x,y))^T=\left(\frac{p}{q}xy,y\right)^T$とすると、
$$
\begin{eqnarray}
F_{XY}(x,y)&=&P_{XY}((x,y)\in A)\\\
&=&P_{UV}((u,v)\in\mathbf{h}^{-1}(A))\\\
&=&\iint_{\mathbf{h}^{-1}(A)}f_U(u)f_V(v)dudv\\\
&=&\iint_{A}f_{U}\left(\frac{p}{q}xy\right)f_V(y)\frac{p}{q}ydxdy\\\
&=&\iint_{A}\frac{1}{\Gamma\left(\frac{p}{2}\right)}\left(\frac{1}{2}\right)^{\frac{p}{2}}\left(\frac{p}{q}xy\right)^{\frac{p}{2}-1}e^{-\frac12\frac{p}{q}xy}\frac{1}{\Gamma\left(\frac{q}{2}\right)}\left(\frac{1}{2}\right)^{\frac{q}{2}}y^{\frac{q}{2}-1}e^{-\frac12y}dxdy\\\
&=&\iint_{A}\frac{1}{\Gamma(p/2)\Gamma(q/2)}\left(\frac12\right)^{\frac{p+q}{2}}\left(\frac{p}{q}\right)^{\frac{p}{2}}x^{\frac{p}{2}-1}y^{\frac{p+q}{2}-1}e^{-\frac12\left(\frac{p}{q}x+1\right)y}dxdy
\end{eqnarray}
$$
同時分布を求めることができましたので$x,y$で偏微分することで同時確率密度関数を求められます。
$$
\begin{eqnarray}
f_{XY}(x,y)&=&\frac{\partial^2}{\partial x\partial y}F_{XY}(x,y)\\\
&=&\frac{1}{\Gamma(p/2)\Gamma(q/2)}\left(\frac12\right)^{\frac{p+q}{2}}\left(\frac{p}{q}\right)^{\frac{p}{2}}x^{\frac{p}{2}-1}y^{\frac{p+q}{2}-1}e^{-\frac12\left(\frac{p}{q}x+1\right)y}
\end{eqnarray}
$$
自然対数を$y$についてまとめた理由は、今回求めたいものは$X$の確率密度関数なので周辺化して消去するためです。
そして$x^ae^{-bx}$の形が見えるのでガンマ関数ですね。
$$
\begin{eqnarray}
f_X(x)&=&\frac{1}{\Gamma(p/2)\Gamma(q/2)}\left(\frac12\right)^{\frac{p+q}{2}}\left(\frac{p}{q}\right)^{\frac{p}{2}}x^{\frac{p}{2}-1}\int_{0}^{\infty}y^{\frac{p+q}{2}-1}e^{-\frac12\left(\frac{p}{q}x+1\right)y}dy\\\
&=&\frac{1}{\Gamma(p/2)\Gamma(q/2)}\left(\frac12\right)^{\frac{p+q}{2}}\left(\frac{p}{q}\right)^{\frac{p}{2}}x^{\frac{p}{2}-1}\frac{\Gamma\left(\frac{p+q}{2}\right)}{\left(\frac12\left(\frac{p}{q}x+1\right)\right)^{\frac{p+q}{2}}}\\\
&=&\frac{1}{B(p/2,q/2)}\left(\frac{p}{q}\right)^{\frac{p}{2}}x^{\frac{p}{2}-1}\left(\frac{p}{q}x+1\right)^{-\frac{p+q}{2}}\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}x^{\frac{p}{2}-1}(px+q)^{-\frac{p+q}{2}}
\end{eqnarray}
$$
式変形について解説します。
- 第二式から第三式:積分がガンマ関数なので$\Gamma$で書き換えました。
- 第三式から第四式:$(1/2)^{\frac{p+q}{2}}$を約分し、ガンマ関数とベータ関数の関係性$B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$を使って書き換えを行いました。
- 第四式から第五式:第四式の最後の項の$\left(\frac{p}{q}x+1\right)^{-\frac{p+q}{2}}$を$\left(\frac{1}{q}\right)^{-\frac{p+q}{2}}(px+q)^{-\frac{p+q}{2}}$として、約分を実施してあげました。
それではいつものように結論を見て導出の詳細を見ていきましょう。
初めに結論
項目 | 値 |
---|---|
台 | $x\in \mathbb{R}$ |
確率関数 | $f(x;p,q)=\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}x^{\frac{p}{2}-1}(px+q)^{-\frac{p+q}{2}}$ |
積率母関数 | きれいな形で求まらない |
平均 | $\frac{q}{q-2}\quad;q>2$ |
分散 | $2\left(\frac{q}{q-2}\right)^2\frac{p+q-2}{p(q-4)}\quad; q>4$ |
導出
積率母関数
$F$分布はきれいな形で積率母関数が求まりませんので導出はしません。
平均
定義通りに計算してあげます。
今回も置換積分を利用します、置換積分することでベータ関数の形が作ることができます。
置換する前の部分まで式変形をしていきましょう。
少し変な変形をしますが、これは後の置換積分のためです。
$$
\begin{eqnarray}
E(X)&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}\int_{0}^{\infty}xx^{\frac{p}{2}-1}(px+q)^{\frac{p+q}{2}}dx\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}q^{-\frac{p+q}{2}}\int_{0}^{\infty}x^{\frac{p}{2}}\left(\frac{p}{q}x+1\right)^{\frac{p+q}{2}}dx
\end{eqnarray}
$$
積分範囲的にはガンマ関数っぽいのですが被積分関数がガンマ関数の形をしてくれていません、そんなときは積分対象の変数の逆数を置換することで積分範囲をベータ関数の$(0,1)$に持っていくことができます。
今回は$t=(\frac{p}{q}x+1)^{-1}$と置換します、これにより$x=\frac{q}{p}\left(\frac{1}{t}-1\right)$となるので$\frac{dx}{dt}=\frac{q}{p}\left(-\frac{1}{t^2}\right)$となります。
また$t$の積分範囲は$1\to 0$となります。
それでは期待値の導出の続きを見ていきましょう。
$$
\begin{eqnarray}
E(X)&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}q^{-\frac{p+q}{2}}\int_{0}^{\infty}x^{\frac{p}{2}}\left(\frac{p}{q}x+1\right)^{\frac{p+q}{2}}dx\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}q^{-\frac{p+q}{2}}\int_{1}^{0}\left(\frac{q}{p}\right)^{p/2}\left(\frac{1}{t}-1\right)^{p/2}t^{\frac{p+q}{2}}\left(-\frac{q}{p}\right)t^{-2}dt\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}\left(\frac{q}{p}\right)^{\frac{p}{2}+1}q^{-\frac{p+q}{2}}\int_0^1t^{\left(\frac{q}{2}-1\right)-1}(1-t)^{\left(\frac{p}{2}+1\right)-1}dt\\\
&=&\frac{q}{p}\frac{B\left(\frac{q}{2}-1,\frac{p}{2}+1\right)}{B(p/2,q/2)}\\\
&=&\frac{q}{p}\frac{\Gamma\left(\frac{q}{2}-1\right)\Gamma\left(\frac{p}{2}+1\right)}{\Gamma((p+q)/2)}\frac{\Gamma((p+q)/2)}{\Gamma(p/2)\Gamma(q/2)}\\\
&=&\frac{q}{p}\frac{\Gamma\left(\frac{q}{2}-1\right)\frac{p}{2}\Gamma(p/2)}{\Gamma(p/2)\left(\frac{q}{2}-1\right)\Gamma\left(\frac{q}{2}-1\right)}\\\
&=&\frac{q}{q-2}
\end{eqnarray}
$$
式変形について補足しておきます。
- 第二式から第三式:先に説明した置換を行いました。このままだとまだベータ関数が少し見えにくいですね。次の行の整理で見やすくなります。
- 第三式から第四式:式を整理しました。ここでベータ関数の形にするため$\left(\frac{1}{t}-1\right)$の部分を$\frac{1}{t}(1-t)$のように変形していることに注意してください。これでベータ関数の形が丸見えですね。
- 第四式から第五式:係数の$p,q$を約分し、ベータ関数を$B(\cdot,\cdot)$の形で書き直しました。
- 第五式から第六式:ベータ関数とガンマ関数の関係性$B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$を利用して書き換えました。
- 第六式から第七式:ガンマ関数は階乗の一般化でしたので$\Gamma(a)=(a-1)\Gamma(a-1)$だったことを利用します。これをすることで後できれいにガンマ関数の部分が約分されます。
分散
分散は$E(X^2)-(E(X))^2$で求めることができますので、二次のモーメントを定義通り求めます。 こちらについても期待値の時と同様の置換を行っていきます。
$$
\begin{eqnarray}
E(X^2)&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}\int_{0}^{\infty}x^2x^{\frac{p}{2}-1}(px+q)^{\frac{p+q}{2}}dx\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}q^{-\frac{p+q}{2}}\int_{0}^{\infty}x^{\frac{p}{2}+1}\left(\frac{p}{q}x+1\right)^{\frac{p+q}{2}}dx\\\
&=&\frac{p^{p/2}q^{q/2}}{B(p/2,q/2)}q^{-\frac{p+q}{2}}\int_{1}^{0}\left(\frac{q}{p}\right)^{\frac{p}{2}+1}\left(\frac{1}{t}-1\right)^{\frac{p}{2}+1}t^{\frac{p+q}{2}}\left(-\frac{q}{p}\right)t^{-2}dt\\\
&=&\frac{p^{-2}q^2}{B(p/2,q/2)}\int_0^1t^{\left(\frac{q}{2}-2\right)-1}(1-t)^{\left(\frac{p}{2}+2\right)-1}dt\\\
&=&\left(\frac{q}{p}\right)^2\frac{B\left(\frac{q}{2}-2,\frac{p}{2}+2\right)}{B(p/2,1/2)}\\\
&=&\left(\frac{q}{p}\right)^2\frac{\Gamma\left(\frac{q}{2}-2\right)\Gamma\left(\frac{p}{2}+2\right)}{\Gamma((p+q)/2)}\frac{\Gamma((p+q)/2)}{\Gamma(p/2)\Gamma(q/2)}\\\
&=&\left(\frac{q}{p}\right)^2\frac{\Gamma\left(\frac{q}{2}-2\right)\left(\frac{p}{2}+1\right)\frac{p}{2}\Gamma(p/2)}{\Gamma(p/2)\left(\frac{q}{2}-1\right)\left(\frac{q}{2}-2\right)\Gamma\left(\frac{q}{2}-2\right)}\\\
&=&\frac{q^2(p+2)}{p(q-2)(q-4)}
\end{eqnarray}
$$
式変形については期待値の時と同様です。
第八式でガンマ関数が階乗の一般化だったことを二回繰り返すこと位が期待値の時との違いですね。
以上より分散は、 $$ \begin{eqnarray} V(X)=\frac{q^2(p+2)}{p(q-2)(q-4)}-\left(\frac{q}{q-2}\right)=\frac{2q^2(p+q-2)}{p(q-2)^2(q-4)}\mbox{。} \end{eqnarray} $$
まとめ
期待値や二次のモーメントの導出の中で経験してないとなかなか気が付けないような置換がありました。 統計検定一級のために確率密度関数を覚えてもいいですがなかなか覚えるのには複雑すぎると思うので、 冒頭に書いた$U\sim \chi^2(p), V\sim\chi^2(q)$が独立で$X=\frac{U/p}{V/q}$が従う分布ということだけ覚えて、 何度も手を動かしサラな状態から何も見ずに導出できるようにしておくのがいいのではないかなと思ってます。 私はこの確率密度関数などは覚える気にはなりませんので検定で出てしまったらイチから導出するつもりです。
それでは、統計検定1級を目指されている方や統計を勉強している方に良い情報提供となることを願って本日は失礼します。
参考文献
- 日本統計学会編, “日本統計学会公式認定 統計検定1級対応 統計学”, 第6刷, 2013, 東京図書, ISBN 978-4-489-02150-3.
- 藤澤洋徳, “確率と統計”, 第9刷, 2006, 朝倉書店, ISBN 978-4-254-11763-9.
- 小寺平治, “明解演習 数理統計”, 初版30刷, 1986, 共立出版, ISBN 978-4-320-01381-0.