【統計検定1級対策】変数変換によって作られる確率変数の確率密度関数の導出の仕方
目次
前書き
更新が少し久しぶりになりました、毎週金曜日は会社の後輩とゲーム定例をやってまして熱中しすぎましたwし、
土曜はグダグダしていましたらエントリを書き損ねてしまいました。。。
言い訳をしたところで本題に入っていきましょう。
先日は統計検定一級で知っておきたい確率分布を理解するために確率質量関数・確率密度関数、積率母関数と期待値・分散をおさえましょうというエントリを書きました。
そして最近のエントリでは統計検定一級で必要となる確率分布を淡々と紹介してきました。
ベータ分布のまとめの部分で少し触れました
変数変換によって作られる新しい確率変数の確率密度関数を導出することは、今後紹介していく確率分布でも必要となってきますし、
統計検定一級で頻出されるパターンの一つでもあるので本エントリで理解が深まるように紹介していきたいと思います。
変数変換により作られる新しい確率変数の確率密度関数を求めるためには同時確率密度関数の周辺化(周辺分布)と分布関数を知らないと話が分からなくなるので、まずはその二つを準備として紹介します。
準備
分布関数
$X$を確率変数としたとき $$F_X(x)=P(X\le x)$$ で定義する$F_X(x)$を(累積)分布関数といいます。 言葉で表現するならば、$-\infty$から$x$までの確率の合計です、 離散であれば$F_X(x)=\sum_{x_k\le x}P(X=x_k)$で、連続であれば$F_X(x)=\int_{-\infty}^xf_X(t)dt$となります。 定義から当然と思われるものばかりですが下記の性質を持ちます。
- $F(a)\le F(b) \quad (a < b)$
- $0\le F(x)\le 1$
- $F(-\infty)=0,F(\infty)=1$
- $F(x)$は右連続
また、$X$が連続の確率変数の場合は$f_X(x)$が連続な点において$f(x)=\frac{d}{dx}F(x)$が成り立ちます。
私は初めてこの分布関数の説明を聞いたときは「っで、何の意味あるのこれ?」と思いあまり重要視していなかったですが、
統計検定一級の勉強を本格的にやり始めてから分布関数がYDKなんだということを思い知りました。
定義もすごい単純なのでなんかありがたみ感じにくい子なんですがすごい子なんですよ。
最後に紹介しました連続型の確率変数で確率密度関数が、連続な点において分布関数の微分が確率密度関数になるという性質がのちに重宝します。
具体的に言えば変数変換した確率変数の密度関数を求めるときに強力な力を発揮します。
そのことだけ知っておいてください。
周辺分布
例えば二変数を取る確率密度関数$f(x,y)$があるとします。 もちろん確率密度関数なので$\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1$となります。 二変数ありますが、$x$にだけ注目したい瞬間が訪れた時に出てくるのが周辺分布です。 周辺分布とは、同時密度関数から注目したい変数以外を積分消去して出てくる確率密度関数を持つ確率分布のことを指します。 また、そのような積分消去する操作のことを周辺化と呼びます。 具体的に数式で表現すれば、同時確率密度関数$f(x,y)$において$x$の周辺化、つまり確率変数$X$の周辺分布の周辺確率密度関数$g(x)$を求めるということは、 $$g(x)=\int_{-\infty}^{\infty}f(x,y)dy$$ を計算することになります。 もちろん周辺確率密度関数$g(x)$も密度関数なので$\int_{-\infty}^{\infty}g(x)dx=1$となることに注意してください。
本題
変数変換した確率変数の密度関数を求める
一変数の場合と多変量の場合の二つを紹介したいと思います。 今回のエントリでは連続な確率変数での例を紹介しますが、離散も同じように求められます。 早速見ていきましょう。
一変数の場合
確率変数$X$の確率密度関数を$f(x)$とします。 ここで1対1の関数$g(X)$によって変数変換された確率密度関数$Y=g(X)$を考えます。 1対1の関数なので逆関数$x=g^{-1}(y)$が存在します。 $Y$の分布関数$F_Y(y)$を求めそれを微分することで$Y$の確率密度関数$f_Y(y)$を求めていきます。
$$
\begin{eqnarray}
F_Y(y)&=&P(Y\le y)\\\
&=&P(g(X)\le y)\\\
&=&P(X\le g^{-1}(y))\\\
&=&\int_{-\infty}^{g^{-1}(y)}f_X(x)dx\\\
f_Y(y)&=&\frac{d}{dy}F_Y(y)=f_X(g^{-1}(y))|(g^{-1})'(y)|
\end{eqnarray}
$$
最後の積分を微分する部分は、積分区間が単純な$(a,x)$の場合などは高校数学問題集でも頻出のあの形のものです。 今回は高校数学では扱わない積分区間に無限が入っていますが、高校数学のあの頻出の問題の開放をしっかり理解していれば同様に解けます。 単純な$(a,x)$ではなく積分範囲が関数になっているので、合成関数の微分を忘れないようにご注意ください。
多変数の場合
多変量の確率変数$\mathbf{X}$の同時密度関数を$f_{\mathbf{X}}(\mathbf{x})$とします。 ここで連続な1対1の関数$\mathbf{g}(\mathbf{X})$によって確率変数$\mathbf{Y}=\mathbf{g}(\mathbf{X})$を考える。 1対1なので逆関数$\mathbf{X}=\mathbf{g}(\mathbf{Y})$が存在します。 一変数の時と同様に$\mathbf{Y}$の分布関数$F_{\mathbf{Y}}(\mathbf{y})$を求め$\mathbf{y}$のすべての変数で偏微分して同時密度関数$f_{\mathbf{Y}}(\mathbf{y})$を求めていきます。 多変量の場合は多重積分の中で変数変換するのでおなじみのヤコビアンが登場します。
今回は$n$変数とし次のように記号を定める
- $\mathbf{Y}=\mathbf{g}(\mathbf{X})=(g_1(X_1,\ldots,X_n),\ldots,g_n(X_1,\ldots,X_n))$
- $A\in (-\infty,y_1]\times\cdots\times(-\infty,y_n]$を$\mathbf{Y}$の分布関数の積分範囲とする
- $\mathbf{g}$のヤコビアンを$|J|$とする
$$
\begin{eqnarray}
F_{\mathbf{Y}}(\mathbf{y})&=&P(\mathbf{Y}\in A)\\\
&=&P(\mathbf{X}\in \mathbf{g}^{-1}(A))\\\
&=&\int_{\mathbf{g}^{-1}(A)}f_{\mathbf{X}}(\mathbf{x})d\mathbf{x}\\\
&=&\int_{A}f_{\mathbf{X}}(\mathbf{g}^{-1}(\mathbf{y}))|J|d\mathbf{y}\\\
f_{\mathbf{Y}}(\mathbf{y})&=&\frac{\partial}{\partial y_1\cdots\partial y_n}F_{\mathbf{Y}}(\mathbf{y})
=f_{\mathbf{X}}(\mathbf{g}^{-1}(\mathbf{y}))|J|
\end{eqnarray}
$$
まとめ
数学が少し多く、抽象度の高いエントリとなってしまいました。 なので次回は具体例を挙げて計算の過程をお見せしようと思います。
統計学では一変数よりも多変数の場合の変数変換をよく用います。
独立な複数の確率変数の和は畳み込みと名前がついているくらい頻出します。
例えばある機械の寿命が時間によらず一定な時その機械の壊れるまでの時間は指数分布に従っていました。
この機械を壊れたら取り替えるというようにした場合、それが$n$個あればそれぞれの機械が壊れる時間を$X_1,X_2,\ldots,X_n$としたときこれらは独立であり、全部が壊れるまでの時間は$\sum_{i=1}^nX_i$となります。
この$\sum_{i=1}^nX_i$が従う分布を求めたい時などに畳み込み(変数変換)を行うことになります。1
また、$\chi^2$分布の確率密度関数を導出する際は独立な確率変数二つから変数変換した二変数の同時確率分布を求め着目している変数以外を積分消去(周辺化)して求めます。
それでは、統計検定1級を目指されている方や統計を勉強している方に良い情報提供となることを願って本日は失礼します。
参考文献
- 日本統計学会編, “日本統計学会公式認定 統計検定1級対応 統計学”, 第6刷, 2013, 東京図書, ISBN 978-4-489-02150-3.
- 小寺平治, “明解演習 数理統計”, 初版30刷, 1986, 共立出版, ISBN 978-4-320-01381-0.
- 藤澤洋徳, “確率と統計”, 第9刷, 2006, 朝倉書店, ISBN 978-4-254-11763-9.