【統計検定1級対策】再生性と無記憶性
目次
前書き
先日のブログで散々再生性と無記憶性についてエントリを書くといっていて書けていなかったので、本エントリではそれらを紹介していきます。
再生性
再生性とは、同じ確率分布から独立な確率変数の和はそれらと同じ確率分布になることを言います。
思い出してみてください、確率変数の確率変換によってできる確率変数は合言葉「分布関数を求めて微分」で求めていましたね?
具体的には確率変数$X,Y$でそれらが独立で、確率密度関数$f_X(x),f_Y(y)$としたとき、
$U=X+Y$が従う確率密度関数は$f_U(u)=\int_{-\infty}^{\infty}f_{X}(x)f_Y(u-x)dx$でした。
基本的にはこのような畳み込みを行うと元の確率分布とは異なる確率分布になることがほとんどです。
しかし、再生性を持つ確率分布たちは畳み込みを行っても、また同じ確率分布になってくれます。
これはシミュレーションをする際は本当にうれしい性質です、何故ならわざわざ畳み込みを計算してそれに従う確率分布を実装しなくていいからです。
たいていの場合はそもそも既知の確率分布にならなくてサンプリング方法自体の検討・実装をイチからしなければならないことになります。
再生性は、積率母関数が存在範囲内で高々一つしか存在しないということを利用します。
つまり積率母関数が同等ならば確率分布は同じということを利用するというわけです。
積率母関数は原点周りのモーメントを求めるだけではなく、確率分布の同等まで判断できるので本当に有能ですよね。
と、言葉で説明しましたがいまいちピンとこないと思いますので試行回数について再生性を持つ二項分布で具体的に確認してみましょう。
$X\sim B(n_1,p), Y\sim B(n_2,p)$は独立とする。
成功確率はどちらも$p$で共通なことに注意してください、二項分布は試行回数について再生性があります。
それぞれの積率母関数は
$$
\begin{eqnarray}
M_X(t)&=&(e^tp+1-p)^{n_1}\\\
M_Y(t)&=&(e^tp+1-p)^{n_2}
\end{eqnarray}
$$
でした。
ここで、$U$の積率母関数を考えてみます。
$M_U(t)=M_{X+Y}(t)=E(e^{(X+Y)t})=E(e^{Xt}e^{Yt})$となります。
$X,Y$は独立だったのでさらに次のように変形できます$M_U(t)=E(e^{Xt})E(e^{Yt})=M_X(t)M_Y(t)$。
つまり$U$の積率母関数は$M_U(t)=(e^tp+1-p)^{n_1+n_2}$となります。
この積率母関数の形をよく見てもらいたいのですが、この形は二項分布$B(n_1+n_2,p)$の積率母関数のほか何物でもないです。
積率母関数が同じになるものは唯一しか存在しませんので、二項分布は試行回数について再生性があることが示されました。
例えば二項分布$B(n,p_1),B(n,p_2)$を考えてみましょう、この場合は$U$の積率母関数は二項分布の形にうまく帰着しませんので成功確率に関しては再生性がないということが分かります。
二項分布の例で何となく勘付いた方もいらっしゃると思いますが、確率分布のパラメータが積率母関数の指数部にあったりすれば再生性がある可能性が高いですね、何故なら指数には$a^x*a^y=a^{x+y}$という性質があるので積率母関数の積がもとと同じような形に落ち着くためです。
他に再生性があるものを紹介して再生性についての説明を終わろうと思います。
確認は積率母関数の積を計算してみれば分かります。
- ポアソン分布$Po(\lambda)$はパラメータ$\lambda$について再生性あり
- 負の二項分布$NB(r,p)$はパラメータ$r$について再生性あり
- ガンマ関数$Ga(p,q)$はパラメータ$p$について再生性あり
- ガウス分布$N(\mu,\sigma^2)$は平均・分散パラメータ$\mu,\sigma^2$それぞれについて再生性あり
- カイ二乗分布$\chi^2(p)$は自由度$p$について再生性あり
無記憶性
無記憶性は幾何分布と指数分布について成り立つ性質です。
別名マルコフ性と呼ばれたりもしますこの性質は、これからの出る確率が今まで出た確率に依存しないことを表します。
具体例を挙げるとすれば、コイン投げをして今まで裏が出なかったからと言って次に裏が出やすいなんてことはありませんよね?
表が出るか裏が出るかは過去に何回どっちが出てるかなんて関係なく表の出る確率$p$によって決められます。
これはまさに幾何分布の例となっています。
無記憶性を定式化すると、
$$P(X\ge x_1+x_2|X\ge x_1)=P(X\ge x_2)$$
となります。
成功確率が$p$の指数分布ですと$P(X\ge x)=(1-p)^x$となることは等比級数の計算から分かります。
これより
$$
\begin{eqnarray}
P(X\ge x_1+x_2|X\ge x_1)&=&\frac{P(X\ge x_1+x_2 \cap X\ge x_1)}{P(X\ge x_1)}\\\
&=&\frac{P(X\ge x_1+x_2)}{P(X\ge x_1)}\\\
&=&\frac{(1-p)^{x_1+x_2}}{(1-p)^{x_1}}\\\
&=&(1-p)^{x_2}\\\
&=&P(X\ge x_2)
\end{eqnarray}
$$
となり無記憶性があることが証明されました。
パラメータが$\lambda$の指数分布も、簡単な積分計算により$P(X\ge x)=e^{-\lambda x}$であることが分かるので同様にすることで無記憶性があることが分かります。
まとめ
ようやく再生性と無記憶性について説明することができましたw 内容を聞けばすごい単純に聞こえますが、意外とこれらが成り立たない確率分布が多いのが事実です。 統計モデルを組んだ際にこの再生性があることでシミュレーションが楽にできるようになる、 無記憶性(マルコフ性)が成り立つと解析が楽になることが多く存在します。 そのためしっかり理解しておくと業務で使用する際もとても役に立つので、性質の意味と導出の仕方を丁寧に理解して損はないでしょう。
それでは、統計検定1級を目指されている方や統計を勉強している方に良い情報提供となることを願って本日は失礼します。
参考文献
- 日本統計学会編, “日本統計学会公式認定 統計検定1級対応 統計学”, 第6刷, 2013, 東京図書, ISBN 978-4-489-02150-3.
- 藤澤洋徳, “確率と統計”, 第9刷, 2006, 朝倉書店, ISBN 978-4-254-11763-9.
- 小寺平治, “明解演習 数理統計”, 初版30刷, 1986, 共立出版, ISBN 978-4-320-01381-0.