by nkoda

【統計検定1級対策】確率分布を学習するときのポイント

目次

前書き

少し久しぶりの更新となってしまいました。。。

仕事が忙しかったのと、同期が転職したのでそのリモート送別飲み会に参加しており、エントリーを書き上げることができていなかったので言い訳だけさせてくださいw

本エントリーはようやく本来書きたかった統計学に関するエントリーです。

書いていてもっと書きたいことや、事前に紹介しておいたほうがよかったなと反省する部分がありました、それらについてはまた別のエントリーで紹介していければと思います。

確率分布のポイント

統計学の教科書を開けば必ず確率分布の紹介があります。 (もちろんここからいきなり始まる参考書はなく、確率とはから始まり確率変数などの紹介があります。この辺りは今後のエントリーでまとめていくのでお待ちくださいませ。) ○○分布の確率密度関数は~とはじまり、フムフムと読み進めていきますよね。 私の場合は、「うん、確率分布ってたくさんあるのね」で学生の頃は終わってしまっていました。 社会人になり他の同期より優れた領域を作りたく統計に関して再勉強をしてみたら、まぁ覚えていない。 学生時代あんなに読んでたのにこんなものかと悲しくなりました。。。 再勉強の結果、統計検定一級で扱われる確率分布は一通り理解できましたので今後少しずつ紹介していきます。
 今回のエントリーは確率分布を理解したというには何を知ればいいのか?を私なりにまとめてみます。 確率分布については下記の点をしっかり導出までできるようになれば統計モデルを構築する際に十分な手助けとなると思います。

  • 確率密度(質量)関数と台
  • 平均(期待値)と分散
  • 積率母関数

ひとつずつ見ていきましょう。

確率密度(質量)関数と台

 確率密度(質量)関数とは、○○分布の確率的な振る舞いを表す関数です。 密度は連続型、質量は離散型の呼び分けで使われます。 私が見てきた参考書では密度関数は$f(x)$、離散型では$P(x)$で表すことが多かったです。
 二項分布を例にとってみます。 サイコロを3回振り、1の目が出た回数だけケーキを食べれるとしたら回数の出る確率が気になりますよね? 結論から言えば二項分布の確率質量関数は $ P(X = x) = \binom{3}{x} ( \frac{1}{6} )^x ( \frac{5}{6} )^{3-x}$ です。 具体的な数字でいうと、

$x$ 0 1 2 3
$P(X=x)$ $0.579$ $0.347$ $0.069$ $0.005$

です。
 今回の例のように離散で少ない場合は具体的に表でまとめたほうが分かりやすいかもしれませんが、このゲームのサイコロを振る回数が100回の時は表による書き上げは現実的ではありません。 そもそも有限回で終わらない、無限に試行が続くゲームでは死ぬまで書き続けても書き終わりませんし、連続型の確率密度関数は表を構成すること自体不可能です。 なので数学の最強ツールである関数による表現がbestなわけです。 このように確率的な振る舞いを関数で表したものを確率密度(質量)関数といいます。 参考書に載るような有名な確率分布では、この確率関数を丁寧に理解しておくことが必要です。
 また、確率変数のとる値の集合のことをと呼びます。 先のケーキの例では$0,1,2,3$がそれにあたります。 連続型の例を挙げれば、指数分布の台は$[0,\infty)$です。

平均(期待値)と分散

 先のケーキの例では皆さんこう思うはずです、このゲーム平均で何個のケーキが食べられるの?と。 確率密度関数を眺めるだけでは平均は見えません、計算します。 期待値の定義は下記の通り。

  • 離散型:$E(X):=\sum_{-\infty}^{\infty}xP(x)$
  • 連続型:$E(X):=\int_{-\infty}^{\infty}xf(x)dx$

積分は総和の拡張なので、今後は基本的に積分のみで表記することがありますが、離散の場合は総和と読み替えてください。
 先のケーキの例では $$ \begin{eqnarray} E(X)=0&\times&\binom{3}{0}\left(\frac{1}{6}\right)^{0}\left(\frac{5}{6}\right)^{3}+1\times\binom{3}{1}\left(\frac{1}{6}\right)^{1}\left(\frac{5}{6}\right)^{2}+\\\
2&\times&\binom{3}{2}\left(\frac{1}{6}\right)^{2}\left(\frac{5}{6}\right)^{1}+3\times\binom{3}{3}\left(\frac{1}{6}\right)^{3}\left(\frac{5}{6}\right)^{0}= 2 \end{eqnarray} $$ となります。 期待値は確率の重みを考慮した平均と考えてくださいね。 実はこの二項分布の期待値は(試行回数)$\times$(対象の発生確率)で求められます、この辺りは後日二項分布にフォーカスしたエントリーでくわしくかきますね。 期待値は線形性があるので、$X,Y$を確率変数、$a,b,c$を定数とすれば $E(aX+bY+c)=aE(X)+bE(Y)+c$ となります、定義通りに左辺を計算すれば成立することが分かります。 証明を載せておきます。 $$ \begin{eqnarray} &E&(aX+bY+c)=\iint(aX+bY+c)f(x,y)dxdy\\\
&=&a\int X(\int f(x,y)dy)dx+b\int Y(\int f(x,y)dx)dy+c\iint f(x,y)dxdy\\\
&=&a\int Xf(x)dx+b\int Yf(y)dy+c = aE(X)+bE(Y)+c \end{eqnarray} $$ 二変量の周辺化と確率密度関数の全範囲での積分、つまり確率の和が1となることを利用しています。 (まずはこのあたりのエントリも書いておくべきでした。。。今後書いておきます。)
 次は分散です。 分散は平均からの散らばり具合を表す指標となります。 ダーツを3投したとき狙ったところに大体寄せれる(散らばりが小さい)と一投目がブル付近だと残り二投はブルの可能性が大きいですよね。 逆に狙ったところにあまり行かない(散らばりが大きい)と一投目がブルに近くてもあまり期待はできません。 このようにデータの性質を語るうえで分散は気になるものです。 分散の定義は下記のとおりです。

  • 離散型:$V(X):=\sum_{-\infty}^{\infty}(x-E(X))^2P(x)$
  • 連続型:$V(X):=\int_{-\infty}^{\infty}(x-E(X))^2f(x)dx$

分散の次の性質を覚えておきましょう。 $X,Y$を確率変数、$a,b,c$を定数とすれば、$V(aX+bY+c)=a^2V(x)+b^2V(Y)+2abCov(X,Y)$。 しれっと出てきましたが$Cov(X,Y)$は共分散と言われるもので$X$と$Y$の関係性を表す指標です。 定義は$Cov(X,Y):=\sum_i(X_i-E(X))(Y_i-E(Y))$です。 確率変数が独立の時$Cov(X,Y)=0$なので$V(aX+bY+c)=a^2V(x)+b^2V(Y)$とシンプルになります。 これについても定義通りに計算すれば簡単に証明できます。
 この章は平均と分散の関係性を紹介して終わります。 $V(X)=E(X^2)-(E(X))^2$という関係性があります。 導出は次の通りです。

$$ \begin{eqnarray} V(X)&=&E((X-E(X))^2)=E(X^2-2XE(X)+(E(X))^2)\\\
&=&E(X^2)-2(E(X))^2+(E(X))^2=E(X^2)-(E(X))^2 \end{eqnarray} $$

積率母関数

 最後に積率母関数です。 これは実は先ほどの期待値や分散のようなモーメントを求めるときに強力なツールです。 平均は一次モーメントととも呼ばれます. 一般に$E(X^k)=\int_{-\infty}^{\infty}x^kf(x)dx$を$k$次のモーメント、$E((X-E(X))^k)=\int_{-\infty}^{\infty}(x-E(X))^kf(x)dx$を$k$次の中心モーメントと呼びますので覚えておきましょう。 それだけでなく積率母関数には「積率母関数と確率分布は1対1に対応する」という嬉しい定理があります。 それでは定義を紹介しましょう。

$$ \begin{eqnarray} M_X(t):=E(e^{Xt})=\int_{-\infty}^{\infty}e^{tx}f(x)dx \end{eqnarray} $$ この時、$t$は0付近で上の式が存在する適当な範囲をとります。 どのように$k$次のモーメントを導出できるのかというと、$t$で$k$回微分し$t=0$とすればいいだけです。 なぜこれでいいのかは、$e^x$のマクローリン展開から明らかになります。 $f(t)=e^{tx}$とすると$\frac{d^m}{dt^m}e^{tx}=x^me^{tx}=:f^{(m)}(t), f^{(m)}(0)=x^m$なので、 $e^{tx}=\frac{f^{(0)}(0)}{0!}t^0+\frac{f^{(1)}(0)}{1!}t^1+\frac{f^{(2)}(0)}{2!}t^2+\cdots=1+tx+\frac{1}{2!}(tx)^2+\cdots$がマクローリン展開の結果となります。 これを$t$で微分し$t=0$とすると定数は微分により$0$、$t$を含む項は$0$となりきえていくので、 $\frac{d^m}{dt^m}M_X(t)|_{t=0}=\frac{d^m}{dt^m}E(1+tX+\frac{1}{2!}t^2X+\cdots)|_{t=0}=E(X^m)$となり、成立することが分かります。 これは一般の確率変数で使えるものなのですが、統計学検定1級では離散でのみ成立するものを問うてきたことがありますので、そちらについても紹介しておきます。

$$ \begin{eqnarray} G_X(t):=E(t^X)=\sum_{x=0}^{\infty}t^xf_X(x) \end{eqnarray} $$ 上記は$|t|\le 1$で存在します。 離散の場合の積率後関数から期待値と分散をする部分まで紹介します。 $M_X(t)$の時は微分して$t=0$としましたが、$G_X(t)$の時は微分して$t=1$とします。 期待値は簡単ですね。 $$ \begin{eqnarray} \frac{d}{dt}G_X(t)|_{t=1}=E(Xt^{X-1})|_{t=1}=E(X) \end{eqnarray} $$ 分散は少し厄介、まず二次のモーメントを求める $$ \begin{eqnarray} \frac{d^2}{dt^2}G_X(t)|_{t=1}&=&E(X(X-1)t^{X-2})|_{t=1}=E(X^2-X)=E(X^2)-E(X)\\\
E(X^2)&=&\frac{d^2}{dt^2}G_X(t)|_{t=1}+E(X) \end{eqnarray} $$ 後は$V(X)=E(X^2)-(E(X))^2$に代入すれば終了です。 $G_X(t)$の$m$次微分の結果だけ載せておきます。 $$ \begin{eqnarray} \frac{d^m}{dt^m}G_X(t)=E(X(X-1)\cdots(X-M+1)t^{X-m}) \end{eqnarray} $$

まとめ

 数学が少し多く、ちょっと重めのエントリーになってしまいましたが、いかがだったでしょうか? 一回で理解できる必要はないので何度も、何日もこのエントリーを読み込んで実際に手を動かしてみてください。 考え抜いて手を動かし試行錯誤していると、金曜の業務終了後に飲む成人の黄金炭酸水のように体にすっとしみ込んでくるように本エントリーの内容が腹落ちしてきます。
 確率分布を自在に操るための準備がこのエントリーでできました、なので次回のエントリーからは統計検定1級で扱われる分布について少しずつ紹介していこうと思います!

参考文献

  • 日本統計学会編, “日本統計学会公式認定 統計検定1級対応 統計学”, 第6刷, 2013, 東京図書, ISBN 978-4-489-02150-3.
  • 藤澤洋徳, “確率と統計”, 第9刷, 2006, 朝倉書店, ISBN 978-4-254-11763-9.