【統計検定１級対策】ベータ分布の期待値・分散の導出

前書き

　統計検定１級を取得しようと東京図書から出版されている日本統計学会編集の統計検定１級対応統計学を購入し勉強されている方が多いかと思います。しかし、この本は導出がかなり省略されており、何故そうなるのかが分からないと壁にぶつかっている方も多いのではないでしょうか？本エントリではそのような方に向けてなるべく丁寧に導出を紹介していきます。正直な話をすれば、検定では結果を覚えてしまえば何とかなる部分もあるのですが、私はとてもすべてを完璧に覚えることはできません。なので導出をしっかり理解することで自力で導出できる力をつけ検定に臨むべきと考えています。また、業務で統計モデルを組むときにも基礎となる数学力があることで自在に柔軟なモデルを構築できるので、検定のための勉強ではなく統計を使いこなすための教養を養うことが大切と感じています。
　本エントリはベータ分布を紹介いたします。名前から推測される通り先日紹介しましたベータ関数をつかって表現されますので、ベータ関数ってどんな性質持っていたっけ？という方はこちらで復習しておきましょう。ベータ分布は連続な一様分布$U(0,1)$から$p+q-1$個サンプリングし昇順に並べた際に小さいほうから$p$番目（大きいほうから$q$番目）の確率変数が従う分布です。講談社出版の著者須山敦志のベイズ推論による機械学習入門にも紹介されている通り、二項分布の平均パラメータに対する共役事前分布として利用もされる確率分布となっています。

初めに結論

項目	値
台	$x\in (0,1) $
確率関数	$f(x;p,q)=\frac{1}{B(p,q)}x^{p-1}(1-x)^{q-1} \quad p,q>0$
積率母関数	簡単な形では書けない
平均	$\frac{p}{p+q}$
分散	$\frac{pq}{(p+q)^2(p+q+1)}$

確率関数の定数部分$\frac{1}{B(p,q)}$は$\int_0^1x^{p-1}(1-x)^{q-1}dx$を正規化するためのものです。

導出

積率母関数

　ベータ分布は簡単な形で積率母関数を表現することができません。

平均

　ベータ分布は積率母関数が簡単な形で表現できませんので、定義通りに計算していきます。式変形ではベータ関数の積分の形を作り、$B(p,q)=\int_0^1x^{p-1}(1-x)^{q-1}dx$であることを利用してあげます。

$$ \begin{eqnarray} E(X)&=&\int_0^1x\frac{1}{B(p,q)}x^{p-1}(1-x)^{q-1}dx\\\
&=&\frac{1}{B(p,q)}\int_0^1x^{(p+1)-1}(1-x)^{q-1}dx\\\
&=&\frac{B(p+1,q)}{B(p,q)}\\\
&=&\frac{p}{p+q}\frac{B(p,q)}{B(p,q)}\\\
&=&\frac{p}{p+q} \end{eqnarray} $$

先日のガンマ関数とベータ関数のエントリをしっかり学習した方は、$B(p+1,q)=\frac{p}{p+q}B(p,q)$だったことに気づけたかと思います、きれいに約分できました。

分散

　分散は$E(X^2)-(E(X))^2$で求めることができますので、二次のモーメントを定義通りに求めます。ここでもベータ関数の形になるように式変形をしていきます。

$$ \begin{eqnarray} E(X)&=&\int_0^1x^2\frac{1}{B(p,q)}x^{p-1}(1-x)^{q-1}dx\\\
&=&\frac{1}{B(p,q)}\int_0^1x^{(p+2)-1}(1-x)^{q-1}dx\\\
&=&\frac{B(p+2,q)}{B(p,q)}\\\
&=&\frac{p+1}{p+q+1}\frac{B(p+1,q)}{B(p,q)}\\\
&=&\frac{p+1}{p+q+1}\frac{p}{p+q}\frac{B(p,q)}{B(p,q)}\\\
&=&\frac{p^2+p}{(p+q)(p+q+1)} \end{eqnarray} $$

二次のモーメントが求まりましたので分散は、 $$ \begin{eqnarray} V(X)=\frac{p^2+p}{p+q+1}-\left(\frac{p}{p+q}\right)^2=\frac{pq}{(p+q)^2(p+q+1)} \end{eqnarray} $$

となります。

まとめ

　ベータ関数の積分の形をうまく作り出してあげること＋ベータ関数の性質を利用してあげることで期待値も分散も簡単に導出できました。ベータ関数はベイズ統計で事後分布が解析的に求まる事前分布、いわゆる共役事前分布としてよく知られているのでこのエントリで計算方法などに慣れておくといいでしょう。
　実はベータ分布の確率密度関数はガンマ分布から導出することができます。 $U\sim Ga(p,\gamma),V\sim Ga(q,\gamma)$で独立の時に、$X=\frac{U}{U+V},Y=U+V$と変数変換して同時確率密度関数$f(x,y)$を求めると、$X,Y$が独立で$X\sim\ Be(p,q), Y\sim Ga(p+q,\gamma)$となることが導出されます。¹ 確率変数の変数変換で新しい確率変数の確率密度関数を求めることは統計検定一級では必須の能力となります。この辺りの知識は今後紹介する連続型の確率分布の導出の際にもよく使いますので、近々エントリを書きたいと思いますのでお楽しみにお待ちください。
（追記）確率変数の変数変換によって作られる確率変数の確率密度関数の導出についてエントリを書きました。理論編と実践編をご覧ください。

　統計検定１級合格を目指されている方や統計を勉強している方に良い情報提供となることを願って本日は失礼します。

参考文献

日本統計学会編, “日本統計学会公式認定統計検定１級対応統計学”, 第６刷, 2013, 東京図書, ISBN 978-4-489-02150-3.
藤澤洋徳, “確率と統計”, 第9刷, 2006, 朝倉書店, ISBN 978-4-254-11763-9.
小寺平治, “明解演習数理統計”, 初版30刷, 1986, 共立出版, ISBN 978-4-320-01381-0.
須山敦志, “ベイズ推論による機械学習入門”, 講談社.
豊田秀樹編著, “基礎からのベイズ統計学ハミルトニアンモンテカルロ法による実践的入門”, 第８刷, 2015, 朝倉書店, ISBN 978-4-254-12212-1.

パラメータが$p,q$のガンマ分布を$Ga(p,q)$、ベータ分布を$Be(p,q)$と表現しています。 ↩︎

【統計検定１級対策】ベータ分布の期待値・分散の導出

目次

前書き

初めに結論

導出

積率母関数

平均

分散

まとめ

参考文献