【統計検定１級対策】統計的推定と不偏性・一致性・有効性について

statistics estimator unbiasedness consistency efficiency 統計推定量不偏性一致性有効性統計検定

前書き

　統計の醍醐味といえば推定にあります。というのもすべて調べ上げる全数調査が厳しい・コストが見合わない・そもそも無限に出てくるため不可能である対象について、無作為抽出された標本から背景に隠れている確率分布（の性質）を推し測るために統計学はあるものと私は考えます。背後にある確率分布を推し測るための枠組みが（統計的）推定となります、この統計的推定と推定量の望ましい性質である不偏性・一致性・有効性について本エントリで紹介します。

統計的推定とは？

　統計的推測に触れる前に用語と前提について確認していきます。

　例えば$1000$人の従業員がいる会社の従業員の身長の平均を調べたいとき、分析の対象である$1000$人の身長データのことを母集団と呼びます。この例では$1000$と有限ですが、母集団は無限個の要素を持っていても問題ありません。故障することなく一秒ごとにコイントスを行う機械で表の回数を調べる実験を行うときは無限に事象が繰り返されるので実験の試行回数や実際に表が出た回数は無限母集団となります。

　さっきほどの従業員が$1000$人の会社の従業員の平均身長を調べる例に話を戻しましょう。ブ〇ック企業で業務が忙しいため$1000$人全員の身長を計測する時間がないので無作為に選んだ$50$人の身長を測ったとしましょう。この母集団から取り出された選ばれた$50$人（個体）のことを標本と呼び、$50$という数字は標本サイズと呼ばれます。今回は$50$人の身長しか測れませんでしたが、この平均を母集団である従業員$1000$人の平均身長と考えることは何となく妥当性がありそうだと思われますよね？このように、一部の情報から、その背景にある情報の様子を推し測るこの行為こそ統計的推定または、単純に推定と呼ばれる行為になります。推定には二種類あり、今回のように母集団のパラメータを一点として推定する点推定と、ある範囲で真のパラメータをとらえることができるだろうと考える区間推定があります。ちなみに、個体の抽出方法も二つあり、取り出した個体をまた母集団に戻して再度抽出することを復元抽出、取り出した個体を除外して次の個体を抽出することを非復元抽出といいます。有限母集団の際は非復元抽出は計算が複雑になりますが、母集団が大きければ復元抽出と同一の処理を行うことができます。

　ここで注意したいことは、推定を行うときには背景にある確率分布は、あるパラメータで特徴づけられるとしていることです。つまり、正規分布でいえば平均$\mu$と分散$\sigma^2$、ポアソン分布でいえば平均$\lambda$のようにそのパラメータが決まれば分布の形状が決まるパラメトリックな確率分布を仮定しているということです。この推定したい母集団が従う確率分布のパラメータのことを真のパラメータと一般的に呼びます。

　ではどのように母集団が従う確率分布を推し測る（この推し測るために利用されるものを推定量といいます）のかというと、抽出した標本を使ってあげればいいのです。つまり推定量とは標本$x$を入力にパラメータ$\hat{\theta}(x)$を返す関数$\hat{\theta}(\cdot)$というわけです。

　具体例を挙げてみます、標本平均は標本$X_1,\ldots,X_n$を使った関数$\frac1n \sum_{i=1}^nX_i$なので一つの点推定の推定量です。手に入れた標本の平均が母集団が従う確率分布の期待値・平均（**母平均**と呼ばれるものです）なのではないかと推し測るというわけです。推定量は標本の関数であれさえすればよいので極論を言えば、母平均の推定量として標本の最小値と標本の最大値の和$\min{(X_i)}+\max{(X_i)}$としてもいいわけです。この二つの推定量（標本平均と標本の最大値最小値の和）のどちらがいいかと言われれば、標本平均が妥当と考えられますよね？

　ここで湧いてくる疑問は「いくつでもあるパラメータの点推定量が存在できますが、その中のどれが”いい推定量” なのでしょうか？」ですよね？この問題に対する回答は、平均二乗誤差が最小のものを選択するとなります。一般に平均二乗誤差を最小にする推定量を求めることは困難であることが知られていますが、ある工夫を行うことで解析しやすいようにできます。このような工夫の中で点推定量が満たしてくれると望ましい性質が不偏性、一致性、有効性というわけです。

それでは推定量の満たすと望ましい性質である「不偏性、一致性、有効性」について紹介していきます。¹

点推定量が満たすと望ましい性質

不偏性

　不偏性の定義は下記のようになります。

[不偏性]
$\theta^*$を真のパラメータとしたとき、$E(\hat{\theta}(x))=\theta^*$を満たす推定量$\hat{\theta}(x)$を不偏推定量という。

　なぜ不偏性が満たされると数学的に嬉しいのかを説明します。推定量が真のパラメータに確率的に近いということを表す自然な基準として、平均二乗誤差で見てあげることが統計学の考え方です。平均二乗誤差の定義と少し式変形をしてみます。 $$E_{\theta}\left[(\hat{\theta}-\theta^*)^2\right]=E_{\theta}\left[\left(\left(E_{\theta}(\hat{\theta})-\theta^*\right)+\left(\hat{\theta}-E_{\theta}(\hat{\theta})\right)\right)^2\right]\\
=\left(E_{\theta}(\hat{\theta})-\theta^*\right)^2+V_{\theta}(\hat{\theta})$$ 式変形について説明します、第二式の期待値の中身を展開すると$2\left(E_{\theta}(\hat{\theta})-\theta^*\right)\left(\hat{\theta}-E_{\theta}(\hat{\theta})\right)$のクロスターム項ができますが、これの期待値を取ると$E_{\theta}\left(\hat{\theta}-E_{\theta}(\hat{\theta})\right)=E_{\theta}(\hat{\theta})-E_{\theta}(\hat{\theta})=0$となりますので第三式でいなくなっているというわけです。

　平均二乗誤差は最終的にバイアス・バリアンス分解と呼ばれるバイアス項とバリアンス項の和に落ち着きます。バイアスとは「予測が真の値とどれだけズレているか」、バリアンスは「予測自身のブレ・ばらつき」を表すのもです、バイアスとバリアンスはトレードオフの関係にあり両方を同時に最小にできないことは数学的に証明されています。バイアス・バリアンスについてはこちらのwebの記事が分かりやすいと思いますので興味のある方はご確認いただければと思います。

　話を不偏性についてに戻します、不偏性はこの第一項のバイアス項が$0$になることを表しています。つまり、数多の推定量からバイアスが$0$でバリアンスを小さくする（真のパラメータと推定量の平均二乗誤差を小さくする）推定量こそ「いい推定量」と考えらえるようにする性質が不偏性というわけです。

　最後に標本平均が母平均の不偏推定量となる例を示します。 $X_i$は独立に平均$\mu$を持つ確率分布から$n$個サンプリングされたとします。推定量として標本平均$\frac1n\sum_{i=1}^nX_i$とするので、 $$E\left(\frac1n\sum_{i=1}^nX_i\right)=\frac1n\sum_{i=1}^nE(X_i)=\frac1nn\mu=\mu$$ 期待値の線型性を利用することで標本平均は母平均の不偏推定量となっていることが分かります。

一致性

　一致性の定義は下記のようになります。

[一致性]
標本サイズ$n$までを用いた推定量を$\hat{\theta}_n$としたとき、$\hat{\theta}_n\xrightarrow{p}\theta^*$となる推定量を一致推定量という。

　この性質の何が嬉しいのかを説明します。実は先に紹介した不偏性は有限の標本について成立する性質だったため、期待値が$0$となる統計量を足しても不偏推定量となってしまう弱い要請だったのです。ここで、一致推定量の定義を見直していただきたいのですが、これの意味するところは「推定量自体が真のパラメータに近づいていく」ということです。つまり期待値が$0$の統計量を足しても不偏推定量となる不偏性の弱い要請よりも、標本サイズを大きくしていけば真のパラメータに近づかなくてはいけない一致性の方がより強い要請となっているわけです。

　最後に一致推定量の例を紹介します。標本平均はモーメント推定量と言われるものです（詳細は今後のエントリでご紹介します）。このモーメント推定量は一致性を持ちます、標本平均で実際に導出してみましょう。 $$\hat{\theta}=\frac1n\sum_{i=1}^nX_i=\frac1nn\mu=\mu\xrightarrow{p}\mu$$ 古典的統計学ではお馴染みの最尤推定量（詳細は後日エントリを書きます）も適当な正則条件を仮定することで一致性を満たします。ただし適当な正則条件は下記のことを言います。

分布に密度関数$f(x;\theta)$が存在する。
分布の台$S=\{x|f(x;\theta)>0\}$がパラメータ$\theta$によらない。
偏微分と積分の交換が可能（ルベーグ性を満たす）
$\frac{\partial}{\partial\theta}\log{f(x;\theta)}$を確率変数としてみたときに、適当な次数までモーメントが存在する。
真のパラメータ$\theta$でフィッシャー情報量は正または正定値
パラメータ集合と確率分布の集合が１対１で、フィッシャー情報行列が逆行列を持つ。

これらは統計解析での式変形ができる程度の分布への十分条件となっています。

有効性

　有効性の定義は下記のようになります。

[有効性]
不偏推定量の分散がクラメール・ラオの下限を達成しているとき、この不偏推定量を有効推定量という。

　なぜこの性質を満たしていると嬉しいのかを説明します。クラメール・ラオの下限の証明は今後エントリを書きますので、今はクラメール・ラオの下限が主張すること「どんな不偏推定量もフィッシャー情報量の逆数より小さくできない」を理解しておいていただければ十分です。つまり、有効推定量は不偏推定量で分散が最小な一様最小分散不偏推定量となることを表します。

　またクラメール・ラオの下限より不偏推定量に関して$\frac{J_n(\theta)^{-1}}{V_{\theta}(\hat{\theta}_1)}\le1$が成立します、ただし$J_n(\theta)$はフィッシャー情報量を$V_{\theta}(\hat{\theta})$を不偏推定量の分散としています。この左辺$J_n(\theta)^{-1}/V_{\theta}(\hat{\theta}_1)$が$1$に近いほど分散が小さい良い推定量であることを示し、左辺を$\hat{\theta}$の効率と呼びます。また二つの不偏推定量$\hat{\theta}_1,\hat{\theta}_2$の分散の逆数の比$e(\hat{\theta}_1,\hat{\theta}_2)=\frac{V_{\theta}(\hat{\theta}_2)}{V_{\theta}(\hat{\theta}_1)}$を$\hat{\theta}_1$の$\hat{\theta}_2$に対する相対効率と呼びます。より一般の推定量に拡張した$e(\hat{\theta}_1,\hat{\theta}_2)=\frac{E_{\theta}((\hat{\theta}_2-\theta)^2)}{E_{\theta}((\hat{\theta}_1-\theta)^2)}$を相対効率と呼称することもあります。

まとめ

　情報量がとても多いエントリとなりましたのでざっくりとまとめます。詳細については割愛していますので、詳細は該当の見出しまで戻って腹落ちするまで読み込んでみてください。

統計的推定とは、母集団の確率分布のパラメータを標本を使って推し測る行為
- 真のパラメータを一点で推定する点推定と推定範囲が真のパラメータをとらえるだろうとする区間推定がある
推定量は標本の関数であればいいので、例えば母平均を点推定する推定量はいくつでも考えられる。それらの中でよい推定量とは真のパラメータとの平均二乗誤差が小さいもの。
- 平均二乗誤差はバイアス・バリアンス分解される。
- バイアスとバリアンスはトレードオフの関係
一般的に平均二乗誤差を最小にするような推定量を求めることは困難
不偏性はバイアス項が$0$となること。これによりバリアンス項を最小化すればいいので解析しやすくなる。
- 不偏性は有限の標本についての弱い要請
- 期待値が$0$となる統計量を不偏推定量に足しても不偏推定量になる
一致性は推定量自体が真のパラメータに近付くというより実用的で強い要請
有効推定量は不偏推定量でクラメール・ラオの下限を達成する物のこと

参考文献

日本統計学会編, “日本統計学会公式認定統計検定１級対応統計学”, 第６刷, 2013, 東京図書, ISBN 978-4-489-02150-3.

これらの性質を満たすからと言って最善の推定量となるわけではないことに注意してください。 ↩︎

【統計検定１級対策】統計的推定と不偏性・一致性・有効性について

目次

前書き

統計的推定とは？

点推定量が満たすと望ましい性質

不偏性

一致性

有効性

まとめ

参考文献