正規分布(Normal distribution) とは

確率変数Xが正規分布であるとは、確率密度関数が、平均 μ=E(x)と分散 V=σ^2=E(x-μx)^2 のみで特徴づけられる下記の分布である。N(μ,σ)で表わす。

NormalDistribution.png

平均が零、分散が1の正規分布は、N(0,1) 標準正規分布と呼ばれる。

simpleNormal.png
  • ガウス分布とかベル曲線とも呼ばれる。

中心極限定理

母集団が正規分布に従うとき、そこから独立に抽出した標本値(観測値) xi,i=1~n の平均値は、正規分布に従う。

Lim(n-->大)(x1+x2+・・・・+xn)/n ---> N(μ,σ/√n)

xが平均μ,標準偏差σの正規分布にしたがうならば,大きさnの無作為標本に基づく標本平均 は,平均μ,標準偏差 σ/√n の正規分布にしたがう。nが十分大きくなれば正規分布に収束する。

  • 正規分布にしたがうものは,平均であるということです。標本の分布が,正規分布になるのではありません。
  • 標準正規分布では、xが区間x-1.96とx+1.96の間にある確率は0.95である。言い換えれば、ほぼ95%の信頼性で、xは-1.96から+1.96と考えてよい。この区間を信頼区間と呼ぶ。

信頼度と信頼区間

中心極限定理から、標本平均の信頼度が評価できます。

母集団の平均が、未知であるとき、標本平均から母集団の平均を推定する問題を考えましょう。

  • 例題:400 個の卵を無作為に抽出して重さを計ったところ,平均値は 38.5 であった。出荷された卵の平均重量を,信頼度 95% で推定せよ。母標準偏差 σ の値は σ=3.1g であるとする。
    • 解答:中心極限定理を使う。N(μ,σ/√n)に近いと考える。95%の信頼区間は、[μ-1.96σ/√n,μ+1.96σ/√n] であるので、n=400,μ=38.5,σ=3.1 を代入して、μ-1.96σ/√n=38.2、μ+1.96σ/√n=38.8になるので、「95%の信頼度で38.2g以上 38.8g以下である」。 

母分散の推定

前の問題では、母標準偏差が分かっている必要がありました。実際に母分散を知ることはできないので、標本の分散から推定せざるを得ません。

標本分散σx^2と母分散σ^2の関係式を見つけましょう。

σx^2=Σ(xi-μx)^2/n=Σ(xi)^2/n-μx^2

この期待値がどのようにあらわされるかが問題である。

ここで、E(xi^2)を母平均μと母標準偏差σで表わす。

E(xi^2)=E(xi-μ+μ)^2
       =E(xi-μ)^2+2E(xi-μ)μ+μ^2
       =σ^2+2μ・0+μ^2=σ^2+μ^2

またμx^2を母平均μと母標準偏差σで表わす。μx=Σxi/n=Σ(xiーμ)/n+μ より

E(μx^2]=E[(Σxi/n)^2]=E[Σ(xiーμ)/n+μ]^2
              =E[(1/n^2)ΣΣ(xiーμ)(xj-μ)+(1/n)2(Σμ・(xiーμ)/n)+μ^2]

E(xi-μ)^2=σ^2 かつiとjが異なるときE(xiーμ)(xjーμ)=0である。第2項も0になるので

μx^2=(1/n^2)n σ^2+μ^2

これらを代入すれば

E(σx^2)=E[Σ(xi)^2/n]-E[μx^2]
    =n(σ^2+μ^2)/n- σ^2/n-μ^2
    =[(n-1)/n]・σ^2

ゆえに、σx^2は不偏推定量ではない。そこで、  S^2=σx^2・n/(n-1)=Σ(xi-μx)^2/(n-1) が、不偏推定量になる。

n が十分大きければ,E[σx]-σ2=-(1/n)σ2 となりますので,漸近的には不偏となりますので、問題は出ないかもしれません。

条件付き期待値の定理

条件付き期待値と分散の重要な定理

  • 2つの変量YとXが、正規分布に従うとする。この時、Yが観測されたという条件のもとでXを推定したい。そのため、条件付き分布は、どのようになるか?
    X,Y~N((mX,mY), S)
  • Yが与えられたときのXの条件付分布は
    期待値= mX +(sxy/syy)(Y-my)
    分散= (syysxx-sxysyx)/syy=sxx-sxysyx/syy
  • (解説)
    • Yが観察されることにより、状態変数Xの分散はsxx からsxx-sxy*syx/syyに減少。その減少の度合いは共分散sxyに依存する。Yが観察されることによりxの期待値は0から(Y-my)*sxy/syyに変化する。期待値の変化は(Y-my)と共分散sxyに依存する。条件付分散はYの値には依存しない。係数(sxy/syy)はいわゆる回帰係数

参考


添付ファイル: filesimpleNormal.png 628件 [詳細] fileNormalDistribution.png 657件 [詳細]

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-09-21 (火) 10:30:00 (4753d)