仮説検定とは:帰無仮説と対立仮説

仮説がデータから支持されるかどうかを判断するための統計的手法

一般に,検証したい仮説を帰無仮説といい,帰無仮説が成り立たないときに採択される仮説を対立仮説という.

  • 危険率(有意水準)をあらかじめ指定しておき、危険率がこの水準を越えない範囲で検出力がなるべく大きくなるように棄却域を定めるようにした検定基準がネイマン・ピアソン基準といわれるものです。すなわち、一定の第1種の過誤確率について、第2種の過誤確率を最小にするような棄却域の選び方がネイマン・ピアソン基準で以下で、具体例を示す。

ネイマンとピアソン

エゴン・シャープ・ピアソン (Egon Sharpe Pearson 1895年8月11日 - 1980年6月12日)はイギリスの数理統計学者。イェジ(イェルジー)・ネイマン(Jerzy Neyman 1894年4月16日- 1981年8月5日)は数理統計学者。有名な父カール・ピアソンの後を継いで統計学を研究し、イェジ・ネイマンとともに現代の推計統計学の中心的理論を造り上げた。イェジ・ネイマンは、1925年、ロンドン大学のピアソンのもとに留学した。ピアソンはもはや測度論的確率論など最新の理論には疎かったが、息子のエゴン・ピアソンとは意気投合した。1926年パリに短期留学しボレル、ルベーグらに学ぶが、この時期からエゴンとの仮説検定理論の共同研究も開始した。 1927年ワルシャワに帰り生物測定学研究室を立ち上げたが、1934年再びロンドン大学に移ってエゴンらと研究を行った。この時期にも信頼区間の理論など重要な業績を上げた。

検定の定式化:正規分布の事例

データX1, . . . ,Xn が正規分布N(μ, σ2) から独立に得られているとする.分散の値σ2 は既知とする.このとき期待値μ に関して2 つの仮説が考えられる。

H0 : μ = μ0 (帰無仮説)
H1 : μ >または< μ0 (対立仮説)

を考え,μ = μ0 かどうかをデータから判定する.

もし帰無仮説H0 が正しいなら,標本平均

μx=(x1+x2+....+xn/n

は母集団平均に近いはずである。したがって| μx − μ0| の値が大きいならH0は正しくないと判断できる. そこで、定数c を決めておいて

| μx − μ0| > c =⇒ 帰無仮説H0を棄却

とする方法で考えよう。 帰無仮説を棄却するようなデータの集合を、棄却域Wという。

W = {Σxn/n | |Σxn/n− μ0| > c}

問題は、「定数c をどのように決めればよいか?」ということであるが・・・。.どの程度の大きさの誤り確率まで許すかを始めに決めておいて,これをα とおいて有意水準とよぶ.有意水準α に対して,棄却域が

P{μx ∈ W : H0は正しい}≤ α

となる。通常はα = 0.1, 0.05 などの値が選ばれる.前を10%の有意水準、後を5%の有意水準のもとで、棄却あるいは採択されるとよぶ。

本当は帰無仮説が正しいときに誤って帰無仮説を棄却してしまう確率を過誤確率という。 本当は帰無仮説が正しいときに誤って帰無仮説を棄却してしまう確率は

P{μx ∈ W : H0は正しい}= P{| μx − μ0| > c : μ = μ0}

で表わされる。ここで右辺は「期待値がμ0 であるような正規分布のもとで| μx − μ0| > c となる確率」を意味する。

仮説検定の手順

  • 1.有意水準α を決める
  • 2.P{H0を棄却: H0が正しい}≤ α を満たすように棄却域W を構成
  • 3.観測したデータが棄却域に入るか確認し、入れば H0 を棄却

例題:小学生の平均体重は、30kgか?

  • データを集めたところ、下図のようであった。
    • データ数はn = 63 であり,平均は27.8であった。分散は 26 であった。分散は既知とする.
      Data.JPG
  • 帰無仮説を「平均体重は、30kg」としよう。
H0 : c = 30 kg
H1 : c >または< 30 kg
  • そして、有意水準をα = 0.1 と決める.
  • つぎに、棄却域を構成する。測定結果は正規分布でよく近似できると仮定して棄却域を構成す る.
  • 帰無仮説のもとではXはN(30, 26) にしたがうはずなので,63 個のデータの平均μx=(x1+x2...+xn)/n のしたがう分布は、中心極限定理より
    平均μxの分布:N(30,26/63)
    になる。別の言い方をすれば、(X-μx)√σ が正規分布N(0.1)に従う。

そこで、標準正規分布より

kikyakuiki.JPG

となるように、cの棄却域を決める。標準正規分布より C*=1.64 である。 データの平均体重は27.8kgであったので、-1.64<(μx-30)/√σ<1.64 に入るかどうかで仮説検定を行う。(σ=26/83)

(μx-30)/√σ=(27.8-30)/√(26/83)=3.41>1.64

帰無仮説は有意水準10%で採択されないことになる。平均体重は30kgとみなすことはできない。

中心極限定理

n個の互いに独立なランダム変数が、平均μ分散σ^2を持つ同一の分布にしがたうとする。このときnが十分に大きければ、標本平均は近似的に正規分布

μX=(x1+x2+.....+xn)/nの分布は
N(μ,σ/n)

にしたがう。

仮説検定の誤り確率:第1種過誤確率と第2種過誤確率

たまたま偏ったデータが観測されたときには,検定による判断は誤ってしまうこともある.誤って判断してしまう確率が小さいほど優れた検定方式と考えることができる.検定の棄却域をW とすると検定における誤りは以下の表のようにまとめることができる.

KasetsuKentei.JPG
  • 第1種過誤確率
    • 本来は帰無仮説H0 が正しいにもかかわらずH0 を棄却してしまうという、誤った判断をする確率
  • 第2種過誤確率
    • 本来は帰無仮説H0 が間違っているにもかかわらずH0 を採択してしまうという、誤った判断をする確率

検定には以上の2 通りの誤りが存在する.しかしながら、仮説検定では,有意水準α を定めることで第I 種の誤りをα以下に抑えているが,第II 種の誤りについてはとくに制約を置いていない。

  • したがっていくつかの検定方式を比較するときには次のように考える. 有意水準α の検定方法が複数あるときは、第II 種の誤り確率が小さい検定方式のほうが優れている

最適な検定:ネイマン・ピアソンの補題

有意水準αが所与の時、第II 種の誤り確率を最も小さくするような検定方法はどのようなものか? データX が得られたときに,データの確率密度関数がp(x) かq(x)かを検定する。

H0 : X ∼ p(x) (帰無仮説)
H1 : X ∼ q(x) (対立仮説)

有意水準α の棄却域のうち,第II 種の誤り確率を最も小さくする棄却域は

W ={x|q(x)/p(x) ≥ c}

で与えられる.ここでc は

第I 種の誤り確率=∫p(x)dx = α:棄却域Wに入る確率がα

を満たす値とする.

  • 上で定義した尤度比:λ(x) = q(x)/p(x)を使う検定を「尤度比検定」という。

「尤度比検定」という.直感的には

p(x) : 仮説H0のもとでのデータx の出現しやすさ
q(x):仮説H1のもとでのデータx の出現しやすさ

を表すので、どちらのほうがもっともらしいかを尤度比によって判断しようとしている.

  • 尤度比が大きければH1 のほうがもっともらしいということになる。H1もH0も同様に尤もらしい場合は尤度比は1となる。
    likelihood-ratio.JPG
  • この補題は、有意水準α のもとで第II 種の誤り確率が最も小さくなる棄却域を決める上で有用である。

例題:正規分布の期待値の尤度比検定

データX1, . . . ,Xn が正規分布N(μ, 1) から独立に得られているとする. 分散の値は既知として期待値に関する次の検定を行う.

H0 : μ = μ0
H1 : μ = μ1
ここでμ0 < μ1 とする

ネイマン・ピアソンの補題から定まる棄却域を構成する 確率密度関数で考えると上の仮説は

H0 : p(x1, . . . , xn) = Π(1/√2π)exp[-(xi-μ0)^2/2] i=1~n
H0 : q(x1, . . . , xn) = Π(1/√2π)exp[-(xi-μ1)^2/2] i=1~n

となる.尤度比を計算すると

λ =p(x1, . . . , xn)/q(x1, . . . , xn)=exp{Σxi(μ1-μ0)+n(μ0^2-μ1^2)/2}

棄却域は、サンプル平均をμx=Σxi/n として

W = {(x1, . . . , xn) | λ > c}
= {μx | μx(μ1 − μ0) > c'}
= {μx | μx > c''}

ここでc', c は適当な定数である.式変形していくとc' やc はμ0, μ1 に依存した複雑な式 になるが,そのような繁雑なことは考えずに,帰無仮説H0 のもとでデータが棄却域W に入ってしまう確率が有意水準α になるようにc'' を決めればよい.

帰無仮説H0 のもとでは μxが N(μ0, 1/n) の確率密度関数となるので、 P{μx ∈ W}= P{μx ≥ c}= P{√n(μx − μ0) > √n(c − μ0)}= α となればよい。,√n(c'' − μ0) = zα と置いて、棄却域を

W =[μx | μx > μ0 + zα √n]

とすればよい。このようにして、有意水準α のもとで第II 種の誤り確率が最も小さくなるように棄却域を決めることができる.


添付ファイル: filelikelihood-ratio.JPG 397件 [詳細] filekikyakuiki.JPG 349件 [詳細] fileData.JPG 370件 [詳細] fileKasetsuKentei.JPG 373件 [詳細]

トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-09-01 (水) 14:02:00 (3339d)