確率統計
確率の基礎
今まで慣れ親しんできた確率論は、頻度論と呼ばれる。高エネ物理でよく使用されるのはベイズ統計なので、これまでの確率の考えをそのまま適用することはできない。ここを混同すると、何をしているのか分からなくなるので要注意。高エネ物理では、実験を進めてデータを取得し、それらを元に予想される理論が正しいかどうかを考える(つまり一種のパラメーター推定を行う)。
- Frequentist :真の分布があって、そこからとあるデータを抽出する試行を考える。
- Bayesian:取得したデータを元に、それが従う最適な分布を推定する。
頻度論
よく使われる例に、降水確率が挙げられる。frequentist の観点からは明日が雨かどうかは「降る」「降らない」の1/2だが、ニュースでよく聞く「降水確率30%」とは何を指すのだろうか?
まず、そもそも頻度論には大きな弱点があり、算出される確率がその事象固有の性質を表しているわけではない、ということである(この弱点がベイズ統計で克服されているというわけではないが)。例えば、40代の男性がガンを発病する確率が1%だった、という調査があったとしよう。これも母集団からサンプルを抽出した結果のものなので、frequentist inferenceである。この結果から、40代の男性はガンを1%の確率で発病するものだ、と一般化してもよいだろうか?答えは「それはできない」である。1%という数字は、どういう母集団からサンプルを抽出するかに依存している。喫煙者、親族にガン患者がいる、非喫煙者、全く親族にガン患者がいない、等々母集団(ensamble)の選び方で1%という確率が変わってくることは容易に想像がつき、「40代の男性」の持つ性質ではないことが分かる。
なので、降水確率30%、も「明日における降雨」の性質を表した数値ではない。気象衛星や気象学者、スパコンによるシミュレーションから「明日は雨が降るだろう」という予測が過去何十年と行われてきて、その結果本当に降った日もあれば予測が外れた日もある。そして、この様に行われてきた予報情報を蓄積すれば「明日は雨が降る」という予報が何%の確率で的中したかが算出できる。これが降水確率であり、「降水確率30%」とは「"明日は雨が降る"という予報が100回発表されたうち30回は的中するくらいの精度を持っている」と宣言しているのと同じである。
この考え方をさらに、高エネ物理の表現に直してみる。蓄積された実験データから、トップクォークの質量は173.2+/-0.9 [GeV]と求められている。ここで、実験データはガウス分布に従っているとして、0.9は標準偏差を表している。実験がどうであれ、トップクォークの質量には真値が必ずあり、無限の分解能の検出器であればとある値μと断定できるが、実際はそうはいかない。こういう状況で173.2�0.9 [GeV]を解釈したときに、
- 真の質量値μは、172.3 GeV から174.1 GeV の区間のどこかに位置する
という解釈は全くの間違いである。先にも述べたように、frequentist では真の値μは固定(真の分布は固定)であり、
真の分布におけるパラメータ(ここではμ)は変数として扱わない。正しい解釈は
- 「真の質量値が172.3 GeV から174.1 GeV の区間のどこかに位置する」という主張は68%の確率で正しい
- (もしくは)68%の信頼度で「真の質量値が172.3 GeV から174.1 GeV の区間のどこかに位置する」と主張できる
というものである。自らの主張の精度をさらに上げたければ、1σではなく2σにすればよく、
- 「真の質量値が171.4 GeV から175.0 GeV の区間のどこかに位置する」という主張は95%の確率で正しい
と主張することができるようになる。
基本的に、よく知られた分布(ex. Standard Model)を議論するときは、この頻度論の考えでよく、全く何もしらない分布をデータから見積もるときは、次に説明するベイズ統計の考え方を用いる必要がある。
ベイズ統計
取得したデータを元に仮説が正しいかどうか、Posterior probability (事後確率)を求める。
Error propagation
共分散
用語整理
- 偏差:平均値からのずれ
- 分散(Variation):E[(x-μ)]、偏差の期待値
- 標準偏差(Standard Deviation):分散の平方根を取ったもの。いわゆるシグマ。平方根を取ることで、単位がもとのデータと同じになるので便利であったりする。
- Root Mean Square : E[x^2] データ値の2乗を平均して、その平方根をとったもの。(ROOT5までRMSと標準偏差が混同されていた。ROOT6で治った。)
- 算術平均:n個の値を足して、nで割ったもの
スライド一覧
https://indico.cern.ch/event/287744/contributions/1641250/attachments/535751/738667/Verkerke_Statistics_1.pdf
--
KosukeTakeda - 2019-02-26