統計学と確率論をすこし
統計学のイメージ
・「従来の統計学」は「頻度論」と呼ばれた
「頻度論」とは
・「あることが起こる頻度」を実験・観測・数学から客観的に求めるため
・「品質管理」「実験分析」に貢献
・「時間の異なるデータの活用」「少ないデータの分析」「経験を加味したデータ解析」には不向き
分類
・記述統計
-19世紀終わりから20世紀にかけて大成
-データの特徴を記述
平均、分散(標準偏差)
-現状を整理
度数分布表、ヒストグラム等
ー広く与えられたデータを整理し、有用な情報を取り出す方法論
平均値、標準偏差、最頻値、中央値
・推測統計 => 機械学習へ展開
-20世紀
-標本(サンプル)から母集団の性質を確率的に推測
推測には確率を使う
-未来を予測する
-数字で与えられたデータを、どのように分析し、どのような判断を下したらよいかを論ずる学問
-「推定」「検定」
-客観確率
推計統計学は精緻な数学理論となった反面、応用には必ずしも適していない
・ベイズ統計
-1954年
-「ベイズの定理を使う」が共通点で、応用が自由
-主観確率
母集団の前提を必要とせず不完全情報環境下での計算や原因の確率を語る
新たに取得した情報によって確率を更新する機能が内包されている
*注)結果から原因を探る定理
確率論
1.数学的確率(古典的確率、事象論)・・・中学、高校で学ぶ確率
求める「場合の数」/起こる全ての「場合の数」=「場合の数」の比
[条件1]起こる全ての「場合の数」 => 有限確定・一定
[条件2]どの単一事象の起こる確率も等しい=一様分布=「同様に確からしい」
[矛盾1]「同様に確からしい」場合でしか適用できない
[矛盾2]確率を求めたいのに前提で確率がすでに定義されている
[矛盾3]根元事象の数が無限個ある場合に分母が無限大になり確率を求められない
[結論]数学的確率は上の矛盾点を感じるので美しくなく、釈然としない
例1)「地球に隕石が落ちてくる。陸地に落ちる確率を求めよ」という問題が
あった場合・・・数学的確率では答えが出ない。なぜなら、陸地、地球の面積を有限の場合の数で表せないからである。数学的には、(落下)点は面積ではない。
点は面積を持たない。
例2)「飛行機がハイジャックされる確率を求めよ」
”場合の数”は、「ハイジャックされる」「ハイジャックされない」の2通り。
「同様に確からしい」であれば、ハイジャックされる確率=50%
ハイジャックされない確率=50%となってしまう。
でも、実際にはこんなことはあり得ない。
例3)「1の目が出るまでサイコロを投げた回数」を根元事象とすれば、根元
事象は無限個になる。
*有限確定・・・無限の「場合の数」ではダメ。「場合の数」は有限でなければ
ならない。
*一定・・・サイコロの面がある場合は6面だが次に投げたら4面とかありえない。
常に6面一定でなければならない。
2.統計的確率(頻度論)・・・大学で学ぶ確率
事象の起こった回数/試行回数=「発生頻度」の比
[条件]同一条件の元で何度でも反復してAが起こるか否かを試すことが許される
[欠点1]実験・観測を行う環境や条件を同一にするのが困難な場合がある。
[欠点2]無限回行うことが不可能である。
例1)「車の衝突回避システムの安全性の確率を求めよ」
こんなの反復試行できない。やったら、ドライバーけがをする。
例2)「原発の停止システムの確率を求めよ」
危険すぎて実験できない。
下手こいたら、放射線ばらまきまくるやないかえ。
[結論1]理論上は分かりやすい概念であるが、現実の世界に合わせると使える
場面は限定される。
[結論2]有限回のnで反復試行を打ち切り、そのときまでにaiがni回起こったと
すれば、Piをそのときの相対頻度ni/nで近似せざるを得ない。
3.公理論的確率(測度論的確率)・・・大学で学ぶ確率
1、2に数学的な厳密性を持たせたのが、これ。
逆に言えば、1,2は数学的な厳密性に欠ける。。。というより様々な意味を
持つので定義するのが難しいのかも。。。
工学屋も使うし、経済学屋も使うし、結構雑学なのね。
だから、とりあえず、3つの公理を満たせば「確率」としちゃえって感じかなぁ。
重要なのは3つの公理。
非負性、完全加法性、
姉妹ブログで詳細
https://qiita.com/Pen_Than_Sword/items/3d34618bffdf2b775af3
参考文献
確率論:筑波大学
https://www.youtube.com/watch?v=eiVrWChM1eo