Processing math: 0%
跳到主要內容

Probability In Mathematician's Brain

日常生活中充滿著不確定性(Uncertainty),隨機性(Randomness)。我們能輕易理解公平骰子每一面出現的機率值為\frac{1}{6},而且可以利用排列組合(Combinatorics)的比例去計算複雜的狀況的機率值。但對於更複雜的隨機性(如隨著時間,空間連續變化的隨機性,大量的試驗,該如何計算,如何刻劃,我們就必須要學習 20世紀數學家發展嚴謹的測度論(Measure Theory)與機率論(Probability Theory),Andrey Komogorov 機率公設模型後,才算是更清楚掌握瞭解機率的真正概念與正確使用數學描述不確定性!! 而其中核心概念是隨機變數(Random Variable)的引入,但因初學者往往會對隨機變數有種似懂非懂甚至誤解,所以本篇算是對於"隨機變數"的概念做澄清。

[預備知識] 需要理解集合(Set),函數(Function),微積分(Calculus)符號
[註] 關於函數的介紹,也可以看這篇的前半部有詳細的回顧 !!

首先我們會定義一個抽象的集合 \Omega ,稱之為樣本空間(sample space),其元素 \omega \in \Omega,代表可能的情境(possible scenario)或是稱為基本事件(simple event)。當事情發生後,相當於從 \Omega 選取一個 \omega !!
[Example] 丟一個骰子,可能會出現的結果 \Omega = \{1,2,3,4,5,6\},則丟完以後只會出現其中一種 \omega = 1 \text{ or }2\text{ or }3\text{ or }4\text{ or }5\text{ or }6,而機率值假設分別為 \frac{1}{6}。但實際上我們可能感興趣更大的集合,例如: 出現偶數點的機率。回憶起你如何計算它,你必須先收集出 E :=\{2,4,6\} \subset \Omega ,然後再分別計算基本事件的機率 \frac{1}{6} + \frac{1}{6} + \frac{1}{6}  = \frac{1}{2} \quad (*)
[可以做的事]
把基本事件寫成"單點"的集合 A = \{2\} , B = \{4\} , C = \{6\}(*)  相當於計算 P(E) = P(A\cup B \cup C)= P(A)+P(B)+P(C)  ,其中 P 可以把像A,B,C,E集合分別對應到一個機率值 \frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{2}。這些集合叫做"事件"(Event),在數學上稱為可測集(measurable set),基本事件也是事件的一種。於是我們創造所有事件的集合 : \mathcal{M}=\{E:E \subseteq \Omega\},並定義 P : \mathcal{M} \longrightarrow [0,1]P滿足機率公設(probability axioms),例如: P(\Omega) = 1。再來我們就可以定義隨機變數(random variable),是一個函數X: \Omega \longrightarrow \mathbb{R} 而根據函數定義,樣本空間等於互斥的Preimage 的聯集,即\Omega = \bigcup^{\text{disjoint}}_{x\in X(\Omega)} X^{-1}(x) \qquad X^{-1}(x):=\{\omega \in \Omega : X(\omega) = x\}  
其中 X(\Omega) = \{x \in \mathbb{R} : \exists \omega \text{ s.t } X(\omega) = x \} Image

隨機變數大致上分三種 :
\qquad1. X 為離散隨機變數,記為 case (D)  則 |X(\mathbb{\Omega}) |< \infty
\qquad2. X 為連續隨機變數,記為 case (C)  則  X(\mathbb{\Omega}) = \mathbb{R}
\qquad3. X 為混合隨機變數,記為 case (M)(D+C) 混合例子
而它們都有機率函數或是機率質量,代表機率的大小 :
P : \mathcal{M} \longrightarrow \mathbb{[0,1]}
註:可以想成 P 在測量集合/事件 S \in \mathcal{M} 的大小,而賦予一個 0~1 的值,跟量面積感覺一樣,所以才會說機率是一種測度(measure)

(D) 的例子,可以"直接"定義機率質量函數(probability mass function  pmf) P
 接下來最重要的簡寫(但這簡寫誤導了初學者!!)
  p(x) := P(X = x) = P(\{\omega \in \Omega : X(\omega) = x \}) = P(X^{-1}(x))


注意: 需要能區分大 X \in  \mathbb{R}^{\Omega} 函數,小 x \in \mathbb{R} 的意義差別
注意: 需要能區分大 P \in [0,1]^{\mathcal{M}} 跟小 p \in [0,1]^{X(\mathbb{\Omega})} 的差別 \displaystyle{ p = P \circ X^{-1}}  

(C)(M) 的例子,可以定義一個非遞減(non-decreasing )累積密度函數(cumulative distribution function  cdf) F : \mathbb{R} \rightarrow \mathbb{R}
 F(x) :=P(X\leq x) := P(\{\omega \in \Omega : X(\omega) \leq x \}) = P(X^{-1}\left( (\infty , x] )\right)
(C)的例子,單點的機率為0 \lim_{h \rightarrow 0}F(x+h) - F(x) = \lim_{h \rightarrow 0} P(X \in [x,x+h])= P(X=x) = 0  
而你會發現這剛好是 F 連續的定義,所以(C) 才叫做"連續"隨機變數

(M)的例子比較複雜,我們把離散的點x也畫在實數線上,F 是一個不連續函數,(不連續點的地方假設為 x = x_0,連續點的地方假設為 x = x_1) 則那一點有機率質量 \displaystyle{P(X=x_0) = \lim_{h\rightarrow 0}F(x_0 + h) - F(x_0)} > 0,通俗來說叫做在 x_0有 " jump ",而 P(X=x_1) = 0

而在 (C) 的例子,連續點的地方雖然機率質量為 0 ,但是有機率密度函數(probability density function) f : \mathbb{R} \longrightarrow \mathbb{R} (註: 密度的值\geq 0可以 > 1)
f(x) := \frac{d}{dx} F(x) = \frac{d}{dx} P(X\leq x) = \frac{d}{dx}  P(\{\omega \in \Omega : X(\omega) \leq x \}) 
注意 : 是對 x 微分,而不是 X !!

注意: 在實際定義隨機變數 X的時候,會直接定義 X(\Omega),而不關心 \Omega 的長相, 也就是 \Omega 只是個抽象的集合。但在 (C) 的 X(\Omega) = \mathbb{R} ,會另外定義 Support SuppX := \{ x \in \mathbb{R} : f(x)> 0 \}   \Longrightarrow f(x)  \left\{\begin{array}{cc} >0 & x \in SuppX\\ 0 & x \in \mathbb{R}\setminus SuppX \\  \end{array}\right.

[額外補充]
如果是(M),則機率密度函數(pdf)比較複雜,可參考 dirac delta 相關概念
或是利用累積密度函數(cdf)的再不連續點作 smooth approximation 近似來微分!!

而常見的機率模型如下表,注意機率模型通常會有額外參數 \vec{\theta} = (\theta_1,.....\theta_m) ,術語上我們稱作 parametric family !!
case (D) Bernoulli , Binomial , Geometric , Hypergeometric , Poisson
\begin{array}{l|l|l} \text{name}& \vec{\theta}  & X(\mathbb{\Omega})  \\ & & & \\ \text{Bernoulli}& p & \{0,1\} \\ \text{Binomial}& (n,p) & \{0,1,2,3,...n\}  \\ \text{Geometric}& p &  \mathbb{N}\cup \{0\} \\ \text{Hypergeometric} & (N,K,n) &   [\text{max }(n+K-N),\text{min }(n,K)]_\mathbb{N}  \\ \text{Poisson} & \lambda &   \mathbb{N}\cup \{0\} \\ \end{array}

case (C) Normal , Gamma , Beta , Chi-square , student t , F
\begin{array}{l|l|l} \text{name} & SuppX & \vec{\theta}  \\ & & & \\ \text{Normal} & \mathbb{R} & (\mu ,\sigma)  \\ \text{Gamma } &  [0,\infty) & (k ,\theta)  \\ \text{Beta }&  [0,1) &  \alpha , \beta \\ \text{Chi-square } &  [0,\infty) & k  \\ \text{student t } & \mathbb{R} & \nu  \\ \text{F}  & [0,\infty) & (d_1 , d_2)  \\ \end{array}


[古典統計學的目的]
傳統而言我們會先假設一種機率模型,但參數 \vec{\theta} 是未知的,實作來說要找到一個隨機變數X_n跟樣本數 n 有關,X_n 通常稱為統計量!!

(1)點估計(Point Estimation) :   收集資料去估計未知 \vec{\theta} !! ,使得 P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| < \epsilon \})\approx 1
(2)假設檢定(Test hypothesis) :  假設 H_0 : \vec{\theta} = \vec{\theta}_0 正確(虛無假設) ,計算離\theta_0夠遠L的地方
P(E_n):=P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| > L \})\approx 0 ,如果觀察出X_n^{-1}(x_n) 確實落在 E_n 裡,則 H_0 有信心可以說是錯的(拒絕H_0) 。即在H_0下,觀察到幾乎不可能的事發生 !!

[多維的例子說明]
Ex:三個連續隨機變數有 X,Y,Z 則我們要計算 X\leq 1Y\leq 2Z\leq 3的機率,就要思考一個隨機向量 : V :  \Omega \longrightarrow  \mathbb{R}^3
等價於計算 P(\{\omega \in \Omega : X(\omega)\leq 1 , Y(\omega) \leq 2 , Z(\omega) \leq 3 \})

[小結]
機率與統計在數學上是比較高深的結構,卻存在於我們日常生活中!!以上給一個隨機變數 X 一個清楚的數學長相 !! 關於獨立性,特徵函數,相關係數,期望值,變異數,甚至多維向量推廣,條件機率的計算等等,日後會再寫一篇!!



[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2017.08



留言

這個網誌中的熱門文章

Nash Equilibrium & Best Responce Function (BRF) In Continuous Strategies

經濟學重要的賽局理論( Game Theory )領域,用數學描述人與人之間的理性互動,最重要的就是尋找奈許均衡( Nash equilibrium ), 本篇介紹其數學規劃與非線性方程組!!  假設有 p 名玩家(player i),i=1,2,3,4,5,....p , 正在玩一場遊戲(Game)~~,完全不合作,各自獨立作決策 每個人有決策向量 x_i \in \Omega_i \subseteq R^{n_i} (有n_i個決策變數)  定義長向量: \underbrace{x =  (x_1,x_2,x_3,....x_p)}_{\# \text{ of } \sum^{p}_{i=1}n_i \text{ variables }} \in  \prod^{p}_{i=1} \Omega_i = \Omega 對於每個 player i ,長向量可以寫成 x = (x_i , x_{-i})x_{-i} 代表其他人(不是 player i) 能做的決策向量。 所有人各自作決策後,每個人都會個自的存在報酬效用函數 f_i (x)  \in \mathbb{R}  (報酬函數皆為公開已知資訊) 假設每位玩家是理性人(會極大化自己效用) 即 \forall i = 1,2,3,4....p \qquad  \underset{x_i \in \Omega_i}{\text{max }}f_i(x)   [註: 如果為合作可視為多目標規劃問題( multiobjective ),即 x_1,x_2,...x_p 可以由領導人一起決定] [註: 如果為合作而且把效用加總,即目標式變成 \sum_{i=1}^{p} f_i(x) ,可能對集體效益有更大的幫助,但是如何分配效益給 ( player i )會是個議題,可以查關鍵字 fair optimization ] 我們可以定義每個 player i 的 Best Response Function (BRF) or Best Reponce Set S_i(x_{-i}) \subset \Omega_i $$  S_i(x...

Lattice & Multinomial Theorem

本文介紹格子點(Lattice) 幾何意義與多項式定理(Mutinomial Theorem) 的關係,並可協助我們理解計算一些機率問題。 [符號定義] 非負整數 / 非負實數:  \mathbb{Z}_{\geq 0} := \{0,1,2,3,4,......\}  \subseteq [0,\infty) =: \mathbb{R}_{\geq 0} 離散機率向量:  p_{I} := (p_{i})_{i \in I} \text{ s.t } \sum_{i\in I}p_i =1 ,|I|<\infty  發生事件 i \in I 的累積次數向量: k_{I} := (k_i)_{i \in I} \in \mathbb{Z}^{|I|}_{\geq 0} \mathbb{Z}^{|I|}_{\geq 0} 就是 |I| 維格子點 !! [格子點情境] 出發點定義為 k^{start}_{I}:= \overbrace{(0,0...,0)}^{|I|},今發生一次 p_{I} 分布隨機互斥事件,等價於"點的移動"(state transition),數學定義如下:   \text{Event } i  \text{ happens }  \Longleftrightarrow  \overbrace{(\color{red}{k_i},k_{-i})}^{k^{old}_{I}}  \underset{\text{with probability }p_{i}}{\longrightarrow}   \overbrace{(\color{red}{k_i+1},k_{-i})}^{ k^{new}_{I}}    PS1: 其中  k_{-i} := (k_{i'})_{i' \in I-\{i\}} PS2: 不管怎麼走都在第一象限,也就是只能往右,往上,往高.... 當發生 n 次獨立同分布 p_{I} (iid) 的事件後,所有可能點位置在以下的集合上 $$  S_{n}(\col...

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定n筆實數型訓練資料 (training data) \{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p} , y^{k} \in \mathbb{R} , 我們目標是想要找到一個函數 f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R} 使得  \forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\...