跳到主要內容

Probability In Mathematician's Brain

日常生活中充滿著不確定性(Uncertainty),隨機性(Randomness)。我們能輕易理解公平骰子每一面出現的機率值為$\frac{1}{6}$,而且可以利用排列組合(Combinatorics)的比例去計算複雜的狀況的機率值。但對於更複雜的隨機性(如隨著時間,空間連續變化的隨機性,大量的試驗,該如何計算,如何刻劃,我們就必須要學習 20世紀數學家發展嚴謹的測度論(Measure Theory)與機率論(Probability Theory),Andrey Komogorov 機率公設模型後,才算是更清楚掌握瞭解機率的真正概念與正確使用數學描述不確定性!! 而其中核心概念是隨機變數(Random Variable)的引入,但因初學者往往會對隨機變數有種似懂非懂甚至誤解,所以本篇算是對於"隨機變數"的概念做澄清。

[預備知識] 需要理解集合(Set),函數(Function),微積分(Calculus)符號
[註] 關於函數的介紹,也可以看這篇的前半部有詳細的回顧 !!

首先我們會定義一個抽象的集合 $\Omega$ ,稱之為樣本空間(sample space),其元素 $\omega \in \Omega$,代表可能的情境(possible scenario)或是稱為基本事件(simple event)。當事情發生後,相當於從 $\Omega$ 選取一個 $\omega$ !!
[Example] 丟一個骰子,可能會出現的結果 $\Omega = \{1,2,3,4,5,6\}$,則丟完以後只會出現其中一種 $\omega = 1 \text{ or }2\text{ or }3\text{ or }4\text{ or }5\text{ or }6$,而機率值假設分別為 $\frac{1}{6}$。但實際上我們可能感興趣更大的集合,例如: 出現偶數點的機率。回憶起你如何計算它,你必須先收集出 $E :=\{2,4,6\} \subset \Omega $ ,然後再分別計算基本事件的機率 $\frac{1}{6} + \frac{1}{6} + \frac{1}{6}  = \frac{1}{2} \quad (*)$
[可以做的事]
把基本事件寫成"單點"的集合 $A = \{2\}$ , $B = \{4\}$ , $C = \{6\}$,$(*)$  相當於計算 $P(E) = P(A\cup B \cup C)= P(A)+P(B)+P(C) $ ,其中 $P$ 可以把像$A,B,C,E$集合分別對應到一個機率值 $\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{2}$。這些集合叫做"事件"(Event),在數學上稱為可測集(measurable set),基本事件也是事件的一種。於是我們創造所有事件的集合 : $\mathcal{M}=\{E:E \subseteq \Omega\}$,並定義 $P : \mathcal{M} \longrightarrow [0,1]$,$P$滿足機率公設(probability axioms),例如: $P(\Omega) = 1$。再來我們就可以定義隨機變數(random variable),是一個函數$X: \Omega \longrightarrow \mathbb{R}$ 而根據函數定義,樣本空間等於互斥的Preimage 的聯集,即$$\Omega = \bigcup^{\text{disjoint}}_{x\in X(\Omega)} X^{-1}(x) \qquad X^{-1}(x):=\{\omega \in \Omega : X(\omega) = x\}  $$
其中 $X(\Omega) = \{x \in \mathbb{R} : \exists \omega \text{ s.t } X(\omega) = x \} $ 為 Image

隨機變數大致上分三種 :
$\qquad$1. $X$ 為離散隨機變數,記為 case $(D)$  則 $|X(\mathbb{\Omega}) |< \infty $
$\qquad$2. $X$ 為連續隨機變數,記為 case $(C)$  則  $X(\mathbb{\Omega}) = \mathbb{R}$
$\qquad$3. $X$ 為混合隨機變數,記為 case $(M)$ 是$(D+C) $混合例子
而它們都有機率函數或是機率質量,代表機率的大小 :
$$P : \mathcal{M} \longrightarrow \mathbb{[0,1]}$$
註:可以想成 $P$ 在測量集合/事件 $S \in \mathcal{M}$ 的大小,而賦予一個 0~1 的值,跟量面積感覺一樣,所以才會說機率是一種測度(measure)

在 $(D)$ 的例子,可以"直接"定義機率質量函數(probability mass function  pmf) $P$
 接下來最重要的簡寫(但這簡寫誤導了初學者!!)
$$   p(x) := P(X = x) = P(\{\omega \in \Omega : X(\omega) = x \}) = P(X^{-1}(x)) $$


注意: 需要能區分大 $X \in  \mathbb{R}^{\Omega}$ 函數,小 $x \in \mathbb{R}$ 的意義差別
注意: 需要能區分大 $P \in [0,1]^{\mathcal{M}}$ 跟小 $p \in [0,1]^{X(\mathbb{\Omega})}$ 的差別 $\displaystyle{ p = P \circ X^{-1}}  $

在 $(C)(M)$ 的例子,可以定義一個非遞減(non-decreasing )累積密度函數(cumulative distribution function  cdf) $F : \mathbb{R} \rightarrow \mathbb{R}$
$$  F(x) :=P(X\leq x) := P(\{\omega \in \Omega : X(\omega) \leq x \}) = P(X^{-1}\left( (\infty , x] )\right)$$
在$(C)$的例子,單點的機率為$0$ 即 $$ \lim_{h \rightarrow 0}F(x+h) - F(x) = \lim_{h \rightarrow 0} P(X \in [x,x+h])= P(X=x) = 0  $$
而你會發現這剛好是 $F$ 連續的定義,所以$(C)$ 才叫做"連續"隨機變數

在$(M)$的例子比較複雜,我們把離散的點$x$也畫在實數線上,$F$ 是一個不連續函數,(不連續點的地方假設為 $x = x_0$,連續點的地方假設為 $x = x_1$) 則那一點有機率質量 $\displaystyle{P(X=x_0) = \lim_{h\rightarrow 0}F(x_0 + h) - F(x_0)} > 0$,通俗來說叫做在 $x_0$有 " jump ",而 $P(X=x_1) = 0$

而在 $(C)$ 的例子,連續點的地方雖然機率質量為 $0$ ,但是有機率密度函數(probability density function) $f : \mathbb{R} \longrightarrow \mathbb{R}$ (註: 密度的值$\geq 0$可以 $> 1$)
$$ f(x) := \frac{d}{dx} F(x) = \frac{d}{dx} P(X\leq x) = \frac{d}{dx}  P(\{\omega \in \Omega : X(\omega) \leq x \}) $$
注意 : 是對 $x$ 微分,而不是 $X$ !!

注意: 在實際定義隨機變數 $X$的時候,會直接定義 $X(\Omega)$,而不關心 $\Omega$ 的長相, 也就是 $\Omega$ 只是個抽象的集合。但在 (C) 的 $X(\Omega) = \mathbb{R}$ ,會另外定義 Support $$ SuppX := \{ x \in \mathbb{R} : f(x)> 0 \}   \Longrightarrow f(x)  \left\{\begin{array}{cc}
>0 & x \in SuppX\\
0 & x \in \mathbb{R}\setminus SuppX \\
 \end{array}\right.$$

[額外補充]
如果是$(M)$,則機率密度函數(pdf)比較複雜,可參考 dirac delta 相關概念
或是利用累積密度函數(cdf)的再不連續點作 smooth approximation 近似來微分!!

而常見的機率模型如下表,注意機率模型通常會有額外參數 $\vec{\theta} = (\theta_1,.....\theta_m)$ ,術語上我們稱作 parametric family !!
case (D) Bernoulli , Binomial , Geometric , Hypergeometric , Poisson
$$\begin{array}{l|l|l}
\text{name}& \vec{\theta}  & X(\mathbb{\Omega})  \\
& & & \\
\text{Bernoulli}& p & \{0,1\} \\
\text{Binomial}& (n,p) & \{0,1,2,3,...n\}  \\
\text{Geometric}& p &  \mathbb{N}\cup \{0\} \\
\text{Hypergeometric} & (N,K,n) &   [\text{max }(n+K-N),\text{min }(n,K)]_\mathbb{N}  \\
\text{Poisson} & \lambda &   \mathbb{N}\cup \{0\} \\
\end{array}$$

case (C) Normal , Gamma , Beta , Chi-square , student t , F
$$\begin{array}{l|l|l}
\text{name} & SuppX & \vec{\theta}  \\
& & & \\
\text{Normal} & \mathbb{R} & (\mu ,\sigma)  \\
\text{Gamma } &  [0,\infty) & (k ,\theta)  \\
\text{Beta }&  [0,1) &  \alpha , \beta \\
\text{Chi-square } &  [0,\infty) & k  \\
\text{student t } & \mathbb{R} & \nu  \\
\text{F}  & [0,\infty) & (d_1 , d_2)  \\
\end{array}$$


[古典統計學的目的]
傳統而言我們會先假設一種機率模型,但參數 $\vec{\theta}$ 是未知的,實作來說要找到一個隨機變數$X_n$跟樣本數 $n$ 有關,$X_n$ 通常稱為統計量!!

(1)點估計(Point Estimation) :   收集資料去估計未知 $\vec{\theta}$ !! ,使得 $P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| < \epsilon \})\approx 1 $
(2)假設檢定(Test hypothesis) :  假設 $H_0 : \vec{\theta} = \vec{\theta}_0$ 正確(虛無假設) ,計算離$\theta_0$夠遠$L$的地方
$P(E_n):=P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| > L \})\approx 0 $,如果觀察出$X_n^{-1}(x_n)$ 確實落在 $E_n$ 裡,則 $H_0$ 有信心可以說是錯的(拒絕$H_0$) 。即在$H_0$下,觀察到幾乎不可能的事發生 !!

[多維的例子說明]
Ex:三個連續隨機變數有 $X,Y,Z$ 則我們要計算 $X\leq 1$,$Y\leq 2$,$Z\leq 3$的機率,就要思考一個隨機向量 : $V :  \Omega \longrightarrow  \mathbb{R}^3 $ ,
等價於計算 $ P(\{\omega \in \Omega : X(\omega)\leq 1 , Y(\omega) \leq 2 , Z(\omega) \leq 3 \}) $

[小結]
機率與統計在數學上是比較高深的結構,卻存在於我們日常生活中!!以上給一個隨機變數 $X$ 一個清楚的數學長相 !! 關於獨立性,特徵函數,相關係數,期望值,變異數,甚至多維向量推廣,條件機率的計算等等,日後會再寫一篇!!



[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2017.08



留言

這個網誌中的熱門文章

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定$n$筆實數型訓練資料 (training data) $\{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p}$ , $y^{k} \in \mathbb{R}$ , 我們目標是想要找到一個函數 $f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R}$ 使得  $\forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y$ , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\...

Chain Rule & Identity Function Trick

本文為筆者學習微積分,函數概念與Chain Rule 的時候,遇到的一些概念大坑。本文一一澄清一些個人看法,並分享 Chain Rule 廣義的樣子,以及對於遞迴系統該如何計算...等等看法。 [坑1 : 變數/值符號的認識] 一切從 $y = f(x)$ 開始,我們習慣把 Input 變數用"括號"刮起來,Output y 代表值,f 代表函數。或是可以想成這樣:   $$ x \overset{f}{\longrightarrow} y $$ 這種表示法概念上很嚴謹,但缺點是你必須要用三個符號 $x$,$y$,$f$ 而在微分方程領域出現這種寫法 $y = y(x)$  (把 $f$ 換成 $y$) ,這種寫法就頗簡潔,Chain Rule 通常都是這類表示法。缺點是心裡要能確實明白在哪個場合 $y$ 到底是給定的"值"還是"函數"(註: 通常大多代表函數 $y$,值的話通常會這樣寫 $y(x_{0})$,$y_{0}$) ============================================================== [Bonus] $y=y(x)$這種表示法還有一個好處,如果允許 $f$ 是一對多,那麼 $y(x)$ 就是 $y \text{ is depend on } x$ 的意思,如果你喜歡用集合論來表示可以先定義$f$ 的定義域/對應域 $$ f : X \rightarrow Y$$ 然後 $y(x)$ 可以寫成這樣 $y \in Y_{x}$,其中值域為 $$ f(X):=\bigcup_{x \in X}Y_{x} \subseteq Y$$ ============================================================== [坑2 : Input 的變數到底是哪些] 這邊舉兩個例子提醒: (Ex1) 代換法會重新改變函數的 Input 例如 : $y = f(x) = x+1$ , $ z = g(y) = 2y$  可以代換一下,寫成 $z = g[f(x)] = 2(x+1)$ 如果你用簡記你會發現 $y(x) , z(y) , z(y(x)) \equiv z...

Lattice & Multinomial Theorem

本文介紹格子點(Lattice) 幾何意義與多項式定理(Mutinomial Theorem) 的關係,並可協助我們理解計算一些機率問題。 [符號定義] 非負整數 / 非負實數:  $\mathbb{Z}_{\geq 0} := \{0,1,2,3,4,......\}  \subseteq [0,\infty) =: \mathbb{R}_{\geq 0}$ 離散機率向量:  $$p_{I} := (p_{i})_{i \in I} \text{ s.t } \sum_{i\in I}p_i =1 ,|I|<\infty  $$ 發生事件 $i \in I$ 的累積次數向量: $$ k_{I} := (k_i)_{i \in I} \in \mathbb{Z}^{|I|}_{\geq 0} $$ $\mathbb{Z}^{|I|}_{\geq 0}$ 就是 $|I|$ 維格子點 !! [格子點情境] 出發點定義為 $k^{start}_{I}:= \overbrace{(0,0...,0)}^{|I|}$,今發生一次 $p_{I}$ 分布隨機互斥事件,等價於"點的移動"(state transition),數學定義如下: $$  \text{Event } i  \text{ happens }  \Longleftrightarrow  \overbrace{(\color{red}{k_i},k_{-i})}^{k^{old}_{I}}  \underset{\text{with probability }p_{i}}{\longrightarrow}   \overbrace{(\color{red}{k_i+1},k_{-i})}^{ k^{new}_{I}}    $$ PS1: 其中  $k_{-i} := (k_{i'})_{i' \in I-\{i\}}$ PS2: 不管怎麼走都在第一象限,也就是只能往右,往上,往高.... 當發生 $n$ 次獨立同分布 $p_{I}$ (iid) 的事件後,所有可能點位置在以下的集合上 $$  S_{n}(\col...