Probability In Mathematician's Brain

日常生活中充滿著不確定性(Uncertainty)，隨機性(Randomness)。我們能輕易理解公平骰子每一面出現的機率值為

$\frac{1}{6}$ ，而且可以利用排列組合(Combinatorics)的比例去計算複雜的狀況的機率值。但對於更複雜的隨機性(如隨著時間，空間連續變化的隨機性，大量的試驗，該如何計算，如何刻劃，我們就必須要學習 20世紀數學家發展嚴謹的測度論(Measure Theory)與機率論(Probability Theory)，Andrey Komogorov 機率公設模型後，才算是更清楚掌握瞭解機率的真正概念與正確使用數學描述不確定性!! 而其中核心概念是隨機變數(Random Variable)的引入，但因初學者往往會對隨機變數有種似懂非懂甚至誤解，所以本篇算是對於"隨機變數"的概念做澄清。

[預備知識] 需要理解集合(Set)，函數(Function)，微積分(Calculus)符號
[註] 關於函數的介紹，也可以看這篇的前半部有詳細的回顧 !!

首先我們會定義一個抽象的集合

$\Omega$ ，稱之為樣本空間(sample space)，其元素

$\omega \in \Omega$ ，代表可能的情境(possible scenario)或是稱為基本事件(simple event)。當事情發生後，相當於從

$\Omega$ 選取一個

$\omega$ !!
[Example] 丟一個骰子，可能會出現的結果

$\Omega = \{1,2,3,4,5,6\}$ ，則丟完以後只會出現其中一種

$\omega = 1 \text{ or }2\text{ or }3\text{ or }4\text{ or }5\text{ or }6$ ，而機率值假設分別為

$\frac{1}{6}$ 。但實際上我們可能感興趣更大的集合，例如: 出現偶數點的機率。回憶起你如何計算它，你必須先收集出

$E :=\{2,4,6\} \subset \Omega$ ，然後再分別計算基本事件的機率

$\frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2} \quad (*)$
[可以做的事]
把基本事件寫成"單點"的集合

$A = \{2\}$ ,

$B = \{4\}$ ,

$C = \{6\}$ ，

$(*)$ 相當於計算

$P(E) = P(A\cup B \cup C)= P(A)+P(B)+P(C)$ ，其中

$P$ 可以把像

$A,B,C,E$ 集合分別對應到一個機率值

$\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{1}{2}$ 。這些集合叫做"事件"(Event)，在數學上稱為可測集(measurable set)，基本事件也是事件的一種。於是我們創造所有事件的集合 :

$\mathcal{M}=\{E:E \subseteq \Omega\}$ ，並定義

$P : \mathcal{M} \longrightarrow [0,1]$ ，

$P$ 滿足機率公設(probability axioms)，例如:

$P(\Omega) = 1$ 。再來我們就可以定義隨機變數(random variable)，是一個函數

$X: \Omega \longrightarrow \mathbb{R}$ 而根據函數定義，樣本空間等於互斥的Preimage 的聯集，即

$\Omega = \bigcup^{\text{disjoint}}_{x\in X(\Omega)} X^{-1}(x) \qquad X^{-1}(x):=\{\omega \in \Omega : X(\omega) = x\}$
其中

$X(\Omega) = \{x \in \mathbb{R} : \exists \omega \text{ s.t } X(\omega) = x \}$ 為 Image

隨機變數大致上分三種 :

$\qquad$ 1.

$X$ 為離散隨機變數，記為 case

$(D)$ 則

$|X(\mathbb{\Omega}) |< \infty$

$\qquad$ 2.

$X$ 為連續隨機變數，記為 case

$(C)$ 則

$X(\mathbb{\Omega}) = \mathbb{R}$

$\qquad$ 3.

$X$ 為混合隨機變數，記為 case

$(M)$ 是

$(D+C)$ 混合例子
而它們都有機率函數或是機率質量，代表機率的大小 :

$P : \mathcal{M} \longrightarrow \mathbb{[0,1]}$
註:可以想成

$P$ 在測量集合/事件

$S \in \mathcal{M}$ 的大小，而賦予一個 0~1 的值，跟量面積感覺一樣，所以才會說機率是一種測度(measure)

在

$(D)$ 的例子，可以"直接"定義機率質量函數(probability mass function pmf)

$P$
接下來最重要的簡寫(但這簡寫誤導了初學者!!)

$p(x) := P(X = x) = P(\{\omega \in \Omega : X(\omega) = x \}) = P(X^{-1}(x))$

注意: 需要能區分大

$X \in \mathbb{R}^{\Omega}$ 函數，小

$x \in \mathbb{R}$ 的意義差別
注意: 需要能區分大

$P \in [0,1]^{\mathcal{M}}$ 跟小

$p \in [0,1]^{X(\mathbb{\Omega})}$ 的差別

$\displaystyle{ p = P \circ X^{-1}}$

在

$(C)(M)$ 的例子，可以定義一個非遞減(non-decreasing )累積密度函數(cumulative distribution function cdf)

$F : \mathbb{R} \rightarrow \mathbb{R}$

$F(x) :=P(X\leq x) := P(\{\omega \in \Omega : X(\omega) \leq x \}) = P(X^{-1}\left( (\infty , x] )\right)$
在

$(C)$ 的例子，單點的機率為

$0$ 即

$\lim_{h \rightarrow 0}F(x+h) - F(x) = \lim_{h \rightarrow 0} P(X \in [x,x+h])= P(X=x) = 0$
而你會發現這剛好是

$F$ 連續的定義，所以

$(C)$ 才叫做"連續"隨機變數

在

$(M)$ 的例子比較複雜，我們把離散的點

$x$ 也畫在實數線上，

$F$ 是一個不連續函數，(不連續點的地方假設為

$x = x_0$ ，連續點的地方假設為

$x = x_1$ ) 則那一點有機率質量

$\displaystyle{P(X=x_0) = \lim_{h\rightarrow 0}F(x_0 + h) - F(x_0)} > 0$ ，通俗來說叫做在

$x_0$ 有 " jump "，而

$P(X=x_1) = 0$

而在

$(C)$ 的例子，連續點的地方雖然機率質量為

$0$ ，但是有機率密度函數(probability density function)

$f : \mathbb{R} \longrightarrow \mathbb{R}$ (註: 密度的值

$\geq 0$ 可以

$> 1$ )

$f(x) := \frac{d}{dx} F(x) = \frac{d}{dx} P(X\leq x) = \frac{d}{dx} P(\{\omega \in \Omega : X(\omega) \leq x \})$
注意 : 是對

$x$ 微分，而不是

$X$ !!

注意: 在實際定義隨機變數

$X$ 的時候，會直接定義

$X(\Omega)$ ，而不關心

$\Omega$ 的長相，也就是

$\Omega$ 只是個抽象的集合。但在 (C) 的

$X(\Omega) = \mathbb{R}$ ，會另外定義 Support

$SuppX := \{ x \in \mathbb{R} : f(x)> 0 \} \Longrightarrow f(x) \left\{\begin{array}{cc} >0 & x \in SuppX\\ 0 & x \in \mathbb{R}\setminus SuppX \\ \end{array}\right.$

[額外補充]
如果是

$(M)$ ，則機率密度函數(pdf)比較複雜，可參考 dirac delta 相關概念
或是利用累積密度函數(cdf)的再不連續點作 smooth approximation 近似來微分!!

而常見的機率模型如下表，注意機率模型通常會有額外參數

$\vec{\theta} = (\theta_1,.....\theta_m)$ ，術語上我們稱作 parametric family !!
case (D) Bernoulli , Binomial , Geometric , Hypergeometric , Poisson

$\begin{array}{l|l|l} \text{name}& \vec{\theta} & X(\mathbb{\Omega}) \\ & & & \\ \text{Bernoulli}& p & \{0,1\} \\ \text{Binomial}& (n,p) & \{0,1,2,3,...n\} \\ \text{Geometric}& p & \mathbb{N}\cup \{0\} \\ \text{Hypergeometric} & (N,K,n) & [\text{max }(n+K-N),\text{min }(n,K)]_\mathbb{N} \\ \text{Poisson} & \lambda & \mathbb{N}\cup \{0\} \\ \end{array}$

case (C) Normal , Gamma , Beta , Chi-square , student t , F

$\begin{array}{l|l|l} \text{name} & SuppX & \vec{\theta} \\ & & & \\ \text{Normal} & \mathbb{R} & (\mu ,\sigma) \\ \text{Gamma } & [0,\infty) & (k ,\theta) \\ \text{Beta }& [0,1) & \alpha , \beta \\ \text{Chi-square } & [0,\infty) & k \\ \text{student t } & \mathbb{R} & \nu \\ \text{F} & [0,\infty) & (d_1 , d_2) \\ \end{array}$

[古典統計學的目的]
傳統而言我們會先假設一種機率模型，但參數

$\vec{\theta}$ 是未知的，實作來說要找到一個隨機變數

$X_n$ 跟樣本數

$n$ 有關，

$X_n$ 通常稱為統計量!!

(1)點估計(Point Estimation) : 收集資料去估計未知

$\vec{\theta}$ !! ，使得

$P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| < \epsilon \})\approx 1$
(2)假設檢定(Test hypothesis) : 假設

$H_0 : \vec{\theta} = \vec{\theta}_0$ 正確(虛無假設) ，計算離

$\theta_0$ 夠遠

$L$ 的地方

$P(E_n):=P(\{\omega \in \Omega : ||X_n(\omega) - \vec{\theta}|| > L \})\approx 0$ ，如果觀察出

$X_n^{-1}(x_n)$ 確實落在

$E_n$ 裡，則

$H_0$ 有信心可以說是錯的(拒絕

$H_0$ ) 。即在

$H_0$ 下，觀察到幾乎不可能的事發生 !!

[多維的例子說明]
Ex:三個連續隨機變數有

$X,Y,Z$ 則我們要計算

$X\leq 1$ ，

$Y\leq 2$ ，

$Z\leq 3$ 的機率，就要思考一個隨機向量 :

$V : \Omega \longrightarrow \mathbb{R}^3$ ，
等價於計算

$P(\{\omega \in \Omega : X(\omega)\leq 1 , Y(\omega) \leq 2 , Z(\omega) \leq 3 \})$

[小結]
機率與統計在數學上是比較高深的結構，卻存在於我們日常生活中!!以上給一個隨機變數

$X$ 一個清楚的數學長相 !! 關於獨立性，特徵函數，相關係數，期望值，變異數，甚至多維向量推廣，條件機率的計算等等，日後會再寫一篇!!

[以上純為學術經驗交流知識分享，如有錯誤或建議可留言~~]

by Plus & Minus 2017.08

搜尋此網誌

Probability In Mathematician's Brain

留言

張貼留言

這個網誌中的熱門文章

Nash Equilibrium & Best Responce Function (BRF) In Continuous Strategies

Linear Regression By Using Linear Programming

Lattice & Multinomial Theorem