跳到主要內容

Random Variables In Inner Product Space


本文介紹"隨機變數"與線性代數"內積空間"的關係 !!
=============================================
在線性代數(Linear Algebra) 裡大家都熟悉向量的內積運算,即給定兩個 $|I|$ 維向量,$u_{I}:= (u_i)_{i \in I},\quad v_{I}:= (v_i)_{i\in I}  \in \mathbb{R}^{|I|}$,註: 編號化 $I \equiv \{1,2,3,....|I|\}$

可以定義大家熟悉內積的運算 $$\left< u_{I},v_{I} \right> := \sum_{i\in I} u_i \cdot v_i$$
簡記為$<u,v>$,令 $w$ 也為向量,$\alpha , \beta  \in \mathbb{R}$ 為實數
有一些大家熟悉的內積空間性質 (*)  , (註:不討論係數為虛數 $\mathbb{C}$):
===========================================================
$ [1] \text{對稱性 }   \left< u,v \right>  =   \left< v,u \right> $
$ [2]\text{左分配律}    \left<u + w  , v \right>  =   \left<u , v \right>  +  \left<w , v \right>  $
$ [3] \text{右分配律}     \left<u   , v+w \right>  =   \left<u , v \right>  +  \left<u , w \right>  $
$ [4] \text{左線性}   \left< \alpha u , v \right>   = \alpha \left<u , v \right>$
$ [5] \text{右線性} \left<u , \beta v \right> = \beta \left< u,v \right> $
$ [6] \text{自己恆正}    \left<u,u\right> \geq 0$  (因為平方和 $\geq 0$ )
===========================================================
額外地,利用 $[1] ,[4],[5]$,可以知道
$[7]  \left<\alpha u, \beta v\right> = \alpha \beta \left< u,v \right>$
註: $[6]$  可以跟量測向量的長度 norm 概念結合(Hibert Space)  $$ [8]\quad ||u|| := \sqrt{\left<u,u\right>} \text{ iff }   \left<u,u\right>  := ||u||^2 $$
假設三維空間 $(|I|= 3)$,根據餘弦定理:
我們腦中就有兩向量"夾角"與"投影" 的畫面 !!
$$ \text{夾角 $cos$ 值:  } cos(\theta_{uv}) = \frac{<u,v>}{||u||\cdot ||v||} $$
$$ \text{投影向量: } proj_{v}(u) := \underbrace{\frac{<u,v>}{<v,v>}}_{\text{投影純量}}u $$

以上是大家熟知的向量內積 ~~~ ,接下來探討機率論 !!

今考慮離散隨機變數 $X,Y$ 的時候,探討兩者的關係,需先定義 $X \equiv (x_{I},p_{I}) , Y\equiv (y_{J},p_{J})  $,以及聯合機率矩陣$$  p_{I\times J} := [p_{ij}]_{(i,j)\in I\times J}$$
==========================
其中~~
$$\underbrace{x_{I} := (x_i)_{i \in I} , y_{J} := (y_j)_{j \in J}}_{\text{值域向量}}$$
$X,Y$聯合機率函數(joint pmf) :  $$p_{ij}:= p(x_i,y_j) = Prob.(X=x_i , Y=y_j)$$
只看 $X$ 的分布 (marginal):
$$p_i := p(x_i) = \sum_{j \in J} p_{ij}$$
只看 $Y$ 的分布(marginal):
$$p_j := p(y_j) = \sum_{i \in I} p_{ij}$$
$$\underbrace{p_{I} := (p_i)_{i \in I} , p_{J} := (p_j)_{j \in J}}_{\text{機率向量}}$$
機率總和性質:
$$ \sum_{i\in I}p_i = 1  , \sum_{j \in J} p_j = 1$$
注意: $p_i$  與 $p_j$ 是不同的
==========================
於是我們可以計算 $X,Y$的共變異數
抽象概念定義:
$$  Cov(X,Y) :=  E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y] $$
詳細計算定義:
$$ Cov(X,Y):=  \left(\sum_{(i,j) \in I\times J} x_i y_j \cdot p_{ij}\right)  -  \left( \sum_{i\in I}x_i \cdot p_i \right) \left(\sum_{j\in J} y_j \cdot p_j \right)  ... (*)$$

當探討 $Cov(X,Y)$ 性質的時候,有沒有似曾相似的感覺呢??  事實上,你可以把隨機變數 $X,Y$ 看成向量 $u,v$,$Cov(X,Y)$ 記做 $\left<X,Y\right>$ ,你會發現 $[1],[2],...[7]$ 都會滿足!! 確實共變異數 $Cov$ 就是內積的概念,雖然不是熟悉的內積,是另一種內積 !!
於是可以利用$(*)$檢驗,如以下的表格
===========================================================
$ [1'] \text{對稱性 }   Cov(X,Y)  =  Cov(Y,X)  $
$ [2']\text{左分配律 }    Cov(X + Y,Z)  =   Cov(X , Z)  +  Cov(Y , Z)  $
$ [3'] \text{右分配律 }     Cov(X,Y+Z)  =   Cov(X , Y)  +  Cov(X , Z)  $
$ [4'] \text{左線性 }  Cov(\alpha X,Y)  =   \alpha Cov(X , Y) $
$ [5'] \text{右線性 }Cov(X,\beta Y)  =   \beta Cov(X , Y) $
$ [6'] \text{自己恆正 }    Cov(X,X) \geq 0 $
$ [8'] \text{變異數,標準差定義 }  Var(X) := Cov(X,X) , \sigma_{X} := \sqrt{Cov(X,X)}$
===========================================================

[Fact 1]   隨機變數的線性組合的變異數 !!
$Var(\alpha X+ \beta Y) = \alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y) $
證明: 可以利用$(*)$,即
$$\underbrace{Var(\alpha X+ \beta Y) = Cov(\alpha X+ \beta Y, \alpha X+ \beta Y)}_{\text{利用 }[8']} $$
$$  \underbrace{ =  Cov(\alpha X+ \beta Y, \alpha X) +   Cov(\alpha X+ \beta Y,   \beta Y)}_{\text{利用 }[3']}$$
$$   \underbrace{= Cov(\alpha X, \alpha X) + Cov(\beta Y, \alpha X) + Cov(\alpha X, \beta Y) + Cov(\beta Y, \ \beta Y)}_{\text{利用}[2']}   $$
$$   \underbrace{= \alpha Cov(X,X) + \alpha \beta Cov(Y, X) + \alpha \beta Cov(X,Y) + \beta^2 Cov(Y,Y)}_{\text{利用}[4'][5']} $$
$$  \underbrace{\alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)}_{\text{利用}[1'][8']}  $$

[Fact 2] 相關係數(correlation) 就是夾角的概念 !!
$$   cos(\theta_{XY}) := \frac{\left<X,Y\right>}{||X||||Y||}\equiv \frac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}} $$

[Fact 3] $X,Y$ 隨機變數獨立 $\Longrightarrow$ 向量垂直正交
$$  X \perp Y   \Longleftrightarrow  \bigwedge_{(i,j) \in I \times J}\left(p_{ij} = p_i \cdot p_j\right) \Longrightarrow  Cov(X,Y) = 0  \Longleftrightarrow \theta_{XY} = 90^{\circ} $$

[推廣至多維]
給定 $|T|$ 維隨機向量 $X_{T} = (X_{t})_{t\in T} $ ,可以構造共變異數矩陣(Covariance Matrix)  $$\Sigma(X_{T}) := [Cov(X_{t_1},X_{t_2})]_{(t_1,t_2)\in T^2}$$
則當今天給定一個 $m \times |T|$ 常數矩陣 $A$ ,考慮線性變換:  $\underbrace{AX_{T}}_{\text{matrix-vector multiplication}}$
則  $\Sigma(AX_{T}) = A \Sigma(X_{T}) A^{transpose} =    \text{ $m \times  m$ matrix }$
類似這種性質都可以使用$[1'] \sim [8']$ 展開,輕鬆推導驗證 !!


註: 學術上大多會把共變異數矩陣 $\Sigma(\text{隨機向量})$ 寫成 $Cov(\text{隨機向量})$,但因為容易跟 $Cov(純量,純量)$ 混淆,故筆者不建議這種表示 !!

[延伸閱讀]
這連結有比較詳細的介紹 !!
Covariance and Dot Product
http://people.sju.edu/~pklingsb/dot.cov.pdf

[小結]
所以我們可以把"隨機變數"成功的與"內積計算"的性質給結合,在熟悉的空間算數學,具有幾何意義,這也是線性代數為何要研究抽象空間的動機 !!

[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2018.06

留言

這個網誌中的熱門文章

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定$n$筆實數型訓練資料 (training data) $\{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p}$ , $y^{k} \in \mathbb{R}$ , 我們目標是想要找到一個函數 $f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R}$ 使得  $\forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y$ , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\approx \left\{

Chain Rule & Identity Function Trick

本文為筆者學習微積分,函數概念與Chain Rule 的時候,遇到的一些概念大坑。本文一一澄清一些個人看法,並分享 Chain Rule 廣義的樣子,以及對於遞迴系統該如何計算...等等看法。 [坑1 : 變數/值符號的認識] 一切從 $y = f(x)$ 開始,我們習慣把 Input 變數用"括號"刮起來,Output y 代表值,f 代表函數。或是可以想成這樣:   $$ x \overset{f}{\longrightarrow} y $$ 這種表示法概念上很嚴謹,但缺點是你必須要用三個符號 $x$,$y$,$f$ 而在微分方程領域出現這種寫法 $y = y(x)$  (把 $f$ 換成 $y$) ,這種寫法就頗簡潔,Chain Rule 通常都是這類表示法。缺點是心裡要能確實明白在哪個場合 $y$ 到底是給定的"值"還是"函數"(註: 通常大多代表函數 $y$,值的話通常會這樣寫 $y(x_{0})$,$y_{0}$) ============================================================== [Bonus] $y=y(x)$這種表示法還有一個好處,如果允許 $f$ 是一對多,那麼 $y(x)$ 就是 $y \text{ is depend on } x$ 的意思,如果你喜歡用集合論來表示可以先定義$f$ 的定義域/對應域 $$ f : X \rightarrow Y$$ 然後 $y(x)$ 可以寫成這樣 $y \in Y_{x}$,其中值域為 $$ f(X):=\bigcup_{x \in X}Y_{x} \subseteq Y$$ ============================================================== [坑2 : Input 的變數到底是哪些] 這邊舉兩個例子提醒: (Ex1) 代換法會重新改變函數的 Input 例如 : $y = f(x) = x+1$ , $ z = g(y) = 2y$  可以代換一下,寫成 $z = g[f(x)] = 2(x+1)$ 如果你用簡記你會發現 $y(x) , z(y) , z(y(x)) \equiv z

Probability Model Of Bingo Game

本文介紹經典的"賓果 Bingo" 遊戲,機率與期望值的解析計算公式的計算概念,相關的數學建模....等等 [遊戲情境] 總共有 $n$ 個相異的號碼彩球,號碼集為 $S:=\{1,2,3,....n\}$,今玩家可以花$1$元,買$1$張賓果卡 ($5 \times 5$) 位置座標集 $Z$, $|Z|=25$,然後從$S$ 隨機均勻選擇 $25$個相異的號碼並排列到一個佇列(queue),而開球只會開前 $m$ 顆球,$25 \leq m\leq n$,而給定獎項圖形集 $\color{red}{p \in P := \{Bingo,王,十,一_1,一_2,...,一_5  \}}$ (可自行設計) ,以及已知賠率表向量 $odds_{P}$。開完球後,把Bingo 卡上的中獎的號碼圈起來形成"中獎圖形" ===================================================== 其中獎項圖形 : "$Bingo$" 代表$25$個號碼全中 "十"代表第 $3$ 列(row)  第 $3$ 行 (column) 有中 (共$9$個號碼) "王"代表第 $1$ , $3$ , $5$ 列(row)  第 $3$ 行 (column) 有中 (共$17$個號碼) "$一_k$" 代表第 $k$ 列有中 (共$5$個號碼) ===================================================== 若中獎圖形有涵蓋獎項圖形大致會獲得,賠率 $odds_{p} \times 1 $ 元,但有些合理規則: ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ $[ 規則 1 ]$ 若獎項圖形 $p_1,p_2$ 有完全重疊$(p_1 \subseteq p_2)$,則以大圖形 $odds_{p_2}$ 賠率算 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ $$\color{green}{ 重要假設: 合理的