Processing math: 0%
跳到主要內容

Random Variables In Inner Product Space


本文介紹"隨機變數"與線性代數"內積空間"的關係 !!
=============================================
在線性代數(Linear Algebra) 裡大家都熟悉向量的內積運算,即給定兩個 |I| 維向量,u_{I}:= (u_i)_{i \in I},\quad v_{I}:= (v_i)_{i\in I}  \in \mathbb{R}^{|I|},註: 編號化 I \equiv \{1,2,3,....|I|\}

可以定義大家熟悉內積的運算 \left< u_{I},v_{I} \right> := \sum_{i\in I} u_i \cdot v_i
簡記為<u,v>,令 w 也為向量,\alpha , \beta  \in \mathbb{R} 為實數
有一些大家熟悉的內積空間性質 (*)  , (註:不討論係數為虛數 \mathbb{C}):
===========================================================
[1] \text{對稱性 }   \left< u,v \right>  =   \left< v,u \right>
[2]\text{左分配律}    \left<u + w  , v \right>  =   \left<u , v \right>  +  \left<w , v \right> 
[3] \text{右分配律}     \left<u   , v+w \right>  =   \left<u , v \right>  +  \left<u , w \right>  
[4] \text{左線性}   \left< \alpha u , v \right>   = \alpha \left<u , v \right>
[5] \text{右線性} \left<u , \beta v \right> = \beta \left< u,v \right>
[6] \text{自己恆正}    \left<u,u\right> \geq 0  (因為平方和 \geq 0 )
===========================================================
額外地,利用 [1] ,[4],[5],可以知道
[7]  \left<\alpha u, \beta v\right> = \alpha \beta \left< u,v \right>
註: [6]  可以跟量測向量的長度 norm 概念結合(Hibert Space)  [8]\quad ||u|| := \sqrt{\left<u,u\right>} \text{ iff }   \left<u,u\right>  := ||u||^2
假設三維空間 (|I|= 3),根據餘弦定理:
我們腦中就有兩向量"夾角"與"投影" 的畫面 !!
\text{夾角 $cos$ 值:  } cos(\theta_{uv}) = \frac{<u,v>}{||u||\cdot ||v||}
\text{投影向量: } proj_{v}(u) := \underbrace{\frac{<u,v>}{<v,v>}}_{\text{投影純量}}u

以上是大家熟知的向量內積 ~~~ ,接下來探討機率論 !!

今考慮離散隨機變數 X,Y 的時候,探討兩者的關係,需先定義 X \equiv (x_{I},p_{I}) , Y\equiv (y_{J},p_{J})  ,以及聯合機率矩陣  p_{I\times J} := [p_{ij}]_{(i,j)\in I\times J}
==========================
其中~~
\underbrace{x_{I} := (x_i)_{i \in I} , y_{J} := (y_j)_{j \in J}}_{\text{值域向量}}
X,Y聯合機率函數(joint pmf) :  p_{ij}:= p(x_i,y_j) = Prob.(X=x_i , Y=y_j)
只看 X 的分布 (marginal):
p_i := p(x_i) = \sum_{j \in J} p_{ij}
只看 Y 的分布(marginal):
p_j := p(y_j) = \sum_{i \in I} p_{ij}
\underbrace{p_{I} := (p_i)_{i \in I} , p_{J} := (p_j)_{j \in J}}_{\text{機率向量}}
機率總和性質:
\sum_{i\in I}p_i = 1  , \sum_{j \in J} p_j = 1
注意: p_i  與 p_j 是不同的
==========================
於是我們可以計算 X,Y的共變異數
抽象概念定義:
  Cov(X,Y) :=  E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y]
詳細計算定義:
Cov(X,Y):=  \left(\sum_{(i,j) \in I\times J} x_i y_j \cdot p_{ij}\right)  -  \left( \sum_{i\in I}x_i \cdot p_i \right) \left(\sum_{j\in J} y_j \cdot p_j \right)  ... (*)

當探討 Cov(X,Y) 性質的時候,有沒有似曾相似的感覺呢??  事實上,你可以把隨機變數 X,Y 看成向量 u,vCov(X,Y) 記做 \left<X,Y\right> ,你會發現 [1],[2],...[7] 都會滿足!! 確實共變異數 Cov 就是內積的概念,雖然不是熟悉的內積,是另一種內積 !!
於是可以利用(*)檢驗,如以下的表格
===========================================================
[1'] \text{對稱性 }   Cov(X,Y)  =  Cov(Y,X) 
[2']\text{左分配律 }    Cov(X + Y,Z)  =   Cov(X , Z)  +  Cov(Y , Z) 
[3'] \text{右分配律 }     Cov(X,Y+Z)  =   Cov(X , Y)  +  Cov(X , Z) 
[4'] \text{左線性 }  Cov(\alpha X,Y)  =   \alpha Cov(X , Y)
[5'] \text{右線性 }Cov(X,\beta Y)  =   \beta Cov(X , Y)
[6'] \text{自己恆正 }    Cov(X,X) \geq 0
[8'] \text{變異數,標準差定義 }  Var(X) := Cov(X,X) , \sigma_{X} := \sqrt{Cov(X,X)}
===========================================================

[Fact 1]   隨機變數的線性組合的變異數 !!
Var(\alpha X+ \beta Y) = \alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)
證明: 可以利用(*),即
\underbrace{Var(\alpha X+ \beta Y) = Cov(\alpha X+ \beta Y, \alpha X+ \beta Y)}_{\text{利用 }[8']}
  \underbrace{ =  Cov(\alpha X+ \beta Y, \alpha X) +   Cov(\alpha X+ \beta Y,   \beta Y)}_{\text{利用 }[3']}
   \underbrace{= Cov(\alpha X, \alpha X) + Cov(\beta Y, \alpha X) + Cov(\alpha X, \beta Y) + Cov(\beta Y, \ \beta Y)}_{\text{利用}[2']}  
   \underbrace{= \alpha Cov(X,X) + \alpha \beta Cov(Y, X) + \alpha \beta Cov(X,Y) + \beta^2 Cov(Y,Y)}_{\text{利用}[4'][5']}
  \underbrace{\alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)}_{\text{利用}[1'][8']} 

[Fact 2] 相關係數(correlation) 就是夾角的概念 !!
   cos(\theta_{XY}) := \frac{\left<X,Y\right>}{||X||||Y||}\equiv \frac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

[Fact 3] X,Y 隨機變數獨立 \Longrightarrow 向量垂直正交
  X \perp Y   \Longleftrightarrow  \bigwedge_{(i,j) \in I \times J}\left(p_{ij} = p_i \cdot p_j\right) \Longrightarrow  Cov(X,Y) = 0  \Longleftrightarrow \theta_{XY} = 90^{\circ}

[推廣至多維]
給定 |T| 維隨機向量 X_{T} = (X_{t})_{t\in T} ,可以構造共變異數矩陣(Covariance Matrix)  \Sigma(X_{T}) := [Cov(X_{t_1},X_{t_2})]_{(t_1,t_2)\in T^2}
則當今天給定一個 m \times |T| 常數矩陣 A ,考慮線性變換:  \underbrace{AX_{T}}_{\text{matrix-vector multiplication}}
則  \Sigma(AX_{T}) = A \Sigma(X_{T}) A^{transpose} =    \text{ $m \times  m$ matrix }
類似這種性質都可以使用[1'] \sim [8'] 展開,輕鬆推導驗證 !!


註: 學術上大多會把共變異數矩陣 \Sigma(\text{隨機向量}) 寫成 Cov(\text{隨機向量}),但因為容易跟 Cov(純量,純量) 混淆,故筆者不建議這種表示 !!

[延伸閱讀]
這連結有比較詳細的介紹 !!
Covariance and Dot Product
http://people.sju.edu/~pklingsb/dot.cov.pdf

[小結]
所以我們可以把"隨機變數"成功的與"內積計算"的性質給結合,在熟悉的空間算數學,具有幾何意義,這也是線性代數為何要研究抽象空間的動機 !!

[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2018.06

留言

這個網誌中的熱門文章

Nash Equilibrium & Best Responce Function (BRF) In Continuous Strategies

經濟學重要的賽局理論( Game Theory )領域,用數學描述人與人之間的理性互動,最重要的就是尋找奈許均衡( Nash equilibrium ), 本篇介紹其數學規劃與非線性方程組!!  假設有 p 名玩家(player i),i=1,2,3,4,5,....p , 正在玩一場遊戲(Game)~~,完全不合作,各自獨立作決策 每個人有決策向量 x_i \in \Omega_i \subseteq R^{n_i} (有n_i個決策變數)  定義長向量: \underbrace{x =  (x_1,x_2,x_3,....x_p)}_{\# \text{ of } \sum^{p}_{i=1}n_i \text{ variables }} \in  \prod^{p}_{i=1} \Omega_i = \Omega 對於每個 player i ,長向量可以寫成 x = (x_i , x_{-i})x_{-i} 代表其他人(不是 player i) 能做的決策向量。 所有人各自作決策後,每個人都會個自的存在報酬效用函數 f_i (x)  \in \mathbb{R}  (報酬函數皆為公開已知資訊) 假設每位玩家是理性人(會極大化自己效用) 即 \forall i = 1,2,3,4....p \qquad  \underset{x_i \in \Omega_i}{\text{max }}f_i(x)   [註: 如果為合作可視為多目標規劃問題( multiobjective ),即 x_1,x_2,...x_p 可以由領導人一起決定] [註: 如果為合作而且把效用加總,即目標式變成 \sum_{i=1}^{p} f_i(x) ,可能對集體效益有更大的幫助,但是如何分配效益給 ( player i )會是個議題,可以查關鍵字 fair optimization ] 我們可以定義每個 player i 的 Best Response Function (BRF) or Best Reponce Set S_i(x_{-i}) \subset \Omega_i $$  S_i(x...

Lattice & Multinomial Theorem

本文介紹格子點(Lattice) 幾何意義與多項式定理(Mutinomial Theorem) 的關係,並可協助我們理解計算一些機率問題。 [符號定義] 非負整數 / 非負實數:  \mathbb{Z}_{\geq 0} := \{0,1,2,3,4,......\}  \subseteq [0,\infty) =: \mathbb{R}_{\geq 0} 離散機率向量:  p_{I} := (p_{i})_{i \in I} \text{ s.t } \sum_{i\in I}p_i =1 ,|I|<\infty  發生事件 i \in I 的累積次數向量: k_{I} := (k_i)_{i \in I} \in \mathbb{Z}^{|I|}_{\geq 0} \mathbb{Z}^{|I|}_{\geq 0} 就是 |I| 維格子點 !! [格子點情境] 出發點定義為 k^{start}_{I}:= \overbrace{(0,0...,0)}^{|I|},今發生一次 p_{I} 分布隨機互斥事件,等價於"點的移動"(state transition),數學定義如下:   \text{Event } i  \text{ happens }  \Longleftrightarrow  \overbrace{(\color{red}{k_i},k_{-i})}^{k^{old}_{I}}  \underset{\text{with probability }p_{i}}{\longrightarrow}   \overbrace{(\color{red}{k_i+1},k_{-i})}^{ k^{new}_{I}}    PS1: 其中  k_{-i} := (k_{i'})_{i' \in I-\{i\}} PS2: 不管怎麼走都在第一象限,也就是只能往右,往上,往高.... 當發生 n 次獨立同分布 p_{I} (iid) 的事件後,所有可能點位置在以下的集合上 $$  S_{n}(\col...

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定n筆實數型訓練資料 (training data) \{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p} , y^{k} \in \mathbb{R} , 我們目標是想要找到一個函數 f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R} 使得  \forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\...