本文介紹"隨機變數"與線性代數"內積空間"的關係 !!
=============================================
在線性代數(Linear Algebra) 裡大家都熟悉向量的內積運算,即給定兩個 |I| 維向量,u_{I}:= (u_i)_{i \in I},\quad v_{I}:= (v_i)_{i\in I} \in \mathbb{R}^{|I|},註: 編號化 I \equiv \{1,2,3,....|I|\}
可以定義大家熟悉內積的運算 \left< u_{I},v_{I} \right> := \sum_{i\in I} u_i \cdot v_i
簡記為<u,v>,令 w 也為向量,\alpha , \beta \in \mathbb{R} 為實數
有一些大家熟悉的內積空間性質 (*) , (註:不討論係數為虛數 \mathbb{C}):
===========================================================
[1] \text{對稱性 } \left< u,v \right> = \left< v,u \right>
[2]\text{左分配律} \left<u + w , v \right> = \left<u , v \right> + \left<w , v \right>
[3] \text{右分配律} \left<u , v+w \right> = \left<u , v \right> + \left<u , w \right>
[4] \text{左線性} \left< \alpha u , v \right> = \alpha \left<u , v \right>
[5] \text{右線性} \left<u , \beta v \right> = \beta \left< u,v \right>
[6] \text{自己恆正} \left<u,u\right> \geq 0 (因為平方和 \geq 0 )
===========================================================
額外地,利用 [1] ,[4],[5],可以知道
[7] \left<\alpha u, \beta v\right> = \alpha \beta \left< u,v \right>
註: [6] 可以跟量測向量的長度 norm 概念結合(Hibert Space) [8]\quad ||u|| := \sqrt{\left<u,u\right>} \text{ iff } \left<u,u\right> := ||u||^2
假設三維空間 (|I|= 3),根據餘弦定理:
我們腦中就有兩向量"夾角"與"投影" 的畫面 !!
\text{夾角 $cos$ 值: } cos(\theta_{uv}) = \frac{<u,v>}{||u||\cdot ||v||}
\text{投影向量: } proj_{v}(u) := \underbrace{\frac{<u,v>}{<v,v>}}_{\text{投影純量}}u
以上是大家熟知的向量內積 ~~~ ,接下來探討機率論 !!
今考慮離散隨機變數 X,Y 的時候,探討兩者的關係,需先定義 X \equiv (x_{I},p_{I}) , Y\equiv (y_{J},p_{J}) ,以及聯合機率矩陣 p_{I\times J} := [p_{ij}]_{(i,j)\in I\times J}
==========================
其中~~
\underbrace{x_{I} := (x_i)_{i \in I} , y_{J} := (y_j)_{j \in J}}_{\text{值域向量}}
X,Y聯合機率函數(joint pmf) : p_{ij}:= p(x_i,y_j) = Prob.(X=x_i , Y=y_j)
只看 X 的分布 (marginal):
p_i := p(x_i) = \sum_{j \in J} p_{ij}
只看 Y 的分布(marginal):
p_j := p(y_j) = \sum_{i \in I} p_{ij}
\underbrace{p_{I} := (p_i)_{i \in I} , p_{J} := (p_j)_{j \in J}}_{\text{機率向量}}
機率總和性質:
\sum_{i\in I}p_i = 1 , \sum_{j \in J} p_j = 1
注意: p_i 與 p_j 是不同的
==========================
於是我們可以計算 X,Y的共變異數
抽象概念定義:
Cov(X,Y) := E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y]
詳細計算定義:
Cov(X,Y):= \left(\sum_{(i,j) \in I\times J} x_i y_j \cdot p_{ij}\right) - \left( \sum_{i\in I}x_i \cdot p_i \right) \left(\sum_{j\in J} y_j \cdot p_j \right) ... (*)
當探討 Cov(X,Y) 性質的時候,有沒有似曾相似的感覺呢?? 事實上,你可以把隨機變數 X,Y 看成向量 u,v,Cov(X,Y) 記做 \left<X,Y\right> ,你會發現 [1],[2],...[7] 都會滿足!! 確實共變異數 Cov 就是內積的概念,雖然不是熟悉的內積,是另一種內積 !!
於是可以利用(*)檢驗,如以下的表格
===========================================================
[1'] \text{對稱性 } Cov(X,Y) = Cov(Y,X)
[2']\text{左分配律 } Cov(X + Y,Z) = Cov(X , Z) + Cov(Y , Z)
[3'] \text{右分配律 } Cov(X,Y+Z) = Cov(X , Y) + Cov(X , Z)
[4'] \text{左線性 } Cov(\alpha X,Y) = \alpha Cov(X , Y)
[5'] \text{右線性 }Cov(X,\beta Y) = \beta Cov(X , Y)
[6'] \text{自己恆正 } Cov(X,X) \geq 0
[8'] \text{變異數,標準差定義 } Var(X) := Cov(X,X) , \sigma_{X} := \sqrt{Cov(X,X)}
===========================================================
[Fact 1] 隨機變數的線性組合的變異數 !!
Var(\alpha X+ \beta Y) = \alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)
證明: 可以利用(*),即
\underbrace{Var(\alpha X+ \beta Y) = Cov(\alpha X+ \beta Y, \alpha X+ \beta Y)}_{\text{利用 }[8']}
\underbrace{ = Cov(\alpha X+ \beta Y, \alpha X) + Cov(\alpha X+ \beta Y, \beta Y)}_{\text{利用 }[3']}
\underbrace{= Cov(\alpha X, \alpha X) + Cov(\beta Y, \alpha X) + Cov(\alpha X, \beta Y) + Cov(\beta Y, \ \beta Y)}_{\text{利用}[2']}
\underbrace{= \alpha Cov(X,X) + \alpha \beta Cov(Y, X) + \alpha \beta Cov(X,Y) + \beta^2 Cov(Y,Y)}_{\text{利用}[4'][5']}
\underbrace{\alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)}_{\text{利用}[1'][8']}
[Fact 2] 相關係數(correlation) 就是夾角的概念 !!
cos(\theta_{XY}) := \frac{\left<X,Y\right>}{||X||||Y||}\equiv \frac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}
[Fact 3] X,Y 隨機變數獨立 \Longrightarrow 向量垂直正交
X \perp Y \Longleftrightarrow \bigwedge_{(i,j) \in I \times J}\left(p_{ij} = p_i \cdot p_j\right) \Longrightarrow Cov(X,Y) = 0 \Longleftrightarrow \theta_{XY} = 90^{\circ}
[推廣至多維]
給定 |T| 維隨機向量 X_{T} = (X_{t})_{t\in T} ,可以構造共變異數矩陣(Covariance Matrix) \Sigma(X_{T}) := [Cov(X_{t_1},X_{t_2})]_{(t_1,t_2)\in T^2}
則當今天給定一個 m \times |T| 常數矩陣 A ,考慮線性變換: \underbrace{AX_{T}}_{\text{matrix-vector multiplication}}
則 \Sigma(AX_{T}) = A \Sigma(X_{T}) A^{transpose} = \text{ $m \times m$ matrix }
類似這種性質都可以使用[1'] \sim [8'] 展開,輕鬆推導驗證 !!
註: 學術上大多會把共變異數矩陣 \Sigma(\text{隨機向量}) 寫成 Cov(\text{隨機向量}),但因為容易跟 Cov(純量,純量) 混淆,故筆者不建議這種表示 !!
[延伸閱讀]
這連結有比較詳細的介紹 !!
Covariance and Dot Product
http://people.sju.edu/~pklingsb/dot.cov.pdf
[小結]
所以我們可以把"隨機變數"成功的與"內積計算"的性質給結合,在熟悉的空間算數學,具有幾何意義,這也是線性代數為何要研究抽象空間的動機 !!
[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~]
by Plus & Minus 2018.06
留言
張貼留言