本文介紹"隨機變數"與線性代數"內積空間"的關係 !!
=============================================
在線性代數(Linear Algebra) 裡大家都熟悉向量的內積運算,即給定兩個 $|I|$ 維向量,$u_{I}:= (u_i)_{i \in I},\quad v_{I}:= (v_i)_{i\in I} \in \mathbb{R}^{|I|}$,註: 編號化 $I \equiv \{1,2,3,....|I|\}$
可以定義大家熟悉內積的運算 $$\left< u_{I},v_{I} \right> := \sum_{i\in I} u_i \cdot v_i$$
簡記為$<u,v>$,令 $w$ 也為向量,$\alpha , \beta \in \mathbb{R}$ 為實數
有一些大家熟悉的內積空間性質 (*) , (註:不討論係數為虛數 $\mathbb{C}$):
===========================================================
$ [1] \text{對稱性 } \left< u,v \right> = \left< v,u \right> $
$ [2]\text{左分配律} \left<u + w , v \right> = \left<u , v \right> + \left<w , v \right> $
$ [3] \text{右分配律} \left<u , v+w \right> = \left<u , v \right> + \left<u , w \right> $
$ [4] \text{左線性} \left< \alpha u , v \right> = \alpha \left<u , v \right>$
$ [5] \text{右線性} \left<u , \beta v \right> = \beta \left< u,v \right> $
$ [6] \text{自己恆正} \left<u,u\right> \geq 0$ (因為平方和 $\geq 0$ )
===========================================================
額外地,利用 $[1] ,[4],[5]$,可以知道
$[7] \left<\alpha u, \beta v\right> = \alpha \beta \left< u,v \right>$
註: $[6]$ 可以跟量測向量的長度 norm 概念結合(Hibert Space) $$ [8]\quad ||u|| := \sqrt{\left<u,u\right>} \text{ iff } \left<u,u\right> := ||u||^2 $$
假設三維空間 $(|I|= 3)$,根據餘弦定理:
我們腦中就有兩向量"夾角"與"投影" 的畫面 !!
$$ \text{夾角 $cos$ 值: } cos(\theta_{uv}) = \frac{<u,v>}{||u||\cdot ||v||} $$
$$ \text{投影向量: } proj_{v}(u) := \underbrace{\frac{<u,v>}{<v,v>}}_{\text{投影純量}}u $$
以上是大家熟知的向量內積 ~~~ ,接下來探討機率論 !!
今考慮離散隨機變數 $X,Y$ 的時候,探討兩者的關係,需先定義 $X \equiv (x_{I},p_{I}) , Y\equiv (y_{J},p_{J}) $,以及聯合機率矩陣$$ p_{I\times J} := [p_{ij}]_{(i,j)\in I\times J}$$
==========================
其中~~
$$\underbrace{x_{I} := (x_i)_{i \in I} , y_{J} := (y_j)_{j \in J}}_{\text{值域向量}}$$
$X,Y$聯合機率函數(joint pmf) : $$p_{ij}:= p(x_i,y_j) = Prob.(X=x_i , Y=y_j)$$
只看 $X$ 的分布 (marginal):
$$p_i := p(x_i) = \sum_{j \in J} p_{ij}$$
只看 $Y$ 的分布(marginal):
$$p_j := p(y_j) = \sum_{i \in I} p_{ij}$$
$$\underbrace{p_{I} := (p_i)_{i \in I} , p_{J} := (p_j)_{j \in J}}_{\text{機率向量}}$$
機率總和性質:
$$ \sum_{i\in I}p_i = 1 , \sum_{j \in J} p_j = 1$$
注意: $p_i$ 與 $p_j$ 是不同的
==========================
於是我們可以計算 $X,Y$的共變異數
抽象概念定義:
$$ Cov(X,Y) := E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y] $$
詳細計算定義:
$$ Cov(X,Y):= \left(\sum_{(i,j) \in I\times J} x_i y_j \cdot p_{ij}\right) - \left( \sum_{i\in I}x_i \cdot p_i \right) \left(\sum_{j\in J} y_j \cdot p_j \right) ... (*)$$
當探討 $Cov(X,Y)$ 性質的時候,有沒有似曾相似的感覺呢?? 事實上,你可以把隨機變數 $X,Y$ 看成向量 $u,v$,$Cov(X,Y)$ 記做 $\left<X,Y\right>$ ,你會發現 $[1],[2],...[7]$ 都會滿足!! 確實共變異數 $Cov$ 就是內積的概念,雖然不是熟悉的內積,是另一種內積 !!
於是可以利用$(*)$檢驗,如以下的表格
===========================================================
$ [1'] \text{對稱性 } Cov(X,Y) = Cov(Y,X) $
$ [2']\text{左分配律 } Cov(X + Y,Z) = Cov(X , Z) + Cov(Y , Z) $
$ [3'] \text{右分配律 } Cov(X,Y+Z) = Cov(X , Y) + Cov(X , Z) $
$ [4'] \text{左線性 } Cov(\alpha X,Y) = \alpha Cov(X , Y) $
$ [5'] \text{右線性 }Cov(X,\beta Y) = \beta Cov(X , Y) $
$ [6'] \text{自己恆正 } Cov(X,X) \geq 0 $
$ [8'] \text{變異數,標準差定義 } Var(X) := Cov(X,X) , \sigma_{X} := \sqrt{Cov(X,X)}$
===========================================================
[Fact 1] 隨機變數的線性組合的變異數 !!
$Var(\alpha X+ \beta Y) = \alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y) $
證明: 可以利用$(*)$,即
$$\underbrace{Var(\alpha X+ \beta Y) = Cov(\alpha X+ \beta Y, \alpha X+ \beta Y)}_{\text{利用 }[8']} $$
$$ \underbrace{ = Cov(\alpha X+ \beta Y, \alpha X) + Cov(\alpha X+ \beta Y, \beta Y)}_{\text{利用 }[3']}$$
$$ \underbrace{= Cov(\alpha X, \alpha X) + Cov(\beta Y, \alpha X) + Cov(\alpha X, \beta Y) + Cov(\beta Y, \ \beta Y)}_{\text{利用}[2']} $$
$$ \underbrace{= \alpha Cov(X,X) + \alpha \beta Cov(Y, X) + \alpha \beta Cov(X,Y) + \beta^2 Cov(Y,Y)}_{\text{利用}[4'][5']} $$
$$ \underbrace{\alpha^2 Var(X) + \beta^2 Var(Y) + 2\alpha \beta Cov(X,Y)}_{\text{利用}[1'][8']} $$
[Fact 2] 相關係數(correlation) 就是夾角的概念 !!
$$ cos(\theta_{XY}) := \frac{\left<X,Y\right>}{||X||||Y||}\equiv \frac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}} $$
[Fact 3] $X,Y$ 隨機變數獨立 $\Longrightarrow$ 向量垂直正交
$$ X \perp Y \Longleftrightarrow \bigwedge_{(i,j) \in I \times J}\left(p_{ij} = p_i \cdot p_j\right) \Longrightarrow Cov(X,Y) = 0 \Longleftrightarrow \theta_{XY} = 90^{\circ} $$
[推廣至多維]
給定 $|T|$ 維隨機向量 $X_{T} = (X_{t})_{t\in T} $ ,可以構造共變異數矩陣(Covariance Matrix) $$\Sigma(X_{T}) := [Cov(X_{t_1},X_{t_2})]_{(t_1,t_2)\in T^2}$$
則當今天給定一個 $m \times |T|$ 常數矩陣 $A$ ,考慮線性變換: $\underbrace{AX_{T}}_{\text{matrix-vector multiplication}}$
則 $\Sigma(AX_{T}) = A \Sigma(X_{T}) A^{transpose} = \text{ $m \times m$ matrix }$
類似這種性質都可以使用$[1'] \sim [8']$ 展開,輕鬆推導驗證 !!
註: 學術上大多會把共變異數矩陣 $\Sigma(\text{隨機向量})$ 寫成 $Cov(\text{隨機向量})$,但因為容易跟 $Cov(純量,純量)$ 混淆,故筆者不建議這種表示 !!
[延伸閱讀]
這連結有比較詳細的介紹 !!
Covariance and Dot Product
http://people.sju.edu/~pklingsb/dot.cov.pdf
[小結]
所以我們可以把"隨機變數"成功的與"內積計算"的性質給結合,在熟悉的空間算數學,具有幾何意義,這也是線性代數為何要研究抽象空間的動機 !!
[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~]
by Plus & Minus 2018.06
留言
張貼留言