Processing math: 0%
跳到主要內容

Set Notations & Statistics In Real Life


本篇文章使用淺顯易懂集合論的語言,連接統計學現實與抽象化的過程,來重新詮釋統計學的概念,並區分一些差異與澄清一些觀念,希望能對初學統計的讀者有些幫助。

[定義有限母體]
日常生活中,母體的概念大家都能理解,很多很多個體。我們可以定義一個很大但有限的集合\Omega ,每個獨一無二的個體記做 s ,所以可以寫成 s \in \Omega
而全部個數記做 N (現實生活中N很大通常未知,除非我們有能力有時間消耗大量成本做普查才能得知 N)
|\Omega| = N 
[ex:] 例如全台灣人,兩千三百萬人左右,則可以寫成 N \approx 2300 \times 10^4

而我們感興趣的可能是個體的可以量化的屬性(如:身高,成績),所以可以定義一個實數函數(real-valued function)
X : \Omega \longrightarrow  \mathbb{R} 
[ex:] 例如阿元的月收入\$  可以寫成     X(阿元) =  22 \times 10^3  或是記做下標 X_{阿元} = 22 \times 10^3 ,而每個人的月收入有高有低,如果把那些"值"聯集起來,我們能說一定若在實數域裡面 !!

[屬性值有哪些]
數學上來說就是 range of X , image of X
X(\Omega) := \{ X_s  \in \mathbb{R}: s\in \Omega \} = \bigcup_{s\in \Omega} \{ X_s\} \subset \mathbb{R}
這時我們可以把薪水的值記做 x \in X(\Omega)

[計數與比例]
這時大家會好奇說有沒有其他人跟我一樣的薪水,還有那群人在全台灣人佔了多少比例,所以會計算個數 (Count) ,以及比例 (Frequency) 。
正是數學定義如下:
  \text{Count}(x,\Omega) :=   |\{ s\in \Omega :  X_s = x  \}|  \in [0,|\Omega|]_\mathbb{Z}       
\text{Frequency}(x,\Omega) :=   \frac{ |\{ s\in \Omega :  X_s = x  \}|}{N} \in [0,1] 

注意: Count , Frequency 是函數,而且定義域為X(\Omega) ,統計書上習慣記做 n_{x} = \text{Count}(x,\Omega) , p_{x}= \text{Frequency}(x,\Omega) = \frac{n_x}{N}
我們還會得到下列兩個方程式,畫畫圓餅圖,直方圖  \sum_{x \in X(\Omega)} n_x = N \quad \sum_{x\in X(\Omega)} p_x = 1

[平均的概念]
然後你會好奇全台灣人平均薪水為多少 ??
你可以有兩種邏輯方式計算!!
先把所有的收入加總再一起除以全台灣的人數
\mu := \frac{\displaystyle{\sum_{x\in X(\Omega)}  x \cdot n_x}}{N}   
先把所有收入種類都先乘以占多少比例,在全部加總 !!
  \mu := \sum_{x\in X(\Omega)} x \cdot p_x   


[機率模型上的比較]
如果你有學過機率模型,隨機變數的概念,你會發現符號完全一致 !!
\Omega 為樣本空間,\mu = E(X) 為母體平均數(期望值)
很自然 \sigma^2 = Var(X)  為母體變異數可以寫成
\sigma^2 := \sum_{x\in X(\Omega)} x^2  p_x - \mu^2 
 X 本身就是"隨機變數",而薪水是x 的機率就為 p_x !! 
數學嚴格定義可以寫成
Prob.\left(\{ s\in U : X_s = x \}\right) = Prob.(\underbrace{X^{-1}(x))}_{\text{preimage}} = p_x
注意 : p_xProb. 雖然口語上都叫機率,但是意義上卻不同 p_x 為一個母體決定後的固定的數,Prob. 為測度 (Measure) 的概念 [詳細概念請參考測度論(Measure Theory)]


[利用母體參數描述母體]
或許有人會好奇說,我們計算的母體參數 \mu , \sigma 到底要幹嘛?? 能了解母體多少呢??
一個著名的不等式 Chebyshev's inquality ,不管母體長相,只要掌握 \mu , \sigma,則告訴我們  Prob.(\{X \in (\mu \pm k\sigma)\}) \geq 1- \frac{1}{k^2}  \quad , k \in \mathbb{N}
如果 k = 2 則我們可以得到一個結論 : 
至少 75% 的人年收入都落在兩倍標準差 \sigma 內 !!  X \in (\mu \pm 2\cdot \sigma  )
[註] 如果母體恰好是"常態分佈"(Normal Distribution),我們都知道 約有 95% 的人都落在兩倍標準差 \sigma內 !!
所以我們目標是計算母體參數 ,\mu , \sigma ,但你會發現計算這個值 ~ 需要知道整個 X(\Omega) = 普查 !! 實務上不可能 ... 於是統計學的估計(Estimation)就誕生了。我們只能抽出一些人集合,也就是樣本 S \subset \Omega 而且 n = |S| << N ,或寫成 \frac{n}{N} \approx 0,這邊的 n 是樣本個數 !!
註: 任何隨機變數 Y 都可以嘗試定義E[Y] , Var[Y]  而且滿足  Chebyshev's inquality  ,我們可以寫成
Prob.(\{Y \in (E[Y] \pm k\sqrt{Var[Y]})\}) \geq 1- \frac{1}{k^2} 

[抽樣的差異]
假如我們抽 n 個人出來,如果沒講清楚,事實上有很多種抽法,而且數學描述也不一樣,也是統計教學鮮少提到的,是筆者曾經的疑惑,也是筆者想列出來分享與討論 !!

以下列出常見的抽法:
[1]第一種就是一次抓取 n 個"不同"的人抽樣,類似超幾何分配(Hypergeometric distribution)的味道~,我們總共會有 ?? |\{ S : S\subset \Omega , |S|=n \}| = \underbrace{C^{N}_{n}}_{\text{通俗寫法}} = \underbrace{\left( \begin{array}{c}  N \\  n \\ \end{array} \right)}_{\text{正規寫法}}
這麼多種抽法 !!

[2]第二種就是一次抽一個人(不放回),第 k 次抽取的人記做 s_k , k = 1,2,3,...n
depend set 寫法為
  s_1 \in \Omega  \text{ and } s_k \in \Omega \setminus \{s_1,s_2,...s_{k-1}\} \quad  \forall k = 2,3,...n  ,  S:= \{ s_1, s_2 ,.....s_{n} | \text{they are all distinct} \}

[3]第三種就是一次抽一個人(放回),記法同上,差別在於我們可能抽到同樣的人 , S 要寫成 vector 或是 tuple 或是 multiset
   s_k \in \Omega  \quad  \forall k = 1,2,3,...n  ,   S \in \{ (s_1, s_2 ,.....s_{n}) \in \prod^{n}_{k=1}\Omega | \text{domain = $n$ copies of } \Omega   \}   

現實類比說明:
第一種抽樣就是一隻手抓取很多東西的概念 (1 trial - take n different things)
第二種抽樣就像玩牌一次抽一張牌,越抽越少到抽完的概念 (n trials - select different thing in the future)
第三種抽樣就是重複做一樣的事,如丟骰子,丟銅板,常見的獨立同分配 (iid)  Bernoulli trials
的概念,許多統計學理論都建在這假設之上,包含大數法則(LLN),中央極限定理(CLT)

而統計學知識告訴我們,當母體個數N 很大 ,第二種可以近似成第三種
再來就是一個 Claim ,第一種跟第二種是否等價或近似??

現實生活中大多是第一種抽樣情境!!,但理論上多使用第三種情境 !!

[樣本統計量]
不管抽樣方式如何,我們都會得到 n 個值,可以用一個向量表示 X_S := (X_{s_1},X_{s_2},.....X_{s_n})  \underset{\text{簡記}}{=} (X_1,......X_n)

假如都抽到不同的 s (S 為一般的集合) 則可以推廣 Count , Frequency 函數
(注意: X_{S} 裡面的值還是可能相同 , 由於 |S|=n , 我們多個n 變數 ,把 S 記做 S_n)
  \text{Count}(x,S_n) :=   |\{ s\in S_n :  X_s = x  \}|  \in [0,|\Omega|]_\mathbb{Z}       
\text{Frequency}(x,S_n) :=   \frac{ |\{ s\in S_n :  X_s = x  \}|}{n} \in [0,1]  

而我們還可以定義熟知的樣本平均數與樣本變異數

\bar{X}(S_n) := \frac{1}{n}\displaystyle{\sum_{s\in S_n} X_s} = \text{隨機變數相加} = \text{隨機變數} 

  {\mathcal{S}^2}(S_n) := \frac{1}{n-1}\displaystyle{\left[\sum_{s\in S_n} (X_s - \bar{X})^2\right]} = \text{隨機變數相加} = \text{隨機變數}   

而不偏性可以寫成  E(\bar{X}) =  E(X) = \underset{\text{母體未知參數}}{\mu} \quad  E(\mathcal{S}^2) = \underset{\text{母體未知參數}}{\sigma^2}   

[\mu 的信賴區間]
而由於獨立同分布,我們又有  Var(\bar{X})  = \frac{\sigma^2}{n}
由於 n 在分母,標準差會越來越小,而且 E(\bar{X}) = \mu  +  Chebyshev's inquality
告訴我們當樣本數夠大 n \rightarrow \infty  \bar{X} \approx \mu

而由中央極限定理(CLT)告訴我們不管母體是何種分布,當 n足夠大,一般來說為 n\geq 30 , \frac{(\bar{X}- \mu)}{\frac{\sigma}{\sqrt{n}}} \approx \text{Normal(0,1)} 
也就是這個統計量長得像 Normal

我們知道 Normal(0,1)的在兩倍標準差的面積為 Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \underset{n \rightarrow \infty}{\approx} \underbrace{\frac{1}{\sqrt{2\pi}} \int^{2}_{-2} e^{-\frac{x^2}{2}}dx}_{\text{Normal  cdf}} \approx 0.9545   

可以把左式寫成
Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \iff  Prob.\left(\overset{\text{隨機變數}}{\bar{X}} \in \left[\mu \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]\right)  \iff   Prob.\left(\mu \in \overbrace{\left[ \bar{X} \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]}^{\text{隨機區間}}\right) \approx 0.9545

而由於 Slutsky's theorem 的原因,我們可以用 \mathcal{S} 估計 \sigma,於是我們得到 95\% 信賴區間的概念 95\% \quad \mu \in\left[ \bar{X} \pm 2\cdot\frac{\mathcal{S}}{\sqrt{n}}\right] = I_n

[95\%信賴區間的澄清]

當你真的抽樣 n 個樣本後,
計算出一個值\bar{X}(S_n) = \bar{x} 以及  \mathcal{S}(S_n) = {\bf s}會容易有誤解的概念
認為


95\% \text{ 的機會 } \mu \in [ \bar{x} \pm 2\cdot\frac{{ \bf s}}{\sqrt{n}}] \quad 5\% \text{ 的機會 } \mu \notin [ \bar{x} \pm 2\cdot\frac{\bf s}{\sqrt{n}}]

但事實上這概念是錯誤的!!

正確的解釋為我們需要再反覆批次做 n 個樣本抽樣,假設我們做了 m 次,總共抽出了 m \times n 個樣本,抽取 S^{1}_{n},...S^{m}_{n} ,分別為得到 \bar{x}^1,.....\bar{x}^{m} 還可以計算出很多信賴區間 I^{1}_n , ...... I^{m}_{n}95\% 是指當 m 夠大
  \frac{\text{Number of Intevals   s.t }  \mu \in I^{m}_n  }{m} \approx 95\%
也就是我們計算出來的區間們" ,有95\%"的比例會包含 \mu ,而不是指 95\% \mu 會落在特定的某個信賴區間的值 !!

另外對CLT的解釋,也可以利用算出來的 \bar{x}^1,.....\bar{x}^{m} 畫直方圖,當 n 夠大時,m夠多時,圖形就會接近常態!!

[小結]
以上為對於筆者用自己的集合筆法與角度重新解釋統計的概念,之後還會探討檢定,以及多變量分析,迴歸分析相關的想法



[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2017.12

留言

這個網誌中的熱門文章

Nash Equilibrium & Best Responce Function (BRF) In Continuous Strategies

經濟學重要的賽局理論( Game Theory )領域,用數學描述人與人之間的理性互動,最重要的就是尋找奈許均衡( Nash equilibrium ), 本篇介紹其數學規劃與非線性方程組!!  假設有 p 名玩家(player i),i=1,2,3,4,5,....p , 正在玩一場遊戲(Game)~~,完全不合作,各自獨立作決策 每個人有決策向量 x_i \in \Omega_i \subseteq R^{n_i} (有n_i個決策變數)  定義長向量: \underbrace{x =  (x_1,x_2,x_3,....x_p)}_{\# \text{ of } \sum^{p}_{i=1}n_i \text{ variables }} \in  \prod^{p}_{i=1} \Omega_i = \Omega 對於每個 player i ,長向量可以寫成 x = (x_i , x_{-i})x_{-i} 代表其他人(不是 player i) 能做的決策向量。 所有人各自作決策後,每個人都會個自的存在報酬效用函數 f_i (x)  \in \mathbb{R}  (報酬函數皆為公開已知資訊) 假設每位玩家是理性人(會極大化自己效用) 即 \forall i = 1,2,3,4....p \qquad  \underset{x_i \in \Omega_i}{\text{max }}f_i(x)   [註: 如果為合作可視為多目標規劃問題( multiobjective ),即 x_1,x_2,...x_p 可以由領導人一起決定] [註: 如果為合作而且把效用加總,即目標式變成 \sum_{i=1}^{p} f_i(x) ,可能對集體效益有更大的幫助,但是如何分配效益給 ( player i )會是個議題,可以查關鍵字 fair optimization ] 我們可以定義每個 player i 的 Best Response Function (BRF) or Best Reponce Set S_i(x_{-i}) \subset \Omega_i $$  S_i(x...

Lattice & Multinomial Theorem

本文介紹格子點(Lattice) 幾何意義與多項式定理(Mutinomial Theorem) 的關係,並可協助我們理解計算一些機率問題。 [符號定義] 非負整數 / 非負實數:  \mathbb{Z}_{\geq 0} := \{0,1,2,3,4,......\}  \subseteq [0,\infty) =: \mathbb{R}_{\geq 0} 離散機率向量:  p_{I} := (p_{i})_{i \in I} \text{ s.t } \sum_{i\in I}p_i =1 ,|I|<\infty  發生事件 i \in I 的累積次數向量: k_{I} := (k_i)_{i \in I} \in \mathbb{Z}^{|I|}_{\geq 0} \mathbb{Z}^{|I|}_{\geq 0} 就是 |I| 維格子點 !! [格子點情境] 出發點定義為 k^{start}_{I}:= \overbrace{(0,0...,0)}^{|I|},今發生一次 p_{I} 分布隨機互斥事件,等價於"點的移動"(state transition),數學定義如下:   \text{Event } i  \text{ happens }  \Longleftrightarrow  \overbrace{(\color{red}{k_i},k_{-i})}^{k^{old}_{I}}  \underset{\text{with probability }p_{i}}{\longrightarrow}   \overbrace{(\color{red}{k_i+1},k_{-i})}^{ k^{new}_{I}}    PS1: 其中  k_{-i} := (k_{i'})_{i' \in I-\{i\}} PS2: 不管怎麼走都在第一象限,也就是只能往右,往上,往高.... 當發生 n 次獨立同分布 p_{I} (iid) 的事件後,所有可能點位置在以下的集合上 $$  S_{n}(\col...

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定n筆實數型訓練資料 (training data) \{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p} , y^{k} \in \mathbb{R} , 我們目標是想要找到一個函數 f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R} 使得  \forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\...