本篇文章使用淺顯易懂集合論的語言,連接統計學現實與抽象化的過程,來重新詮釋統計學的概念,並區分一些差異與澄清一些觀念,希望能對初學統計的讀者有些幫助。
[定義有限母體]
日常生活中,母體的概念大家都能理解,很多很多個體。我們可以定義一個很大但有限的集合\Omega ,每個獨一無二的個體記做 s ,所以可以寫成 s \in \Omega
而全部個數記做 N (現實生活中N很大通常未知,除非我們有能力有時間消耗大量成本做普查才能得知 N)
|\Omega| = N
[ex:] 例如全台灣人,兩千三百萬人左右,則可以寫成 N \approx 2300 \times 10^4
而我們感興趣的可能是個體的可以量化的屬性(如:身高,成績),所以可以定義一個實數函數(real-valued function)
X : \Omega \longrightarrow \mathbb{R}
[ex:] 例如阿元的月收入\$ 可以寫成 X(阿元) = 22 \times 10^3 或是記做下標 X_{阿元} = 22 \times 10^3 ,而每個人的月收入有高有低,如果把那些"值"聯集起來,我們能說一定若在實數域裡面 !!
[屬性值有哪些]
數學上來說就是 range of X , image of X
X(\Omega) := \{ X_s \in \mathbb{R}: s\in \Omega \} = \bigcup_{s\in \Omega} \{ X_s\} \subset \mathbb{R}
這時我們可以把薪水的值記做 x \in X(\Omega)
[計數與比例]
這時大家會好奇說有沒有其他人跟我一樣的薪水,還有那群人在全台灣人佔了多少比例,所以會計算個數 (Count) ,以及比例 (Frequency) 。
正是數學定義如下:
\text{Count}(x,\Omega) := |\{ s\in \Omega : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z}
\text{Frequency}(x,\Omega) := \frac{ |\{ s\in \Omega : X_s = x \}|}{N} \in [0,1]
注意: Count , Frequency 是函數,而且定義域為X(\Omega) ,統計書上習慣記做 n_{x} = \text{Count}(x,\Omega) , p_{x}= \text{Frequency}(x,\Omega) = \frac{n_x}{N}
我們還會得到下列兩個方程式,畫畫圓餅圖,直方圖 \sum_{x \in X(\Omega)} n_x = N \quad \sum_{x\in X(\Omega)} p_x = 1
[平均的概念]
然後你會好奇全台灣人平均薪水為多少 ??
你可以有兩種邏輯方式計算!!
先把所有的收入加總再一起除以全台灣的人數
\mu := \frac{\displaystyle{\sum_{x\in X(\Omega)} x \cdot n_x}}{N}
先把所有收入種類都先乘以占多少比例,在全部加總 !!
\mu := \sum_{x\in X(\Omega)} x \cdot p_x
[機率模型上的比較]
如果你有學過機率模型,隨機變數的概念,你會發現符號完全一致 !!
\Omega 為樣本空間,\mu = E(X) 為母體平均數(期望值)
很自然 \sigma^2 = Var(X) 為母體變異數可以寫成
\sigma^2 := \sum_{x\in X(\Omega)} x^2 p_x - \mu^2
X 本身就是"隨機變數",而薪水是x 的機率就為 p_x !!
數學嚴格定義可以寫成
Prob.\left(\{ s\in U : X_s = x \}\right) = Prob.(\underbrace{X^{-1}(x))}_{\text{preimage}} = p_x
注意 : p_x 與 Prob. 雖然口語上都叫機率,但是意義上卻不同 p_x 為一個母體決定後的固定的數,Prob. 為測度 (Measure) 的概念 [詳細概念請參考測度論(Measure Theory)]
[利用母體參數描述母體]
或許有人會好奇說,我們計算的母體參數 \mu , \sigma 到底要幹嘛?? 能了解母體多少呢??
一個著名的不等式 Chebyshev's inquality ,不管母體長相,只要掌握 \mu , \sigma,則告訴我們 Prob.(\{X \in (\mu \pm k\sigma)\}) \geq 1- \frac{1}{k^2} \quad , k \in \mathbb{N}
如果 k = 2 則我們可以得到一個結論 :
至少 75% 的人年收入都落在兩倍標準差 \sigma 內 !! X \in (\mu \pm 2\cdot \sigma )
[註] 如果母體恰好是"常態分佈"(Normal Distribution),我們都知道 約有 95% 的人都落在兩倍標準差 \sigma內 !!
所以我們目標是計算母體參數 ,\mu , \sigma ,但你會發現計算這個值 ~ 需要知道整個 X(\Omega) = 普查 !! 實務上不可能 ... 於是統計學的估計(Estimation)就誕生了。我們只能抽出一些人集合,也就是樣本 S \subset \Omega 而且 n = |S| << N ,或寫成 \frac{n}{N} \approx 0,這邊的 n 是樣本個數 !!
註: 任何隨機變數 Y 都可以嘗試定義E[Y] , Var[Y] 而且滿足 Chebyshev's inquality ,我們可以寫成
Prob.(\{Y \in (E[Y] \pm k\sqrt{Var[Y]})\}) \geq 1- \frac{1}{k^2}
[抽樣的差異]
假如我們抽 n 個人出來,如果沒講清楚,事實上有很多種抽法,而且數學描述也不一樣,也是統計教學鮮少提到的,是筆者曾經的疑惑,也是筆者想列出來分享與討論 !!
以下列出常見的抽法:
[1]第一種就是一次抓取 n 個"不同"的人抽樣,類似超幾何分配(Hypergeometric distribution)的味道~,我們總共會有 ?? |\{ S : S\subset \Omega , |S|=n \}| = \underbrace{C^{N}_{n}}_{\text{通俗寫法}} = \underbrace{\left( \begin{array}{c} N \\ n \\ \end{array} \right)}_{\text{正規寫法}}
這麼多種抽法 !!
[2]第二種就是一次抽一個人(不放回),第 k 次抽取的人記做 s_k , k = 1,2,3,...n
depend set 寫法為
s_1 \in \Omega \text{ and } s_k \in \Omega \setminus \{s_1,s_2,...s_{k-1}\} \quad \forall k = 2,3,...n , S:= \{ s_1, s_2 ,.....s_{n} | \text{they are all distinct} \}
[3]第三種就是一次抽一個人(放回),記法同上,差別在於我們可能抽到同樣的人 , S 要寫成 vector 或是 tuple 或是 multiset
s_k \in \Omega \quad \forall k = 1,2,3,...n , S \in \{ (s_1, s_2 ,.....s_{n}) \in \prod^{n}_{k=1}\Omega | \text{domain = $n$ copies of } \Omega \}
現實類比說明:
第一種抽樣就是一隻手抓取很多東西的概念 (1 trial - take n different things)
第二種抽樣就像玩牌一次抽一張牌,越抽越少到抽完的概念 (n trials - select different thing in the future)
第三種抽樣就是重複做一樣的事,如丟骰子,丟銅板,常見的獨立同分配 (iid) Bernoulli trials
的概念,許多統計學理論都建在這假設之上,包含大數法則(LLN),中央極限定理(CLT)
而統計學知識告訴我們,當母體個數N 很大 ,第二種可以近似成第三種
再來就是一個 Claim ,第一種跟第二種是否等價或近似??
現實生活中大多是第一種抽樣情境!!,但理論上多使用第三種情境 !!
[樣本統計量]
不管抽樣方式如何,我們都會得到 n 個值,可以用一個向量表示 X_S := (X_{s_1},X_{s_2},.....X_{s_n}) \underset{\text{簡記}}{=} (X_1,......X_n)
假如都抽到不同的 s (S 為一般的集合) 則可以推廣 Count , Frequency 函數
(注意: X_{S} 裡面的值還是可能相同 , 由於 |S|=n , 我們多個n 變數 ,把 S 記做 S_n)
\text{Count}(x,S_n) := |\{ s\in S_n : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z}
\text{Frequency}(x,S_n) := \frac{ |\{ s\in S_n : X_s = x \}|}{n} \in [0,1]
而我們還可以定義熟知的樣本平均數與樣本變異數
\bar{X}(S_n) := \frac{1}{n}\displaystyle{\sum_{s\in S_n} X_s} = \text{隨機變數相加} = \text{隨機變數}
{\mathcal{S}^2}(S_n) := \frac{1}{n-1}\displaystyle{\left[\sum_{s\in S_n} (X_s - \bar{X})^2\right]} = \text{隨機變數相加} = \text{隨機變數}
而不偏性可以寫成 E(\bar{X}) = E(X) = \underset{\text{母體未知參數}}{\mu} \quad E(\mathcal{S}^2) = \underset{\text{母體未知參數}}{\sigma^2}
[\mu 的信賴區間]
而由於獨立同分布,我們又有 Var(\bar{X}) = \frac{\sigma^2}{n}
由於 n 在分母,標準差會越來越小,而且 E(\bar{X}) = \mu + Chebyshev's inquality
告訴我們當樣本數夠大 n \rightarrow \infty \bar{X} \approx \mu
而由中央極限定理(CLT)告訴我們不管母體是何種分布,當 n足夠大,一般來說為 n\geq 30 , \frac{(\bar{X}- \mu)}{\frac{\sigma}{\sqrt{n}}} \approx \text{Normal(0,1)}
也就是這個統計量長得像 Normal
我們知道 Normal(0,1)的在兩倍標準差的面積為 Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \underset{n \rightarrow \infty}{\approx} \underbrace{\frac{1}{\sqrt{2\pi}} \int^{2}_{-2} e^{-\frac{x^2}{2}}dx}_{\text{Normal cdf}} \approx 0.9545
可以把左式寫成
Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \iff Prob.\left(\overset{\text{隨機變數}}{\bar{X}} \in \left[\mu \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]\right) \iff Prob.\left(\mu \in \overbrace{\left[ \bar{X} \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]}^{\text{隨機區間}}\right) \approx 0.9545
而由於 Slutsky's theorem 的原因,我們可以用 \mathcal{S} 估計 \sigma,於是我們得到 95\% 信賴區間的概念 95\% \quad \mu \in\left[ \bar{X} \pm 2\cdot\frac{\mathcal{S}}{\sqrt{n}}\right] = I_n
[95\%信賴區間的澄清]
當你真的抽樣 n 個樣本後,
計算出一個值\bar{X}(S_n) = \bar{x} 以及 \mathcal{S}(S_n) = {\bf s}會容易有誤解的概念
認為
95\% \text{ 的機會 } \mu \in [ \bar{x} \pm 2\cdot\frac{{ \bf s}}{\sqrt{n}}] \quad 5\% \text{ 的機會 } \mu \notin [ \bar{x} \pm 2\cdot\frac{\bf s}{\sqrt{n}}]
但事實上這概念是錯誤的!!
正確的解釋為我們需要再反覆批次做 n 個樣本抽樣,假設我們做了 m 次,總共抽出了 m \times n 個樣本,抽取 S^{1}_{n},...S^{m}_{n} ,分別為得到 \bar{x}^1,.....\bar{x}^{m} 還可以計算出很多信賴區間 I^{1}_n , ...... I^{m}_{n} 則 95\% 是指當 m 夠大
\frac{\text{Number of Intevals s.t } \mu \in I^{m}_n }{m} \approx 95\%
也就是我們計算出來的區間們" ,有95\%"的比例會包含 \mu ,而不是指 95\% \mu 會落在特定的某個信賴區間的值 !!
另外對CLT的解釋,也可以利用算出來的 \bar{x}^1,.....\bar{x}^{m} 畫直方圖,當 n 夠大時,m夠多時,圖形就會接近常態!!
[小結]
以上為對於筆者用自己的集合筆法與角度重新解釋統計的概念,之後還會探討檢定,以及多變量分析,迴歸分析相關的想法
[定義有限母體]
日常生活中,母體的概念大家都能理解,很多很多個體。我們可以定義一個很大但有限的集合\Omega ,每個獨一無二的個體記做 s ,所以可以寫成 s \in \Omega
而全部個數記做 N (現實生活中N很大通常未知,除非我們有能力有時間消耗大量成本做普查才能得知 N)
|\Omega| = N
[ex:] 例如全台灣人,兩千三百萬人左右,則可以寫成 N \approx 2300 \times 10^4
而我們感興趣的可能是個體的可以量化的屬性(如:身高,成績),所以可以定義一個實數函數(real-valued function)
X : \Omega \longrightarrow \mathbb{R}
[ex:] 例如阿元的月收入\$ 可以寫成 X(阿元) = 22 \times 10^3 或是記做下標 X_{阿元} = 22 \times 10^3 ,而每個人的月收入有高有低,如果把那些"值"聯集起來,我們能說一定若在實數域裡面 !!
[屬性值有哪些]
數學上來說就是 range of X , image of X
X(\Omega) := \{ X_s \in \mathbb{R}: s\in \Omega \} = \bigcup_{s\in \Omega} \{ X_s\} \subset \mathbb{R}
這時我們可以把薪水的值記做 x \in X(\Omega)
[計數與比例]
這時大家會好奇說有沒有其他人跟我一樣的薪水,還有那群人在全台灣人佔了多少比例,所以會計算個數 (Count) ,以及比例 (Frequency) 。
正是數學定義如下:
\text{Count}(x,\Omega) := |\{ s\in \Omega : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z}
\text{Frequency}(x,\Omega) := \frac{ |\{ s\in \Omega : X_s = x \}|}{N} \in [0,1]
注意: Count , Frequency 是函數,而且定義域為X(\Omega) ,統計書上習慣記做 n_{x} = \text{Count}(x,\Omega) , p_{x}= \text{Frequency}(x,\Omega) = \frac{n_x}{N}
我們還會得到下列兩個方程式,畫畫圓餅圖,直方圖 \sum_{x \in X(\Omega)} n_x = N \quad \sum_{x\in X(\Omega)} p_x = 1
[平均的概念]
然後你會好奇全台灣人平均薪水為多少 ??
你可以有兩種邏輯方式計算!!
先把所有的收入加總再一起除以全台灣的人數
\mu := \frac{\displaystyle{\sum_{x\in X(\Omega)} x \cdot n_x}}{N}
先把所有收入種類都先乘以占多少比例,在全部加總 !!
\mu := \sum_{x\in X(\Omega)} x \cdot p_x
[機率模型上的比較]
如果你有學過機率模型,隨機變數的概念,你會發現符號完全一致 !!
\Omega 為樣本空間,\mu = E(X) 為母體平均數(期望值)
很自然 \sigma^2 = Var(X) 為母體變異數可以寫成
\sigma^2 := \sum_{x\in X(\Omega)} x^2 p_x - \mu^2
X 本身就是"隨機變數",而薪水是x 的機率就為 p_x !!
數學嚴格定義可以寫成
Prob.\left(\{ s\in U : X_s = x \}\right) = Prob.(\underbrace{X^{-1}(x))}_{\text{preimage}} = p_x
注意 : p_x 與 Prob. 雖然口語上都叫機率,但是意義上卻不同 p_x 為一個母體決定後的固定的數,Prob. 為測度 (Measure) 的概念 [詳細概念請參考測度論(Measure Theory)]
[利用母體參數描述母體]
或許有人會好奇說,我們計算的母體參數 \mu , \sigma 到底要幹嘛?? 能了解母體多少呢??
一個著名的不等式 Chebyshev's inquality ,不管母體長相,只要掌握 \mu , \sigma,則告訴我們 Prob.(\{X \in (\mu \pm k\sigma)\}) \geq 1- \frac{1}{k^2} \quad , k \in \mathbb{N}
如果 k = 2 則我們可以得到一個結論 :
至少 75% 的人年收入都落在兩倍標準差 \sigma 內 !! X \in (\mu \pm 2\cdot \sigma )
[註] 如果母體恰好是"常態分佈"(Normal Distribution),我們都知道 約有 95% 的人都落在兩倍標準差 \sigma內 !!
所以我們目標是計算母體參數 ,\mu , \sigma ,但你會發現計算這個值 ~ 需要知道整個 X(\Omega) = 普查 !! 實務上不可能 ... 於是統計學的估計(Estimation)就誕生了。我們只能抽出一些人集合,也就是樣本 S \subset \Omega 而且 n = |S| << N ,或寫成 \frac{n}{N} \approx 0,這邊的 n 是樣本個數 !!
註: 任何隨機變數 Y 都可以嘗試定義E[Y] , Var[Y] 而且滿足 Chebyshev's inquality ,我們可以寫成
Prob.(\{Y \in (E[Y] \pm k\sqrt{Var[Y]})\}) \geq 1- \frac{1}{k^2}
[抽樣的差異]
假如我們抽 n 個人出來,如果沒講清楚,事實上有很多種抽法,而且數學描述也不一樣,也是統計教學鮮少提到的,是筆者曾經的疑惑,也是筆者想列出來分享與討論 !!
以下列出常見的抽法:
[1]第一種就是一次抓取 n 個"不同"的人抽樣,類似超幾何分配(Hypergeometric distribution)的味道~,我們總共會有 ?? |\{ S : S\subset \Omega , |S|=n \}| = \underbrace{C^{N}_{n}}_{\text{通俗寫法}} = \underbrace{\left( \begin{array}{c} N \\ n \\ \end{array} \right)}_{\text{正規寫法}}
這麼多種抽法 !!
[2]第二種就是一次抽一個人(不放回),第 k 次抽取的人記做 s_k , k = 1,2,3,...n
depend set 寫法為
s_1 \in \Omega \text{ and } s_k \in \Omega \setminus \{s_1,s_2,...s_{k-1}\} \quad \forall k = 2,3,...n , S:= \{ s_1, s_2 ,.....s_{n} | \text{they are all distinct} \}
[3]第三種就是一次抽一個人(放回),記法同上,差別在於我們可能抽到同樣的人 , S 要寫成 vector 或是 tuple 或是 multiset
s_k \in \Omega \quad \forall k = 1,2,3,...n , S \in \{ (s_1, s_2 ,.....s_{n}) \in \prod^{n}_{k=1}\Omega | \text{domain = $n$ copies of } \Omega \}
現實類比說明:
第一種抽樣就是一隻手抓取很多東西的概念 (1 trial - take n different things)
第二種抽樣就像玩牌一次抽一張牌,越抽越少到抽完的概念 (n trials - select different thing in the future)
第三種抽樣就是重複做一樣的事,如丟骰子,丟銅板,常見的獨立同分配 (iid) Bernoulli trials
的概念,許多統計學理論都建在這假設之上,包含大數法則(LLN),中央極限定理(CLT)
而統計學知識告訴我們,當母體個數N 很大 ,第二種可以近似成第三種
再來就是一個 Claim ,第一種跟第二種是否等價或近似??
現實生活中大多是第一種抽樣情境!!,但理論上多使用第三種情境 !!
[樣本統計量]
不管抽樣方式如何,我們都會得到 n 個值,可以用一個向量表示 X_S := (X_{s_1},X_{s_2},.....X_{s_n}) \underset{\text{簡記}}{=} (X_1,......X_n)
假如都抽到不同的 s (S 為一般的集合) 則可以推廣 Count , Frequency 函數
(注意: X_{S} 裡面的值還是可能相同 , 由於 |S|=n , 我們多個n 變數 ,把 S 記做 S_n)
\text{Count}(x,S_n) := |\{ s\in S_n : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z}
\text{Frequency}(x,S_n) := \frac{ |\{ s\in S_n : X_s = x \}|}{n} \in [0,1]
而我們還可以定義熟知的樣本平均數與樣本變異數
\bar{X}(S_n) := \frac{1}{n}\displaystyle{\sum_{s\in S_n} X_s} = \text{隨機變數相加} = \text{隨機變數}
{\mathcal{S}^2}(S_n) := \frac{1}{n-1}\displaystyle{\left[\sum_{s\in S_n} (X_s - \bar{X})^2\right]} = \text{隨機變數相加} = \text{隨機變數}
而不偏性可以寫成 E(\bar{X}) = E(X) = \underset{\text{母體未知參數}}{\mu} \quad E(\mathcal{S}^2) = \underset{\text{母體未知參數}}{\sigma^2}
[\mu 的信賴區間]
而由於獨立同分布,我們又有 Var(\bar{X}) = \frac{\sigma^2}{n}
由於 n 在分母,標準差會越來越小,而且 E(\bar{X}) = \mu + Chebyshev's inquality
告訴我們當樣本數夠大 n \rightarrow \infty \bar{X} \approx \mu
而由中央極限定理(CLT)告訴我們不管母體是何種分布,當 n足夠大,一般來說為 n\geq 30 , \frac{(\bar{X}- \mu)}{\frac{\sigma}{\sqrt{n}}} \approx \text{Normal(0,1)}
也就是這個統計量長得像 Normal
我們知道 Normal(0,1)的在兩倍標準差的面積為 Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \underset{n \rightarrow \infty}{\approx} \underbrace{\frac{1}{\sqrt{2\pi}} \int^{2}_{-2} e^{-\frac{x^2}{2}}dx}_{\text{Normal cdf}} \approx 0.9545
可以把左式寫成
Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \iff Prob.\left(\overset{\text{隨機變數}}{\bar{X}} \in \left[\mu \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]\right) \iff Prob.\left(\mu \in \overbrace{\left[ \bar{X} \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]}^{\text{隨機區間}}\right) \approx 0.9545
而由於 Slutsky's theorem 的原因,我們可以用 \mathcal{S} 估計 \sigma,於是我們得到 95\% 信賴區間的概念 95\% \quad \mu \in\left[ \bar{X} \pm 2\cdot\frac{\mathcal{S}}{\sqrt{n}}\right] = I_n
[95\%信賴區間的澄清]
當你真的抽樣 n 個樣本後,
計算出一個值\bar{X}(S_n) = \bar{x} 以及 \mathcal{S}(S_n) = {\bf s}會容易有誤解的概念
認為
95\% \text{ 的機會 } \mu \in [ \bar{x} \pm 2\cdot\frac{{ \bf s}}{\sqrt{n}}] \quad 5\% \text{ 的機會 } \mu \notin [ \bar{x} \pm 2\cdot\frac{\bf s}{\sqrt{n}}]
但事實上這概念是錯誤的!!
正確的解釋為我們需要再反覆批次做 n 個樣本抽樣,假設我們做了 m 次,總共抽出了 m \times n 個樣本,抽取 S^{1}_{n},...S^{m}_{n} ,分別為得到 \bar{x}^1,.....\bar{x}^{m} 還可以計算出很多信賴區間 I^{1}_n , ...... I^{m}_{n} 則 95\% 是指當 m 夠大
\frac{\text{Number of Intevals s.t } \mu \in I^{m}_n }{m} \approx 95\%
也就是我們計算出來的區間們" ,有95\%"的比例會包含 \mu ,而不是指 95\% \mu 會落在特定的某個信賴區間的值 !!
另外對CLT的解釋,也可以利用算出來的 \bar{x}^1,.....\bar{x}^{m} 畫直方圖,當 n 夠大時,m夠多時,圖形就會接近常態!!
[小結]
以上為對於筆者用自己的集合筆法與角度重新解釋統計的概念,之後還會探討檢定,以及多變量分析,迴歸分析相關的想法
[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~]
by Plus & Minus 2017.12
留言
張貼留言