本篇文章使用淺顯易懂集合論的語言,連接統計學現實與抽象化的過程,來重新詮釋統計學的概念,並區分一些差異與澄清一些觀念,希望能對初學統計的讀者有些幫助。
[定義有限母體]
日常生活中,母體的概念大家都能理解,很多很多個體。我們可以定義一個很大但有限的集合$\Omega$ ,每個獨一無二的個體記做 $s$ ,所以可以寫成 $s \in \Omega$
而全部個數記做 $N$ (現實生活中$N$很大通常未知,除非我們有能力有時間消耗大量成本做普查才能得知 $N$)
$$ |\Omega| = N $$
[ex:] 例如全台灣人,兩千三百萬人左右,則可以寫成 $N \approx 2300 \times 10^4$
而我們感興趣的可能是個體的可以量化的屬性(如:身高,成績),所以可以定義一個實數函數(real-valued function)
$$ X : \Omega \longrightarrow \mathbb{R} $$
[ex:] 例如阿元的月收入$\$$ 可以寫成 $X(阿元) = 22 \times 10^3$ 或是記做下標 $X_{阿元} = 22 \times 10^3$ ,而每個人的月收入有高有低,如果把那些"值"聯集起來,我們能說一定若在實數域裡面 !!
[屬性值有哪些]
數學上來說就是 range of $X$ , image of $X$
$$ X(\Omega) := \{ X_s \in \mathbb{R}: s\in \Omega \} = \bigcup_{s\in \Omega} \{ X_s\} \subset \mathbb{R} $$
這時我們可以把薪水的值記做 $x \in X(\Omega)$
[計數與比例]
這時大家會好奇說有沒有其他人跟我一樣的薪水,還有那群人在全台灣人佔了多少比例,所以會計算個數 (Count) ,以及比例 (Frequency) 。
正是數學定義如下:
$$ \text{Count}(x,\Omega) := |\{ s\in \Omega : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z} $$
$$\text{Frequency}(x,\Omega) := \frac{ |\{ s\in \Omega : X_s = x \}|}{N} \in [0,1] $$
注意: Count , Frequency 是函數,而且定義域為$X(\Omega)$ ,統計書上習慣記做 $n_{x} = \text{Count}(x,\Omega)$ , $p_{x}= \text{Frequency}(x,\Omega) = \frac{n_x}{N}$
我們還會得到下列兩個方程式,畫畫圓餅圖,直方圖 $$ \sum_{x \in X(\Omega)} n_x = N \quad \sum_{x\in X(\Omega)} p_x = 1$$
[平均的概念]
然後你會好奇全台灣人平均薪水為多少 ??
你可以有兩種邏輯方式計算!!
先把所有的收入加總再一起除以全台灣的人數
$$ \mu := \frac{\displaystyle{\sum_{x\in X(\Omega)} x \cdot n_x}}{N} $$
先把所有收入種類都先乘以占多少比例,在全部加總 !!
$$ \mu := \sum_{x\in X(\Omega)} x \cdot p_x $$
[機率模型上的比較]
如果你有學過機率模型,隨機變數的概念,你會發現符號完全一致 !!
$\Omega$ 為樣本空間,$\mu = E(X)$ 為母體平均數(期望值)
很自然 $\sigma^2 = Var(X)$ 為母體變異數可以寫成
$$ \sigma^2 := \sum_{x\in X(\Omega)} x^2 p_x - \mu^2 $$
$X$ 本身就是"隨機變數",而薪水是$x$ 的機率就為 $p_x$ !!
數學嚴格定義可以寫成
$$Prob.\left(\{ s\in U : X_s = x \}\right) = Prob.(\underbrace{X^{-1}(x))}_{\text{preimage}} = p_x$$
注意 : $p_x$ 與 $Prob. $雖然口語上都叫機率,但是意義上卻不同 $p_x$ 為一個母體決定後的固定的數,$Prob.$ 為測度 (Measure) 的概念 [詳細概念請參考測度論(Measure Theory)]
[利用母體參數描述母體]
或許有人會好奇說,我們計算的母體參數 $\mu$ , $\sigma$ 到底要幹嘛?? 能了解母體多少呢??
一個著名的不等式 Chebyshev's inquality ,不管母體長相,只要掌握 $\mu$ , $\sigma$,則告訴我們 $$ Prob.(\{X \in (\mu \pm k\sigma)\}) \geq 1- \frac{1}{k^2} \quad , k \in \mathbb{N} $$
如果 $k = 2$ 則我們可以得到一個結論 :
至少 75% 的人年收入都落在兩倍標準差 $\sigma$ 內 !! $X \in (\mu \pm 2\cdot \sigma )$
[註] 如果母體恰好是"常態分佈"(Normal Distribution),我們都知道 約有 95% 的人都落在兩倍標準差 $\sigma$內 !!
所以我們目標是計算母體參數 ,$\mu$ , $\sigma$ ,但你會發現計算這個值 ~ 需要知道整個 $X(\Omega)$ = 普查 !! 實務上不可能 ... 於是統計學的估計(Estimation)就誕生了。我們只能抽出一些人集合,也就是樣本 $S \subset \Omega$ 而且 $ n = |S| << N$ ,或寫成 $\frac{n}{N} \approx 0$,這邊的 $n$ 是樣本個數 !!
註: 任何隨機變數 Y 都可以嘗試定義$E[Y] , Var[Y] $ 而且滿足 Chebyshev's inquality ,我們可以寫成
$$ Prob.(\{Y \in (E[Y] \pm k\sqrt{Var[Y]})\}) \geq 1- \frac{1}{k^2} $$
[抽樣的差異]
假如我們抽 $n$ 個人出來,如果沒講清楚,事實上有很多種抽法,而且數學描述也不一樣,也是統計教學鮮少提到的,是筆者曾經的疑惑,也是筆者想列出來分享與討論 !!
以下列出常見的抽法:
[1]第一種就是一次抓取 $n$ 個"不同"的人抽樣,類似超幾何分配(Hypergeometric distribution)的味道~,我們總共會有 ?? $$ |\{ S : S\subset \Omega , |S|=n \}| = \underbrace{C^{N}_{n}}_{\text{通俗寫法}} = \underbrace{\left( \begin{array}{c} N \\ n \\ \end{array} \right)}_{\text{正規寫法}}$$
這麼多種抽法 !!
[2]第二種就是一次抽一個人(不放回),第 $k$ 次抽取的人記做 $s_k , k = 1,2,3,...n$
depend set 寫法為
$$ s_1 \in \Omega \text{ and } s_k \in \Omega \setminus \{s_1,s_2,...s_{k-1}\} \quad \forall k = 2,3,...n , S:= \{ s_1, s_2 ,.....s_{n} | \text{they are all distinct} \} $$
[3]第三種就是一次抽一個人(放回),記法同上,差別在於我們可能抽到同樣的人 , $S$ 要寫成 vector 或是 tuple 或是 multiset
$$ s_k \in \Omega \quad \forall k = 1,2,3,...n , S \in \{ (s_1, s_2 ,.....s_{n}) \in \prod^{n}_{k=1}\Omega | \text{domain = $n$ copies of } \Omega \} $$
現實類比說明:
第一種抽樣就是一隻手抓取很多東西的概念 (1 trial - take $n$ different things)
第二種抽樣就像玩牌一次抽一張牌,越抽越少到抽完的概念 ($n$ trials - select different thing in the future)
第三種抽樣就是重複做一樣的事,如丟骰子,丟銅板,常見的獨立同分配 (iid) Bernoulli trials
的概念,許多統計學理論都建在這假設之上,包含大數法則(LLN),中央極限定理(CLT)
而統計學知識告訴我們,當母體個數$N$ 很大 ,第二種可以近似成第三種
再來就是一個 Claim ,第一種跟第二種是否等價或近似??
現實生活中大多是第一種抽樣情境!!,但理論上多使用第三種情境 !!
[樣本統計量]
不管抽樣方式如何,我們都會得到 $n$ 個值,可以用一個向量表示 $X_S := (X_{s_1},X_{s_2},.....X_{s_n}) \underset{\text{簡記}}{=} (X_1,......X_n)$
假如都抽到不同的 $s$ ($S$ 為一般的集合) 則可以推廣 Count , Frequency 函數
(注意: $X_{S}$ 裡面的值還是可能相同 , 由於 $|S|=n$ , 我們多個$n$ 變數 ,把 $S$ 記做 $S_n$)
$$ \text{Count}(x,S_n) := |\{ s\in S_n : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z} $$
$$\text{Frequency}(x,S_n) := \frac{ |\{ s\in S_n : X_s = x \}|}{n} \in [0,1] $$
而我們還可以定義熟知的樣本平均數與樣本變異數
$$ \bar{X}(S_n) := \frac{1}{n}\displaystyle{\sum_{s\in S_n} X_s} = \text{隨機變數相加} = \text{隨機變數} $$
$$ {\mathcal{S}^2}(S_n) := \frac{1}{n-1}\displaystyle{\left[\sum_{s\in S_n} (X_s - \bar{X})^2\right]} = \text{隨機變數相加} = \text{隨機變數} $$
而不偏性可以寫成 $$ E(\bar{X}) = E(X) = \underset{\text{母體未知參數}}{\mu} \quad E(\mathcal{S}^2) = \underset{\text{母體未知參數}}{\sigma^2} $$
[$\mu$ 的信賴區間]
而由於獨立同分布,我們又有 $$ Var(\bar{X}) = \frac{\sigma^2}{n}$$
由於 $n$ 在分母,標準差會越來越小,而且 $E(\bar{X}) = \mu$ + Chebyshev's inquality
告訴我們當樣本數夠大 $n \rightarrow \infty$ $\bar{X} \approx \mu$
而由中央極限定理(CLT)告訴我們不管母體是何種分布,當 $n$足夠大,一般來說為 $n\geq 30$ ,$$ \frac{(\bar{X}- \mu)}{\frac{\sigma}{\sqrt{n}}} \approx \text{Normal(0,1)} $$
也就是這個統計量長得像 Normal
我們知道 Normal(0,1)的在兩倍標準差的面積為 $$Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \underset{n \rightarrow \infty}{\approx} \underbrace{\frac{1}{\sqrt{2\pi}} \int^{2}_{-2} e^{-\frac{x^2}{2}}dx}_{\text{Normal cdf}} \approx 0.9545 $$
可以把左式寫成
$$Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \iff Prob.\left(\overset{\text{隨機變數}}{\bar{X}} \in \left[\mu \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]\right) \iff Prob.\left(\mu \in \overbrace{\left[ \bar{X} \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]}^{\text{隨機區間}}\right) \approx 0.9545 $$
而由於 Slutsky's theorem 的原因,我們可以用 $\mathcal{S}$ 估計 $\sigma$,於是我們得到 95\% 信賴區間的概念 $$ 95\% \quad \mu \in\left[ \bar{X} \pm 2\cdot\frac{\mathcal{S}}{\sqrt{n}}\right] = I_n $$
[$95\%$信賴區間的澄清]
當你真的抽樣 $n$ 個樣本後,
計算出一個值$\bar{X}(S_n) = \bar{x} $ 以及 $\mathcal{S}(S_n) = {\bf s}$會容易有誤解的概念
認為
$$95\% \text{ 的機會 } \mu \in [ \bar{x} \pm 2\cdot\frac{{ \bf s}}{\sqrt{n}}] \quad 5\% \text{ 的機會 } \mu \notin [ \bar{x} \pm 2\cdot\frac{\bf s}{\sqrt{n}}]$$
但事實上這概念是錯誤的!!
正確的解釋為我們需要再反覆批次做 $n$ 個樣本抽樣,假設我們做了 $m$ 次,總共抽出了 $m \times n$ 個樣本,抽取 $S^{1}_{n},...S^{m}_{n}$ ,分別為得到 $\bar{x}^1,.....\bar{x}^{m}$ 還可以計算出很多信賴區間 $I^{1}_n , ...... I^{m}_{n}$ 則 $95\%$ 是指當 $m$ 夠大
$$ \frac{\text{Number of Intevals s.t } \mu \in I^{m}_n }{m} \approx 95\% $$
也就是我們計算出來的區間們" ,有$95\%$"的比例會包含 $\mu$ ,而不是指 $95\% \mu$ 會落在特定的某個信賴區間的值 !!
另外對CLT的解釋,也可以利用算出來的 $\bar{x}^1,.....\bar{x}^{m}$ 畫直方圖,當 $n$ 夠大時,$m$夠多時,圖形就會接近常態!!
[小結]
以上為對於筆者用自己的集合筆法與角度重新解釋統計的概念,之後還會探討檢定,以及多變量分析,迴歸分析相關的想法
[定義有限母體]
日常生活中,母體的概念大家都能理解,很多很多個體。我們可以定義一個很大但有限的集合$\Omega$ ,每個獨一無二的個體記做 $s$ ,所以可以寫成 $s \in \Omega$
而全部個數記做 $N$ (現實生活中$N$很大通常未知,除非我們有能力有時間消耗大量成本做普查才能得知 $N$)
$$ |\Omega| = N $$
[ex:] 例如全台灣人,兩千三百萬人左右,則可以寫成 $N \approx 2300 \times 10^4$
而我們感興趣的可能是個體的可以量化的屬性(如:身高,成績),所以可以定義一個實數函數(real-valued function)
$$ X : \Omega \longrightarrow \mathbb{R} $$
[ex:] 例如阿元的月收入$\$$ 可以寫成 $X(阿元) = 22 \times 10^3$ 或是記做下標 $X_{阿元} = 22 \times 10^3$ ,而每個人的月收入有高有低,如果把那些"值"聯集起來,我們能說一定若在實數域裡面 !!
[屬性值有哪些]
數學上來說就是 range of $X$ , image of $X$
$$ X(\Omega) := \{ X_s \in \mathbb{R}: s\in \Omega \} = \bigcup_{s\in \Omega} \{ X_s\} \subset \mathbb{R} $$
這時我們可以把薪水的值記做 $x \in X(\Omega)$
[計數與比例]
這時大家會好奇說有沒有其他人跟我一樣的薪水,還有那群人在全台灣人佔了多少比例,所以會計算個數 (Count) ,以及比例 (Frequency) 。
正是數學定義如下:
$$ \text{Count}(x,\Omega) := |\{ s\in \Omega : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z} $$
$$\text{Frequency}(x,\Omega) := \frac{ |\{ s\in \Omega : X_s = x \}|}{N} \in [0,1] $$
注意: Count , Frequency 是函數,而且定義域為$X(\Omega)$ ,統計書上習慣記做 $n_{x} = \text{Count}(x,\Omega)$ , $p_{x}= \text{Frequency}(x,\Omega) = \frac{n_x}{N}$
我們還會得到下列兩個方程式,畫畫圓餅圖,直方圖 $$ \sum_{x \in X(\Omega)} n_x = N \quad \sum_{x\in X(\Omega)} p_x = 1$$
[平均的概念]
然後你會好奇全台灣人平均薪水為多少 ??
你可以有兩種邏輯方式計算!!
先把所有的收入加總再一起除以全台灣的人數
$$ \mu := \frac{\displaystyle{\sum_{x\in X(\Omega)} x \cdot n_x}}{N} $$
先把所有收入種類都先乘以占多少比例,在全部加總 !!
$$ \mu := \sum_{x\in X(\Omega)} x \cdot p_x $$
[機率模型上的比較]
如果你有學過機率模型,隨機變數的概念,你會發現符號完全一致 !!
$\Omega$ 為樣本空間,$\mu = E(X)$ 為母體平均數(期望值)
很自然 $\sigma^2 = Var(X)$ 為母體變異數可以寫成
$$ \sigma^2 := \sum_{x\in X(\Omega)} x^2 p_x - \mu^2 $$
$X$ 本身就是"隨機變數",而薪水是$x$ 的機率就為 $p_x$ !!
數學嚴格定義可以寫成
$$Prob.\left(\{ s\in U : X_s = x \}\right) = Prob.(\underbrace{X^{-1}(x))}_{\text{preimage}} = p_x$$
注意 : $p_x$ 與 $Prob. $雖然口語上都叫機率,但是意義上卻不同 $p_x$ 為一個母體決定後的固定的數,$Prob.$ 為測度 (Measure) 的概念 [詳細概念請參考測度論(Measure Theory)]
[利用母體參數描述母體]
或許有人會好奇說,我們計算的母體參數 $\mu$ , $\sigma$ 到底要幹嘛?? 能了解母體多少呢??
一個著名的不等式 Chebyshev's inquality ,不管母體長相,只要掌握 $\mu$ , $\sigma$,則告訴我們 $$ Prob.(\{X \in (\mu \pm k\sigma)\}) \geq 1- \frac{1}{k^2} \quad , k \in \mathbb{N} $$
如果 $k = 2$ 則我們可以得到一個結論 :
至少 75% 的人年收入都落在兩倍標準差 $\sigma$ 內 !! $X \in (\mu \pm 2\cdot \sigma )$
[註] 如果母體恰好是"常態分佈"(Normal Distribution),我們都知道 約有 95% 的人都落在兩倍標準差 $\sigma$內 !!
所以我們目標是計算母體參數 ,$\mu$ , $\sigma$ ,但你會發現計算這個值 ~ 需要知道整個 $X(\Omega)$ = 普查 !! 實務上不可能 ... 於是統計學的估計(Estimation)就誕生了。我們只能抽出一些人集合,也就是樣本 $S \subset \Omega$ 而且 $ n = |S| << N$ ,或寫成 $\frac{n}{N} \approx 0$,這邊的 $n$ 是樣本個數 !!
註: 任何隨機變數 Y 都可以嘗試定義$E[Y] , Var[Y] $ 而且滿足 Chebyshev's inquality ,我們可以寫成
$$ Prob.(\{Y \in (E[Y] \pm k\sqrt{Var[Y]})\}) \geq 1- \frac{1}{k^2} $$
[抽樣的差異]
假如我們抽 $n$ 個人出來,如果沒講清楚,事實上有很多種抽法,而且數學描述也不一樣,也是統計教學鮮少提到的,是筆者曾經的疑惑,也是筆者想列出來分享與討論 !!
以下列出常見的抽法:
[1]第一種就是一次抓取 $n$ 個"不同"的人抽樣,類似超幾何分配(Hypergeometric distribution)的味道~,我們總共會有 ?? $$ |\{ S : S\subset \Omega , |S|=n \}| = \underbrace{C^{N}_{n}}_{\text{通俗寫法}} = \underbrace{\left( \begin{array}{c} N \\ n \\ \end{array} \right)}_{\text{正規寫法}}$$
這麼多種抽法 !!
[2]第二種就是一次抽一個人(不放回),第 $k$ 次抽取的人記做 $s_k , k = 1,2,3,...n$
depend set 寫法為
$$ s_1 \in \Omega \text{ and } s_k \in \Omega \setminus \{s_1,s_2,...s_{k-1}\} \quad \forall k = 2,3,...n , S:= \{ s_1, s_2 ,.....s_{n} | \text{they are all distinct} \} $$
[3]第三種就是一次抽一個人(放回),記法同上,差別在於我們可能抽到同樣的人 , $S$ 要寫成 vector 或是 tuple 或是 multiset
$$ s_k \in \Omega \quad \forall k = 1,2,3,...n , S \in \{ (s_1, s_2 ,.....s_{n}) \in \prod^{n}_{k=1}\Omega | \text{domain = $n$ copies of } \Omega \} $$
現實類比說明:
第一種抽樣就是一隻手抓取很多東西的概念 (1 trial - take $n$ different things)
第二種抽樣就像玩牌一次抽一張牌,越抽越少到抽完的概念 ($n$ trials - select different thing in the future)
第三種抽樣就是重複做一樣的事,如丟骰子,丟銅板,常見的獨立同分配 (iid) Bernoulli trials
的概念,許多統計學理論都建在這假設之上,包含大數法則(LLN),中央極限定理(CLT)
而統計學知識告訴我們,當母體個數$N$ 很大 ,第二種可以近似成第三種
再來就是一個 Claim ,第一種跟第二種是否等價或近似??
現實生活中大多是第一種抽樣情境!!,但理論上多使用第三種情境 !!
[樣本統計量]
不管抽樣方式如何,我們都會得到 $n$ 個值,可以用一個向量表示 $X_S := (X_{s_1},X_{s_2},.....X_{s_n}) \underset{\text{簡記}}{=} (X_1,......X_n)$
假如都抽到不同的 $s$ ($S$ 為一般的集合) 則可以推廣 Count , Frequency 函數
(注意: $X_{S}$ 裡面的值還是可能相同 , 由於 $|S|=n$ , 我們多個$n$ 變數 ,把 $S$ 記做 $S_n$)
$$ \text{Count}(x,S_n) := |\{ s\in S_n : X_s = x \}| \in [0,|\Omega|]_\mathbb{Z} $$
$$\text{Frequency}(x,S_n) := \frac{ |\{ s\in S_n : X_s = x \}|}{n} \in [0,1] $$
而我們還可以定義熟知的樣本平均數與樣本變異數
$$ \bar{X}(S_n) := \frac{1}{n}\displaystyle{\sum_{s\in S_n} X_s} = \text{隨機變數相加} = \text{隨機變數} $$
$$ {\mathcal{S}^2}(S_n) := \frac{1}{n-1}\displaystyle{\left[\sum_{s\in S_n} (X_s - \bar{X})^2\right]} = \text{隨機變數相加} = \text{隨機變數} $$
而不偏性可以寫成 $$ E(\bar{X}) = E(X) = \underset{\text{母體未知參數}}{\mu} \quad E(\mathcal{S}^2) = \underset{\text{母體未知參數}}{\sigma^2} $$
[$\mu$ 的信賴區間]
而由於獨立同分布,我們又有 $$ Var(\bar{X}) = \frac{\sigma^2}{n}$$
由於 $n$ 在分母,標準差會越來越小,而且 $E(\bar{X}) = \mu$ + Chebyshev's inquality
告訴我們當樣本數夠大 $n \rightarrow \infty$ $\bar{X} \approx \mu$
而由中央極限定理(CLT)告訴我們不管母體是何種分布,當 $n$足夠大,一般來說為 $n\geq 30$ ,$$ \frac{(\bar{X}- \mu)}{\frac{\sigma}{\sqrt{n}}} \approx \text{Normal(0,1)} $$
也就是這個統計量長得像 Normal
我們知道 Normal(0,1)的在兩倍標準差的面積為 $$Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \underset{n \rightarrow \infty}{\approx} \underbrace{\frac{1}{\sqrt{2\pi}} \int^{2}_{-2} e^{-\frac{x^2}{2}}dx}_{\text{Normal cdf}} \approx 0.9545 $$
可以把左式寫成
$$Prob.\left(\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \in [-2,2]\right) \iff Prob.\left(\overset{\text{隨機變數}}{\bar{X}} \in \left[\mu \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]\right) \iff Prob.\left(\mu \in \overbrace{\left[ \bar{X} \pm 2\cdot\frac{\sigma}{\sqrt{n}}\right]}^{\text{隨機區間}}\right) \approx 0.9545 $$
而由於 Slutsky's theorem 的原因,我們可以用 $\mathcal{S}$ 估計 $\sigma$,於是我們得到 95\% 信賴區間的概念 $$ 95\% \quad \mu \in\left[ \bar{X} \pm 2\cdot\frac{\mathcal{S}}{\sqrt{n}}\right] = I_n $$
[$95\%$信賴區間的澄清]
當你真的抽樣 $n$ 個樣本後,
計算出一個值$\bar{X}(S_n) = \bar{x} $ 以及 $\mathcal{S}(S_n) = {\bf s}$會容易有誤解的概念
認為
$$95\% \text{ 的機會 } \mu \in [ \bar{x} \pm 2\cdot\frac{{ \bf s}}{\sqrt{n}}] \quad 5\% \text{ 的機會 } \mu \notin [ \bar{x} \pm 2\cdot\frac{\bf s}{\sqrt{n}}]$$
但事實上這概念是錯誤的!!
正確的解釋為我們需要再反覆批次做 $n$ 個樣本抽樣,假設我們做了 $m$ 次,總共抽出了 $m \times n$ 個樣本,抽取 $S^{1}_{n},...S^{m}_{n}$ ,分別為得到 $\bar{x}^1,.....\bar{x}^{m}$ 還可以計算出很多信賴區間 $I^{1}_n , ...... I^{m}_{n}$ 則 $95\%$ 是指當 $m$ 夠大
$$ \frac{\text{Number of Intevals s.t } \mu \in I^{m}_n }{m} \approx 95\% $$
也就是我們計算出來的區間們" ,有$95\%$"的比例會包含 $\mu$ ,而不是指 $95\% \mu$ 會落在特定的某個信賴區間的值 !!
另外對CLT的解釋,也可以利用算出來的 $\bar{x}^1,.....\bar{x}^{m}$ 畫直方圖,當 $n$ 夠大時,$m$夠多時,圖形就會接近常態!!
[小結]
以上為對於筆者用自己的集合筆法與角度重新解釋統計的概念,之後還會探討檢定,以及多變量分析,迴歸分析相關的想法
[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~]
by Plus & Minus 2017.12
留言
張貼留言