Support Of Value In Practice

現實生活中，很很多資料，不管是文字跟數字，代表的意義也不同，但在實作運算上需要特別注意，本文先介紹一些常見的類型，值域型態 :

統計學基本上有分成四種類型資料 (level of measurement)

1.名目尺度(Nominal) :
任意兩元素只能區分相同與不相同

例如 :
[1] $X_i = \{ \text{apple} , \text{bananas} \}$
[2] $X_i = \{ \text{mac} , \text{windows} , \text{linux} \}$
[3] $X_i = \{True = 1 , False = 0 \}$
注意: 模糊理論(Fuzzy Theory) 有對於 Boolean 集合論隸屬關係 $\in$ {0,1} 拓展到 [0,1] ，定義模糊的概念
注意: 資工方面，常常會把文字"string"資料轉數字"int" ，如: Hash function

2.順序尺度(Ordinal) :
任意兩元素可以區分不同，也可以有大小排序，但不能運算出其差距

例如 : 排名，偏好 $X_i = \{ 1 = 1st , 2 = 2nd , 3 = 3rd , 4 = 4th \}$

3.等距尺度(Interval):
任意兩元素可以區分不同，也可以有大小排序，也可以計算其差距，但是沒有參考原點(理想點)，不能做乘除運算，不能探討倍數關係
例如: 攝氏溫標 85度C 的 2倍 $\neq$ 170度C
例如: 絕對時刻碼表上的 3秒兩倍未必是 6秒 (除非你從 0 秒開始算)

4.等比尺度(Ratio)
任意兩元素可以區分不同，也可以有大小排序，也可以計算其差距，可以做乘除運算
有參考原點 "0" 與單位長 "1 - 0"的概念，可以利用參考原點計算出變化 $\Delta$
例如: 計量 $X_i = \{ 1=1個，2=2個，3=3個，.... \}$

數學上常見可以分成(尤其在定義機率論值域的時候0)

1. Discrete(離散型)

[1] Finite
例如: 二項分布$Binomial(n,p) \quad X_i = \{0,1,2,3,....n\} \quad n \in \mathbb{N}$

[2] Countable
例如: 卜松分布$Poisson(\lambda) \quad X_i = \{0,1,2,3,4,..... \} = \mathbb{N} \cup \{0\}$

2. Continuous(連續型)

[1] 雙閉區間(closed interval)
例如: $[2,10]$ , $[0,M]$

[2] 雙開區間(open interval)
例如: $(3,8)$，$(-\infty,\infty) = \mathbb{R}$
注意 : 程式實作上通常是雙閉(由於閉區間在數學上性質比較好，Extreme value theorem)，像 $(3,8)$ 可能寫成 $[3\pm \epsilon_1,8\pm \epsilon_2] $，$(-\infty,\infty)$ 寫成 $[-M,M]$

[3] 一半一開(half-open , half-closed)
例如: (0,100] , [0,100) , [0,$\infty$) 時間軸

[4] finite union (有限個聯集)
例如: $[1,3] \cup (4,5] \cup (6,7) \cup \{4\}$
[5] countable union (可數無限個聯集)

例如: $\bigcup_{n\in \mathbb{N} }[n,n+1)$

[以上純為學術經驗交流知識分享，如有錯誤或建議可留言~~]

by Plus & Minus 2017.08

搜尋此網誌

Support Of Value In Practice

留言

張貼留言

這個網誌中的熱門文章

Chain Rule & Identity Function Trick

General Solution Of Eigen System In Linear Algebra

All Different Expansion & Bell Numbers