Processing math: 0%
跳到主要內容

Support Of Value In Practice


現實生活中,很很多資料,不管是文字跟數字,代表的意義也不同,但在實作運算上需要特別注意,本文先介紹一些常見的類型,值域型態 :

統計學基本上有分成四種類型資料 (level of measurement)

1.名目尺度(Nominal) :  
任意兩元素只能區分相同與不相同

例如 :      
[1] X_i = \{ \text{apple} , \text{bananas} \}
[2] X_i = \{ \text{mac} , \text{windows} , \text{linux} \}
[3] X_i = \{True = 1 , False = 0 \}
注意: 模糊理論(Fuzzy Theory) 有對於 Boolean 集合論隸屬關係 \in {0,1} 拓展到 [0,1] ,定義模糊的概念
注意: 資工方面,常常會把文字"string"資料轉數字"int" ,如:  Hash function

2.順序尺度(Ordinal) :   
任意兩元素可以區分不同,也可以有大小排序,但不能運算出其差距
例如 :     排名,偏好  X_i = \{ 1 = 1st , 2 = 2nd , 3 = 3rd , 4 = 4th  \}
             
3.等距尺度(Interval):     
任意兩元素可以區分不同,也可以有大小排序,也可以計算其差距,但是沒有參考原點(理想點),不能做乘除運算,不能探討倍數關係
例如:  攝氏溫標  85度C 的 2倍 \neq 170度C
例如:  絕對時刻  碼表上的 3秒 兩倍未必是 6秒 (除非你從 0 秒開始算)

4.等比尺度(Ratio) 
任意兩元素可以區分不同,也可以有大小排序,也可以計算其差距,可以做乘除運算
有參考原點 "0" 與單位長 "1 - 0"的概念,可以利用參考原點計算出變化 \Delta  
例如:  計量  X_i = \{ 1=1個,2=2個,3=3個,.... \}
       
數學上常見可以分成(尤其在定義機率論值域的時候0)
1. Discrete(離散型)
[1] Finite
例如:  二項分布Binomial(n,p)  \quad X_i = \{0,1,2,3,....n\} \quad  n \in \mathbb{N}    
[2] Countable
例如:  卜松分布Poisson(\lambda) \quad   X_i = \{0,1,2,3,4,.....   \} = \mathbb{N} \cup \{0\}

2. Continuous(連續型)
[1] 雙閉區間(closed interval)
例如:  [2,10] , [0,M]   
[2] 雙開區間(open interval)   
例如:  (3,8)(-\infty,\infty) = \mathbb{R}
注意 :  程式實作上通常是雙閉(由於閉區間在數學上性質比較好,Extreme value theorem),(3,8) 可能寫成 [3\pm \epsilon_1,8\pm \epsilon_2] (-\infty,\infty) 寫成 [-M,M]  
[3] 一半一開(half-open , half-closed) 
例如: (0,100] , [0,100) , [0,\infty) 時間軸
[4] finite union (有限個聯集)
例如: [1,3] \cup (4,5] \cup (6,7) \cup \{4\}
[5] countable union (可數無限個聯集)
例如: \bigcup_{n\in \mathbb{N} }[n,n+1) 


[以上純為學術經驗交流知識分享,如有錯誤或建議可留言~~] 
by Plus & Minus 2017.08






留言

這個網誌中的熱門文章

Nash Equilibrium & Best Responce Function (BRF) In Continuous Strategies

經濟學重要的賽局理論( Game Theory )領域,用數學描述人與人之間的理性互動,最重要的就是尋找奈許均衡( Nash equilibrium ), 本篇介紹其數學規劃與非線性方程組!!  假設有 p 名玩家(player i),i=1,2,3,4,5,....p , 正在玩一場遊戲(Game)~~,完全不合作,各自獨立作決策 每個人有決策向量 x_i \in \Omega_i \subseteq R^{n_i} (有n_i個決策變數)  定義長向量: \underbrace{x =  (x_1,x_2,x_3,....x_p)}_{\# \text{ of } \sum^{p}_{i=1}n_i \text{ variables }} \in  \prod^{p}_{i=1} \Omega_i = \Omega 對於每個 player i ,長向量可以寫成 x = (x_i , x_{-i})x_{-i} 代表其他人(不是 player i) 能做的決策向量。 所有人各自作決策後,每個人都會個自的存在報酬效用函數 f_i (x)  \in \mathbb{R}  (報酬函數皆為公開已知資訊) 假設每位玩家是理性人(會極大化自己效用) 即 \forall i = 1,2,3,4....p \qquad  \underset{x_i \in \Omega_i}{\text{max }}f_i(x)   [註: 如果為合作可視為多目標規劃問題( multiobjective ),即 x_1,x_2,...x_p 可以由領導人一起決定] [註: 如果為合作而且把效用加總,即目標式變成 \sum_{i=1}^{p} f_i(x) ,可能對集體效益有更大的幫助,但是如何分配效益給 ( player i )會是個議題,可以查關鍵字 fair optimization ] 我們可以定義每個 player i 的 Best Response Function (BRF) or Best Reponce Set S_i(x_{-i}) \subset \Omega_i $$  S_i(x...

Lattice & Multinomial Theorem

本文介紹格子點(Lattice) 幾何意義與多項式定理(Mutinomial Theorem) 的關係,並可協助我們理解計算一些機率問題。 [符號定義] 非負整數 / 非負實數:  \mathbb{Z}_{\geq 0} := \{0,1,2,3,4,......\}  \subseteq [0,\infty) =: \mathbb{R}_{\geq 0} 離散機率向量:  p_{I} := (p_{i})_{i \in I} \text{ s.t } \sum_{i\in I}p_i =1 ,|I|<\infty  發生事件 i \in I 的累積次數向量: k_{I} := (k_i)_{i \in I} \in \mathbb{Z}^{|I|}_{\geq 0} \mathbb{Z}^{|I|}_{\geq 0} 就是 |I| 維格子點 !! [格子點情境] 出發點定義為 k^{start}_{I}:= \overbrace{(0,0...,0)}^{|I|},今發生一次 p_{I} 分布隨機互斥事件,等價於"點的移動"(state transition),數學定義如下:   \text{Event } i  \text{ happens }  \Longleftrightarrow  \overbrace{(\color{red}{k_i},k_{-i})}^{k^{old}_{I}}  \underset{\text{with probability }p_{i}}{\longrightarrow}   \overbrace{(\color{red}{k_i+1},k_{-i})}^{ k^{new}_{I}}    PS1: 其中  k_{-i} := (k_{i'})_{i' \in I-\{i\}} PS2: 不管怎麼走都在第一象限,也就是只能往右,往上,往高.... 當發生 n 次獨立同分布 p_{I} (iid) 的事件後,所有可能點位置在以下的集合上 $$  S_{n}(\col...

Linear Regression By Using Linear Programming

當拿到一筆資料準備玩統計,往往會想要做線性迴歸( Linear Regression ),找出一個模型( mathematical model )來解釋變數間的關係,一般都是使用平方距離,但是如果我們採用絕對值距離呢?? 而剛好在工業工程( Industrial Engineering ),作業研究( Operation Research ) 領域,發展成熟的線性規劃( Linear Programming ) 恰好可以來解決,是一個跨領域的應用 !! 已經存在有許多商業或open source 軟體,如: Gurobi , Cplex , Xpress , Mosek , SCIP  可以輕易求解大型的線性規劃問題。而不僅如此也可以利用整數規劃( Integer Programming )來做特徵選擇 ( Feature Selection ),甚至可以偵測離群值( Detect Outlier ) !! 本文只介紹最小絕對值和,關於 Feature Selection , Detect Outlier 可以參考 Mixed-Integer Linear Programming Robust Regression with Feature Selection , Oleksii Omelchenko , 2010 的論文。 [Data Fitting Problem] 給定n筆實數型訓練資料 (training data) \{(x^{k},y^{k})\}^{n}_{k=1} = \mathcal{D} , x^{k} =(x^{k}_1,x^{k}_2, ... , x^{k}_{p})\in \mathbb{R}^{p} , y^{k} \in \mathbb{R} , 我們目標是想要找到一個函數 f_{\mathcal{D}} : \mathbb{R}^p \rightarrow \mathbb{R} 使得  \forall x \in \mathbb{R}^{p} , f_{\mathcal{D}}(x) \approx y , 精確來說: $$ \text{Find } f_{\mathcal{D}} \text{ such that } f_{\mathcal{D}}(x)\...