SF2 Regression Models

Regression Function

類似邊際函數的概念 $f(x) = E( Y | X = x )$ 理想上應要能用一個數學式表達這個世間的現象，不過因為有系統誤差，我們保守改寫為 $Y = f(x) + error$

也就是我們期待找到一個 $g(X)$ 使得所有的 $X = x$ 代入 $[Y-g(X)]^2$ 得到最小的值。其實就是在算 mean square error: $\frac{1}{n} \sum_{i=1}^{n}(Y - g(X))^2$ （等於下圖的公式），此值越小越好。

我們真正在解的 $g(X)$ 其實就是上述的 $\hat{f}(x)$ ，找出最佳估計理想中的 $f(x)$ 下面的例子是以 nearest neighbor averaging 作為 $\hat{f}(x)$ 為例

2.2

the curse of dimensionality: 多維度的 $x$ neighborhood 會讓區間變大，意即失準。為解決這問題，就需要有結構性的模型，最簡單的例子就是線性模型。

trade-off: Prediction accuracy vs. interpretability Good fit vs. over-fit vs. under-fit Parsimony vs. blackbox: 用少量的參數簡單的模型還是參數複雜的模型

2.3

mean square error: 每個訓練集代入模型後與實際結果的差異

$MSE = AVG[y_i - \hat{f}(x_i)]^2$

其中又可以細分訓練集的 $MSE_{TR}$ 及測試集的 $MSE_{TE}$，我們可以利用這兩個指標（又尤其後者）來衡量模型的好壞。這裡要特別提到 variance 和 bias ，公式說明如下：假設真實世界中存在一條真理為：

$Y=f(X)+\epsilon$ （ $\epsilon$ 為隨機誤差）

而我們現實世界能得到的為：

$\hat{f}(x)$ （ $x$ 為實際取得的資料點）

則我們得到的 expected prediction error 可以表示成：

Variance: $Var(\hat{f}(x_0))$ 是來自不同的訓練集所生成的不同 $\hat{f}()$ 帶入相同的觀察點 $x_0$ 所產生的變異量，也就是信度。 Bias: $[Bias(\hat{f}(x_0))]^2 = [f(x_0)-E(\hat{f}(x_0))]^2$ ，為真理與模型期望的差距，也就是效度。就應用面而言，我們比較不在意訓練集的誤差有多大，我們在意的是測試集的誤差（也就是預期結果），但這兩者相輔相成。依照上述的公式，可以得到下面的結論：

彈性越大的模型，越容易受到訓練集的影響而生成差異大的 $\hat{f}()$ 而導致 variance 大
彈性越大的模型，通常參數越多，也往往 $MSE_{TR}$ 越小（但也不一定，最極端的例子就是 predictor 本身就是 y 或是一堆 random predictor ）
彈性越大的模型，越可能符合真理，也就是效度較高，Bias 較小。
無論是 variance 或是 bias ，兩者我們稱為 reducible error。（也就是人為可控制的因素）

2.4

classification problem: 找出最佳的 $C(X)$ 假設有 $1,...,K$ 個分類，則觀察值 $x$ 在每個分類的機率為 $p_k(x)=Pr(Y=k|X=x), k= 1,...K$ 而 Bayes Optimal 就是找出在已知的觀察值下，最大的可能分類為何：

$C(x)=j,\;if \; p_j(x) = max{\;p_1(x),...p_K(x)\;}$

2.7

A flexible model will allow us to take full advantage of our large sample size. when $Var(\epsilon)$ is extremely high: A flexible model will cause us to fit too much of the noise in the problem.

Category: Stat
Tags: Stat

YD

YD's blog

Posted 三 15 3月 2017

SF2 Regression Models

Regression Function

2.2

2.3

2.4

2.7