SF2 Regression Models
Regression Function
類似邊際函數的概念 $f(x) = E( Y | X = x )$ 理想上應要能用一個數學式表達這個世間的現象,不過因為有系統誤差,我們保守改寫為 $Y = f(x) + error$
也就是我們期待找到一個 $g(X)$ 使得所有的 $X = x$ 代入 $[Y-g(X)]^2$ 得到最小的值。其實就是在算 mean square error: $\frac{1}{n} \sum_{i=1}^{n}(Y - g(X))^2$ (等於下圖的公式),此值越小越好。
我們真正在解的 $g(X)$ 其實就是上述的 $\hat{f}(x)$ ,找出最佳估計理想中的 $f(x)$ 下面的例子是以 nearest neighbor averaging 作為 $\hat{f}(x)$ 為例
2.2
the curse of dimensionality: 多維度的 $x$ neighborhood 會讓區間變大,意即失準。為解決這問題,就需要有結構性的模型,最簡單的例子就是線性模型。
trade-off: Prediction accuracy vs. interpretability Good fit vs. over-fit vs. under-fit Parsimony vs. blackbox: 用少量的參數簡單的模型還是參數複雜的模型
2.3
mean square error: 每個訓練集代入模型後與實際結果的差異
$MSE = AVG[y_i - \hat{f}(x_i)]^2$
其中又可以細分 訓練集的 $MSE_{TR}$ 及 測試集的 $MSE_{TE}$,我們可以利用這兩個指標(又尤其後者)來衡量模型的好壞。 這裡要特別提到 variance 和 bias ,公式說明如下: 假設真實世界中存在一條真理為:
$Y=f(X)+\epsilon$ ( $\epsilon$ 為 隨機誤差)
而我們現實世界能得到的為:
$\hat{f}(x)$ ( $x$ 為實際取得的資料點)
則我們得到的 expected prediction error 可以表示成:
Variance: $Var(\hat{f}(x_0))$ 是來自不同的訓練集所生成的不同 $\hat{f}()$ 帶入相同的觀察點 $x_0$ 所產生的變異量,也就是信度。 Bias: $[Bias(\hat{f}(x_0))]^2 = [f(x_0)-E(\hat{f}(x_0))]^2$ ,為真理與模型期望的差距,也就是效度。 就應用面而言,我們比較不在意訓練集的誤差有多大,我們在意的是測試集的誤差(也就是預期結果),但這兩者相輔相成。依照上述的公式,可以得到下面的結論:
- 彈性越大的模型,越容易受到訓練集的影響而生成差異大的 $\hat{f}()$ 而導致 variance 大
- 彈性越大的模型,通常參數越多,也往往 $MSE_{TR}$ 越小(但也不一定,最極端的例子就是 predictor 本身就是 y 或是一堆 random predictor )
- 彈性越大的模型,越可能符合真理,也就是效度較高,Bias 較小。
- 無論是 variance 或是 bias ,兩者我們稱為 reducible error。(也就是人為可控制的因素)
2.4
classification problem: 找出最佳的 $C(X)$ 假設有 $1,...,K$ 個分類,則觀察值 $x$ 在每個分類的機率為 $p_k(x)=Pr(Y=k|X=x), k= 1,...K$ 而 Bayes Optimal 就是找出在已知的觀察值下,最大的可能分類為何:
$C(x)=j,\;if \; p_j(x) = max{\;p_1(x),...p_K(x)\;}$
2.7
A flexible model will allow us to take full advantage of our large sample size. when $Var(\epsilon)$ is extremely high: A flexible model will cause us to fit too much of the noise in the problem.