YD's blog

Posted 六 12 3月 2016

K-means

$$J=\sum_{i=1}^{k}\sum_{x_j \in S_i}(x_j-\mu_i)$$


簡單來說一下公式的意義,若欲分類k組,隨機選取k筆資料當做初始群中心並計算每個資料xi對應到的最短距離的群中心。再利用分類完的k群重新計算群中心。
因此不難察覺,K-means的侷限為初始值,同一筆資料跑了n次的結果可能都不一樣,所以初始值落點不好可能會造成糟糕的結果。
K-means當然也不只是分群及找出群中心如此而已還是有其他用途。基於資料的群中心被找出後,我們可以把這個群中心的結果當成分類器的指標,也就是說,若有新的一筆同一屬性資料進來,找出最短距離的群中心,我們就可以將這筆資料進行分類(預測)。
另外也可以作為判斷此資料是否適合做為分類的判斷,因為有些特徵(feature)不適合做為分類依據。對此,我們可以先根據特徵取得群中心後,將資料找出距離最短特徵的群中心分類後,檢視分類情況,以確保該特徵為分類的是適切性。

Category: Stat
Tags: Stat