YD's blog

Posted 五 26 2月 2016

巨量資料概述

對於大數據處理,首先為資料採集與倉儲,可使用關聯資料庫如MySQL、Oracle結構存取每一筆數據,或是使用NoSQL資料庫如MongoDB或Redis。而當資料從資料庫導入至其他群集進行更高階的運算處理前,會對資料做預處理的動作如Elasticsearch,進行流式計算,達到實時業務的計算的需求。因牽涉巨量分析,實作上會對倉儲於資料庫以分散式計算進行資料的描述分析及分類彙總,,在這方面,若為半結構化資料的需求可採用Hadoop或是Spark。往往對於巨量資料沒有往往對於巨量資料沒有預設的主題進行分析,對於資料探勘而言,主要是利用既有資料進行各種算法的計算如類聚法的NaiveBayes、Kmeans、SVM及隨機森林等,從算完的結果導出一個合適的模型進行預測。...以上只是非常籠統的說明XD

Category: WorkNote
Tags: Stuff