開心生活站

位置:首頁 > IT科技 > 

數據預處理技術有哪些

IT科技2.54W

有四種數據預處理技術:

數據預處理技術有哪些

1、數據清理。空缺值處理、格式標準化、異常數據清除、錯誤糾正、重複數據的清除。

2、數據集成。將多個數據源中的數據結合起來並統一存儲,建立數據倉庫的過程實際上就是數據集成。

3、數據變換。平滑、聚集、規範化、最小 最大規範化等。

4、數據歸約。維歸(刪除不相關的屬性(維))、數據壓縮(PCA,LDA,SVD、小波變換)、數值歸約(迴歸和對數線形模型、線形迴歸、對數線形模型、直方圖)。

現實世界中數據大體上都是不完整,不一致的髒數據,無法直接進行數據挖掘,或挖掘結果差強人意。爲了提高數據挖掘的質量產生了數據預處理技術。 數據預處理有多種方法:數據清理,數據集成,數據變換,數據歸約等。這些數據處理技術在數據挖掘之前使用,大大提高了數據挖掘模式的質量,降低實際挖掘所需要的時間。數據清理例程通過填寫缺失的值、光滑噪聲數據、識別或刪除離羣點並解決不一致性來“清理”數據。主要是達到如下目標:格式標準化,異常數據清除,錯誤糾正,重複數據的清除。數據挖掘時往往數據量非常大,在少量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍然接近於保持原數據的完整性,並結果與歸約前結果相同或幾乎相同。

標籤:預處理 技術