1、 統計學
統計學是最基本的資料探勘技術,特別是多元統計分析。
2、 聚類分析和模式識別
聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。
3、 決策樹分類技術
決策樹分類是根據不同的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發現規律。
4、 人工神經網路和遺傳基因演算法
人工神經網路是一個迅速發展的前沿研究領域,對計算機科學 人工智慧、認知科學以及資訊科技等產
1、 統計學
統計學是最基本的資料探勘技術,特別是多元統計分析。
2、 聚類分析和模式識別
聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。
3、 決策樹分類技術
決策樹分類是根據不同的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發現規律。
4、 人工神經網路和遺傳基因演算法
人工神經網路是一個迅速發展的前沿研究領域,對計算機科學 人工智慧、認知科學以及資訊科技等產
資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,包括機器學習、數理統計、神經網路、資料庫、模式識別、粗糙集、模糊數學等相關技術。資料探勘的技術可分為:統計方法、機器學習方法、神經網路方法和資料庫方法。而統計方法可細分為:迴歸分析、判別分析。神經網路方法可細分為:前向神經網路、自組織神經網路等。資料庫方法主要是基於視覺化的多維資料分析或OLAP方法,另外還有面向屬性的歸納方法。
1、決策樹方法。其核心思想是選取具有最高資訊增益的屬性,即相對於資訊熵最高的屬性,可參考維基百科中二者的計算公式作為當前節點的分裂屬性。
2、人工神經網路。人工神經網路,是對人腦若干基本特性的抽象。它由大量神經元透過豐富的連線構成多層網路,用以模擬人腦功能。
3、支援向量機。支援向量機,是20世紀90年代Vapnik等人根據統計學習理論中結構風險最小化原則提出的一種機器學習方法。
4、正則化方法。正則化方法用模型係數的絕對值函式作為懲罰來壓縮模型係數,使絕對值較小