資料探勘,從字面上理解,就是在資料中找到有用的東西,哪些東西有用就要看具體的業務目標了。最簡單的就是統計應用了,比如電商資料,如淘寶統計過哪個省購買泳衣最多、哪個省的女生胸罩最大等,進一步,可以基於使用者的瀏覽、點選、收藏、購買等行為推斷使用者的年齡、性別、購買能力、愛好等能表示一個人的畫像,就相當於用這些挖掘出來的屬性來刻畫一個人,這些還是最簡單的東西,更深層次的比如預測(股票預測),但是比較難。
資料探勘的做法和意思如下:
1、資料探勘通常需要有資訊收集、資料整合、資料規約、資料清理、資料變換、資料探勘實施過程、模式評估和知識表示8個步驟。
2、資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘,又譯為資料探勘、資料採礦。它是資料庫知識發現中的一個步驟。資料探勘一般是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。
資料探勘利用了來自一些領域的思想:來自統計學的抽樣、估計和假設檢驗。人工智慧、模式識別和機器學習的搜尋演算法、建模技術和學習理論。
資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最最佳化、進化計算、資訊理論、訊號處理、視覺化
統計分析與資料探勘有很大區別,具體區別表現在以下方面:
1、資料量:資料分析的資料量可能並不大,而資料探勘的資料量極大;
2、約束:資料分析是從一個假設出發,需要自行建立方程或模型來與假設吻合,而資料探勘不需要假設,可以自動建立方程;
3、物件:資料分析往往是針對數字化的資料,而資料探勘能夠採 ...
1、決策樹方法。其核心思想是選取具有最高資訊增益的屬性,即相對於資訊熵最高的屬性,可參考維基百科中二者的計算公式作為當前節點的分裂屬性。
2、人工神經網路。人工神經網路,是對人腦若干基本特性的抽象。它由大量神經元透過豐富的連線構成多層網路,用以模擬人腦功能。
3、支援向量機。支援向量機,是20世紀 ...
1、《資料探勘與知識發現》,作者李雄飛,本書詳盡地闡述了資料探勘與知識發現領域中的一些基本理論和研究方法。介紹了資料探勘的概念、資料探勘物件、知識發現過程、研究方法以及相關研究領域和應用範圍,可供有關科技人員學習參考;
2、《資料探勘概念與技術》,2007年由機械工業出版社出版的圖書,本書全面地講述資 ...
資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,包括機器學習、數理統計、神經網路、資料庫、模式識別、粗糙集、模糊數學等相關技術。資料探勘的技術可分為:統計方法、機器學習方法、神經網路方法和資料庫方 ...
1、 統計學
統計學是最基本的資料探勘技術,特別是多元統計分析。
2、 聚類分析和模式識別
聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。
3、 決策樹分類技術
決策樹分類是根據不同的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發 ...
資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關係性的資訊的過程,資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統和模式識別等諸多方法來實現上述目標。數學建模就是使用數學方法解決實際應用問題;數學建模是應用學科的核心內容,任何一門科學都是在數學的框架下表達自 ...
1、 Weka:WEKA作為一個公開的資料探勘工作平臺,集合了大量能承擔資料探勘任務的機器學習演算法,包括對資料進行預處理,分類,迴歸、聚類、關聯規則以及在新的互動式介面上的視覺化;
2、 Rapid Miner:RapidMiner是世界領先的資料探勘解決方案,在一個非常大的程度上有著先進技術。它資 ...