數(shù)據(jù)挖掘經(jīng)典算法匯總

參加大叔培訓(xùn)學(xué)習(xí)的一定知道數(shù)據(jù)挖掘,那么數(shù)據(jù)挖掘的算法在參加大數(shù)據(jù)培訓(xùn)班的時(shí)候要講多少個(gè)呢,答案肯定是不會(huì)全部講述的,那樣也不太現(xiàn)實(shí),今天我們就來(lái)了解一下大數(shù)據(jù)培訓(xùn)中有的或者是沒(méi)有的數(shù)據(jù)挖掘的算法。

數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。 為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類(lèi)型的模式和趨勢(shì)。

大數(shù)據(jù)培訓(xùn)

1:C4.5

C4.5就是一個(gè)決策樹(shù)算法,它是決策樹(shù)(決策樹(shù)也就是做決策的節(jié)點(diǎn)間像一棵樹(shù)一樣的組織方式,其實(shí)是一個(gè)倒樹(shù))核心算法ID3的改進(jìn)算法,所以基本上了解了一半決策樹(shù)構(gòu)造方法就能構(gòu)造它。

2:CART

CART也是一種決策樹(shù)算法!相對(duì)于上著有條件實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹(shù)的多元分類(lèi),CART只是分類(lèi)兩個(gè)子樹(shù),這樣實(shí)現(xiàn)起來(lái)稍稍簡(jiǎn)便些。所以說(shuō)CART算法生成的決策樹(shù)是結(jié)構(gòu)簡(jiǎn)潔的二叉樹(shù)。

3:KNN(K Nearest Neighbours)

這個(gè)很簡(jiǎn)單,就是看你周?chē)腒個(gè)人(樣本)中哪個(gè)類(lèi)別的人占的多,哪個(gè)多,那我就是多的那個(gè)。實(shí)現(xiàn)起來(lái)就是對(duì)每個(gè)訓(xùn)練樣本都計(jì)算與其相似度,是Top-K個(gè)訓(xùn)練樣本出來(lái),看這K個(gè)樣本中哪個(gè)類(lèi)別的多些,誰(shuí)多跟誰(shuí)。

4:Naive Bayes(樸素貝葉斯NB)

NB認(rèn)為各個(gè)特征是獨(dú)立的,誰(shuí)也不關(guān)誰(shuí)的事。所以一個(gè)樣本(特征值的集合,比如“數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)2次,“文件”出現(xiàn)1次),可以通過(guò)對(duì)其所有出現(xiàn)特征在給定類(lèi)別的概率相乘。比如“數(shù)據(jù)結(jié)構(gòu)”出現(xiàn)在類(lèi)1的概率為0.5,“文件”出現(xiàn)在類(lèi)1的概率為0.3,則可認(rèn)為其屬于類(lèi)1的概率為0.5*0.5*0.3。

5:Support Vector Machine(支持向量機(jī)SVM)

SVM就是想找一個(gè)分類(lèi)得最”好”的分類(lèi)線/分類(lèi)面(最近的一些兩類(lèi)樣本到這個(gè)”線”的距離最遠(yuǎn))。這個(gè)沒(méi)具體實(shí)現(xiàn)過(guò),上次聽(tīng)課,那位老師自稱(chēng)自己實(shí)現(xiàn)了SVM,敬佩其鉆研精神。常用的工具包是LibSVM、SVMLight、MySVM。

6:EM(期望最大化)

這個(gè)我認(rèn)為就是假設(shè)數(shù)據(jù)時(shí)由幾個(gè)高斯分布組成的,所以最后就是要求幾個(gè)高斯分布的參數(shù)。通過(guò)先假設(shè)幾個(gè)值,然后通過(guò)反復(fù)迭代,以期望得到最好的擬合。

7:Apriori

這個(gè)是做關(guān)聯(lián)規(guī)則用的。不知道為什么,一提高關(guān)聯(lián)規(guī)則我就想到購(gòu)物籃數(shù)據(jù)。這個(gè)沒(méi)實(shí)現(xiàn)過(guò),不過(guò)也還要理解,它就是通過(guò)支持度和置信度兩個(gè)量來(lái)工作,不過(guò)對(duì)于Apriori,它通過(guò)頻繁項(xiàng)集的一些規(guī)律(頻繁項(xiàng)集的子集必定是頻繁項(xiàng)集等等啦)來(lái)減少計(jì)算復(fù)雜度。

8:FP-Tree

(Mining frequent patterns without candidate generation)

這個(gè)也不太清楚。FP-growth算法(Frequent Pattern-growth)使用了一種緊縮的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)查找頻繁項(xiàng)集所需要的全部信息。采用算法:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵FP-tree來(lái)保留項(xiàng)集關(guān)聯(lián)信息,然后將壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù)(一種特殊類(lèi)型的投影數(shù)據(jù)庫(kù)),每個(gè)條件數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)集。

9:PageRank

大名鼎鼎的PageRank大家應(yīng)該都知道(Google靠此專(zhuān)利發(fā)家,其實(shí)也不能說(shuō)發(fā)家啦!)。對(duì)于這個(gè)算法我的理解就是:如果我指向你(網(wǎng)頁(yè)間的連接)則表示我承認(rèn)你,則在計(jì)算你的重要性的時(shí)候可以加上我的一部分重要性(到底多少,要看我自己有多少和我共承認(rèn)多少個(gè)人)。通過(guò)反復(fù)這樣來(lái),可以求的一個(gè)穩(wěn)定的衡量各個(gè)人(網(wǎng)頁(yè))重要性的值。不過(guò)這里必須要做些限制(一個(gè)人的開(kāi)始默認(rèn)重要性都是1),不然那些值會(huì)越來(lái)越大越來(lái)越大。

10:HITS

HITS也是一個(gè)連接分析算法,它是由IBM首先提出的。在HITS,每個(gè)節(jié)點(diǎn)(網(wǎng)頁(yè))都有一個(gè)重要度和權(quán)威度(Hubs and authorities,我也忘了具體的翻譯是什么了)。通過(guò)反復(fù)通過(guò)權(quán)威度來(lái)求重要度,通過(guò)重要度來(lái)求權(quán)威度得到最后的權(quán)威度和重要度。

11:K-Means

K-Means是一種最經(jīng)典也是使用最廣泛的聚類(lèi)方法,時(shí)至今日扔然有很多基于其的改進(jìn)模型提出。K-Means的思想很簡(jiǎn)單,對(duì)于一個(gè)聚類(lèi)任務(wù)(你需要指明聚成幾個(gè)類(lèi),當(dāng)然按照自然想法來(lái)說(shuō)不應(yīng)該需要指明類(lèi)數(shù),這個(gè)問(wèn)題也是當(dāng)前聚類(lèi)任務(wù)的一個(gè)值得研究的課題),首先隨機(jī)選擇K個(gè)簇中心,然后反復(fù)計(jì)算下面的過(guò)程直到所有簇中心不改變(簇集合不改變)為止。

12:BIRCH

BIRCH也是一種聚類(lèi)算法,其全稱(chēng)是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH也是只是看了理論沒(méi)具體實(shí)現(xiàn)過(guò)。是一個(gè)綜合的層次聚類(lèi)特征(Clustering Feature, CF)和聚類(lèi)特征樹(shù)(CF Tree)兩個(gè)概念,用于概括聚類(lèi)描述。聚類(lèi)特征樹(shù)概括了聚類(lèi)的有用信息,并且占用空間較元數(shù)據(jù)集合小得多,可以存放在內(nèi)存中,從而可以提高算法在大型數(shù)據(jù)集合上的聚類(lèi)速度及可伸縮性。

13:AdaBoost

AdaBoost做分類(lèi)的一般知道,它是一種boosting方法。這個(gè)不能說(shuō)是一種算法,應(yīng)該是一種方法,因?yàn)樗梢越⒃谌魏我环N分類(lèi)算法上,可以是決策樹(shù),NB,SVM等。

Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器)。

14:GSP

GSP,全稱(chēng)為Generalized Sequential Pattern(廣義序貫?zāi)J?,是一種序列挖掘算法。GSP類(lèi)似于Apriori算法,采用冗余候選模式的剪除策略和特殊的數(shù)據(jù)結(jié)構(gòu)-----哈希樹(shù)來(lái)實(shí)現(xiàn)候選模式的快速訪存。

15:PrefixSpan

又是一個(gè)類(lèi)似Apriori的序列挖掘。

在上邊的數(shù)據(jù)挖掘算法中其中經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。