日前預(yù)測(cè)分析與其應(yīng)用都極為火熱,垃圾郵件,單詞補(bǔ)全,推薦引擎,分類等等;R和Python作為目前全世界數(shù)據(jù)科學(xué)家最常用的兩種語言,有著很多適用于不同建模技術(shù)和應(yīng)用場(chǎng)景的擴(kuò)展包。今天我們來認(rèn)識(shí)下用R來做預(yù)測(cè)分析。首先我們來看看預(yù)測(cè)分析建模的大致過程.。
明確任務(wù),獲取數(shù)據(jù)之后,我們選取第一個(gè)模型,需注意的是沒有什么最好的模型,所以在一開始我們只要用一個(gè)簡(jiǎn)單的模型,例如在分類問題上選用樸素貝葉斯或者邏輯回歸,使用簡(jiǎn)單的模型我們得到一個(gè)初始的性能,然后再不斷的探索和改進(jìn)。而且類似于“有多少特征對(duì)結(jié)果有貢獻(xiàn)”這類有用的問題也能在擬合簡(jiǎn)單模型的過程中得到答案。
處理缺失數(shù)據(jù)之前我們需要區(qū)分不同的缺失值機(jī)制,理想情況下是隨機(jī)完全缺失(MCAR),這種情況下缺失值的出現(xiàn)是獨(dú)立于它們所屬的特征以及其他特征的真實(shí)值;隨機(jī)缺失(MAR),缺失值可能會(huì)和其他特征相關(guān)當(dāng)然還有非隨機(jī)缺失(MNAR)。缺失值的處理方法有很多,比如較少缺失值:拋棄數(shù)據(jù);猜測(cè)或估算缺失值(kNN是一種辦法)。
模型里采用的特征數(shù)量和類型是在預(yù)測(cè)建模過程中最重要的選擇,高維數(shù)據(jù)由于維度數(shù)量的原因會(huì)導(dǎo)致覆蓋所有特征取值的可能組合范圍極大的增長(zhǎng),難以搜集到足夠的數(shù)據(jù)為訓(xùn)練過程提供有代表性的樣本;特征工程有兩類:1.增大特征空間,2降維(PCA)。
作為預(yù)處理步驟的一部分,我們會(huì)盡力的取出互相線性相關(guān)的特征。共線性是指兩個(gè)特征近似線性相關(guān),處理共線性常用的方法有:兩個(gè)變量合并為一個(gè)或者直接去除其中一個(gè)特征。多重共線性是指線性關(guān)系涉及多于兩個(gè)特征的情況,我們可以計(jì)算其方差膨脹因子來檢驗(yàn)。R中我們可以使用car包里面的vif()函數(shù)去查看VIF大于10的特征有極大可能存在多重共線性。