3.【數據清洗】主要內容為【缺失數據處理】、【上限/下限】、【檢查數據分布】。檢查數據分布是否和預期一致,若不一致采用合理方法進行調整。若值過大或過小時,應通過限制【上限/下限】進行解決。這樣是為了使數據分布不至于分散。
6.【模型評估】主要內容為【VIF】、【C值】、【R的平方】、【Lift圖】、【INS/OOS/OOT】。【VIF】是衡量模型中自變量貢獻性的一個指標,【VIF】越大表示變量之間的貢獻性越強。【C值】和【R的平方】是用于評價模型本身表現的參數。【C值】是用于邏輯回歸模型,【R的平方】是用于線性回歸模型。
13.【藍色】表示建模數據集,【綠線】是建模數據集里的子集,【紅線】表示驗證數據集。在理想狀態下,我們希望用整體的建模數據集的子集,以及驗證數據集,繪制出的曲線盡可能重合,這樣可以表明模型是相對穩定的。