
使用這些基本 REST API 最佳實踐構(gòu)建出色的 API
KS Plot用來評估分布差異。其核心思想是測量兩個分布的累積分布函數(shù)(CDF)之間的最大距離。最大距離越小,它們越有可能屬于同一分布。所以它主要被解釋為確定分布差異的“統(tǒng)計檢驗”,而不是“圖”。
SHAP Plot通過考慮特征之間的相互作用/依賴關系來總結(jié)特征對模型預測的重要性。在確定一個特征的不同值(低或高)如何影響總體輸出時很有用。
ROC曲線描述了跨不同分類閾值的真陽性率(良好的性能)和假陽性率(糟糕的性能)之間的權(quán)衡。它展示了分類器在不同閾值下的靈敏度(True Positive Rate,TPR)和特異度(True Negative Rate,TNR)之間的權(quán)衡關系。
ROC曲線是一種常用的工具,特別適用于評估醫(yī)學診斷測試、機器學習分類器、風險模型等領域的性能。通過分析ROC曲線和計算AUC,可以更好地理解分類器的性能,選擇適當?shù)拈撝?,以及比較不同模型之間的性能。
Precision-Recall(精確度-召回率)曲線是用于評估分類模型性能的另一種重要工具,特別適用于不平衡類別分布的問題,其中正類別和負類別樣本數(shù)量差異較大。這個曲線關注模型在正類別的預測準確性和能夠找出所有真正正例的能力。它描述了不同分類閾值之間的精確率和召回率之間的權(quán)衡。
QQ Plot(Quantile-Quantile Plot,分位數(shù)-分位數(shù)圖)是一種用于比較兩個數(shù)據(jù)集的分位數(shù)分布是否相似的數(shù)據(jù)可視化工具。它通常用于檢查一個數(shù)據(jù)集是否符合某種特定的理論分布,如正態(tài)分布。
它評估觀測數(shù)據(jù)與理論分布之間的分布相似性。繪制了兩個分布的分位數(shù)。偏離直線表示偏離假定的分布。
QQ Plot是一種直觀的工具,可用于檢查數(shù)據(jù)的分布情況,尤其是在統(tǒng)計建模和數(shù)據(jù)分析中。通過觀察QQ Plot上的點的位置,你可以了解數(shù)據(jù)是否符合某種理論分布,或者是否存在異常值或偏差。
Cumulative Explained Variance Plot(累積解釋方差圖)是在主成分分析(PCA)等降維技術(shù)中常用的圖表,用于幫助解釋數(shù)據(jù)中包含的方差信息以及選擇合適的維度來表示數(shù)據(jù)。
數(shù)據(jù)科學家和分析師會根據(jù)Cumulative Explained Variance Plot中的信息來選擇適當數(shù)量的主成分,以便在降維后仍能夠有效地表示數(shù)據(jù)的特征。這有助于減少數(shù)據(jù)維度,提高模型訓練效率,并保留足夠的信息來支持任務的成功完成。
Elbow Curve(肘部曲線)是一種用于幫助確定K-Means聚類中最佳簇數(shù)(聚類數(shù)目)的可視化工具。K-Means是一種常用的無監(jiān)督學習算法,用于將數(shù)據(jù)點分為不同的簇或群組。Elbow Curve有助于找到合適的簇數(shù),以最好地表示數(shù)據(jù)的結(jié)構(gòu)。
Elbow Curve是一種常用的工具,用于幫助選擇K-Means聚類中的最佳簇數(shù),肘部的點表示理想的簇數(shù)。這樣可以更好地捕獲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和模式。
Silhouette Curve(輪廓系數(shù)曲線)是一種用于評估聚類質(zhì)量的可視化工具,通常用于幫助選擇最佳聚類數(shù)。輪廓系數(shù)是一種度量,用于衡量聚類中簇內(nèi)數(shù)據(jù)點的相似性和簇間數(shù)據(jù)點的分離程度。
Silhouette Curve是一種有力的工具,用于幫助選擇最佳的聚類數(shù),以確保聚類模型能夠有效地捕獲數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和模式。在有很多簇時,肘部曲線通常是無效的。Silhouette Curve是一個更好的選擇。
Gini Impurity(基尼不純度)和Entropy(熵)是兩種常用于決策樹和隨機森林等機器學習算法中的指標,用于評估數(shù)據(jù)的不純度和選擇最佳分裂屬性。它們都用于衡量數(shù)據(jù)集中的混亂度,以幫助決策樹選擇如何劃分數(shù)據(jù)。
它們用于測量決策樹中節(jié)點或分裂的雜質(zhì)或無序。上圖比較了基尼不純和熵在不同的分裂,這可以提供了對這些度量之間權(quán)衡的見解。
兩者都是有效的指標,用于決策樹等機器學習算法中的節(jié)點分裂選擇,但選擇哪個取決于具體的問題和數(shù)據(jù)特征。
Bias-Variance Tradeoff(偏差-方差權(quán)衡)是機器學習中一個重要的概念,用于解釋模型的預測性能和泛化能力之間的平衡。
偏差和方差之間存在權(quán)衡關系。在訓練機器學習模型時,增加模型的復雜性通常會降低偏差但增加方差,而降低模型復雜性則會降低方差但增加偏差。因此,存在一個權(quán)衡點,其中模型既能夠捕獲數(shù)據(jù)的模式(降低偏差),又能夠?qū)Σ煌瑪?shù)據(jù)表現(xiàn)出穩(wěn)定的預測(降低方差)。
理解偏差-方差權(quán)衡有助于機器學習從業(yè)者更好地構(gòu)建和調(diào)整模型,以實現(xiàn)更好的性能和泛化能力。它強調(diào)了模型的復雜性和數(shù)據(jù)集大小之間的關系,以及如何避免欠擬合和過擬合。
Partial Dependency Plots(部分依賴圖)是一種用于可視化和解釋機器學習模型的工具,特別適用于了解單個特征對模型預測的影響。這些圖形有助于揭示特征與目標變量之間的關系,以便更好地理解模型的行為和決策。
Partial Dependency Plots通常與解釋性工具和技術(shù)一起使用,如SHAP值、LIME等,以幫助解釋黑盒機器學習模型的預測。它們提供了一種可視化方式,使數(shù)據(jù)科學家和分析師更容易理解模型的決策和特征之間的關系。
這些圖表涉及了數(shù)據(jù)分析和機器學習領域中常用的可視化工具和概念,這些工具和概念有助于評估和解釋模型性能、理解數(shù)據(jù)分布、選擇最佳參數(shù)和模型復雜性,以及洞察特征對預測的影響。
本文章轉(zhuǎn)載微信公眾號@算法進階