精品不卡一区中文字幕,日本一二三本免费视频,亚洲国产精品久久久天堂麻豆

加載數據，并將數據集中特征與標簽分離后，將其按7:3比例分為訓練集和測試集，確保測試集按標簽類別進行分層抽樣

from sklearn.ensemble import RandomForestClassifier # 創建隨機森林分類器實例，并設置參數 rf = RandomForestClassifier( n_estimators=100, # 森林中樹的數量。默認是100。 criterion='gini', # 指定用于拆分的質量指標。可選'gini'或'entropy'。 max_depth=None, # 每棵樹的最大深度。'None'表示不限制。 min_samples_split=2, # 節點分裂所需的最小樣本數。默認是2。 min_samples_leaf=1, # 葉子節點所需的最小樣本數。默認是1。 min_weight_fraction_leaf=0.0, # 類似'min_samples_leaf'，但基于樣本權重。默認0.0。 random_state=42, # 控制隨機數生成，以便結果可復現。 max_leaf_nodes=None, # 限制每棵樹的最大葉子節點數。'None'表示不限制。 min_impurity_decrease=0.0 # 節點分裂時要求的最小不純度減少量。默認0.0。 ) # 訓練分類器 rf.fit(X_train, y_train)

創建并配置了一個多分類隨機森林分類器，并使用訓練數據對其進行模型訓練

import shap explainer = shap.TreeExplainer(rf) # 計算shap值為numpy.array數組 shap_values = explainer.shap_values(X_test) # 提取每個類別的 SHAP 值 shap_values_class_0 = shap_values[:, :, 0] shap_values_class_1 = shap_values[:, :, 1] shap_values_class_2 = shap_values[:, :, 2] shap_values_class_3 = shap_values[:, :, 3] shap_values_class_4 = shap_values[:, :, 4] # 計算每個類別的特征貢獻度 importance_class_0 = np.abs(shap_values_class_0).mean(axis=0) importance_class_1 = np.abs(shap_values_class_1).mean(axis=0) importance_class_2 = np.abs(shap_values_class_2).mean(axis=0) importance_class_3 = np.abs(shap_values_class_3).mean(axis=0) importance_class_4 = np.abs(shap_values_class_4).mean(axis=0) importance_df = pd.DataFrame({ 'Class_0': importance_class_0, 'Class_1': importance_class_1, 'Class_2': importance_class_2, 'Class_3': importance_class_3, 'Class_4': importance_class_4 }, index=X_train.columns) type_mapping = { 0: 'Type_A', 1: 'Type_B', 2: 'Type_C', 3: 'Type_D', 4: 'Type_E' } importance_df.columns = [type_mapping[int(col.split('_')[1])] for col in importance_df.columns] importance_df

使用SHAP計算訓練好的多分類隨機森林模型對測試數據的特征貢獻度，首先，TreeExplainer 用于解釋模型，并生成每個類別的 SHAP 值，接著，提取每個類別（Class_0 到 Class_4）的 SHAP值，并計算了各類別下每個特征的平均貢獻度（取 SHAP 值絕對值的均值），最終，這些貢獻度被存儲在一個 DataFrame 中，并將類別索引映射為具體的類別名稱（Type_A 到 Type_E），為后續分析提供可解釋的特征重要性表

不同類別下特征重要性的堆疊柱狀圖展示

import seaborn as sns importance_df['row_sum'] = importance_df.sum(axis=1) sorted_importance_df = importance_df.sort_values(by='row_sum', ascending=True) sorted_importance_df = sorted_importance_df.drop(columns=['row_sum']) elements = sorted_importance_df.index colors = sns.color_palette("Set2", n_colors=len(sorted_importance_df.columns)) fig, ax = plt.subplots(figsize=(12, 6), dpi=1200) bottom = np.zeros(len(elements)) for i, column in enumerate(sorted_importance_df.columns): ax.barh( sorted_importance_df.index, sorted_importance_df[column], left=bottom, color=colors[i], label=column ) bottom += sorted_importance_df[column] ax.set_xlabel('mean(|SHAP value|) (average impact on model output magnitude)', fontsize=12) ax.set_ylabel('Features', fontsize=12) ax.set_title('Feature Importance by Class', fontsize=15) ax.set_yticks(np.arange(len(elements))) ax.set_yticklabels(elements, fontsize=10) for i, el in enumerate(elements): ax.text(bottom[i], i, ' ' + str(el), va='center', fontsize=9) ax.legend(title='Class', fontsize=10, title_fontsize=12) ax.set_yticks([]) ax.set_yticklabels([]) ax.set_ylabel('') ax.spines['top'].set_visible(False) ax.spines['right'].set_visible(False) plt.savefig('1.pdf', format='pdf', bbox_inches='tight') plt.show()

使用 Seaborn 和 Matplotlib 繪制一個堆疊水平柱狀圖，展示多分類模型中各特征在不同類別下的平均 SHAP 值的重要性，首先，將每個特征在所有類別中的 SHAP 值求和排序，以確定特征的重要性順序，接著，依次為每個類別繪制水平條形，并通過堆疊方式展示每個類別對特征的重要性貢獻，圖例用于標明不同類別的顏色對應關系，最終圖形美化去除了多余的坐標軸刻度，下面為一個二分類模型的shap特征貢獻圖

通過這兩張圖的直觀對比，我們可以發現：二分類模型的 SHAP 特征貢獻圖（第一張圖）展示的是特征對整體目標類預測的影響，而多分類模型的 SHAP 特征貢獻圖（第二張圖）將每個特征在不同類別中的貢獻分開顯示，更詳細地揭示了特征在各類別間的差異性，也就是前面所說的由于任務不同導致其可視化也存在差異多分類

模型特征貢獻圖其它繪制方法

與之前的堆疊柱狀圖相比，采用3D 柱狀圖來展示特征在不同類別中的貢獻度，提供更立體的視覺效果，使我們能夠從不同視角分析特征在各類別中的影響，相比之下，3D 圖更直觀，但在特征和類別較多時可能增加視覺復雜度，而堆疊柱狀圖更適合快速比較各類別的相對貢獻