亚洲国产美女精品久久久久∴,久久中文字幕在线观看,精品久久久久久亚洲精品

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['axes.unicode_minus'] = False

df = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")
df = df.drop(["customerID"], axis=1)
df.head()

使用 Kaggle 上的 Telco Customer Churn 數(shù)據(jù)集，數(shù)據(jù)集包含了豐富的客戶特征及流失信息，在數(shù)據(jù)分析的起步階段，需要對(duì)數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換，以確保數(shù)據(jù)適用于后續(xù)的建模和分析

數(shù)據(jù)預(yù)處理

數(shù)據(jù)基本信息輸出

df.info()

數(shù)據(jù)集包含 7043 條記錄和 20 列特征，其中 tenure、MonthlyCharges 和 TotalCharges 是數(shù)值類型，其余的特征多為分類類型（object），目標(biāo)標(biāo)簽為 Churn，用來(lái)預(yù)測(cè)客戶是否流失

數(shù)據(jù)類型轉(zhuǎn)換

# 處理 TotalCharges 列的空字符串或非數(shù)值數(shù)據(jù)

df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce')

# 將數(shù)據(jù)類型轉(zhuǎn)換為 float64

df['TotalCharges'] = df['TotalCharges'].astype('float64')

df['TotalCharges'].dtype

可以發(fā)現(xiàn) TotalCharges 列在dataframe中展示為數(shù)值但是實(shí)際為object數(shù)據(jù)類型存在數(shù)據(jù)類型混亂，將 TotalCharges 列中的非數(shù)值數(shù)據(jù)和空字符串轉(zhuǎn)換為缺失值（NaN），并將其數(shù)據(jù)類型轉(zhuǎn)換為 float64 以便后續(xù)數(shù)值處理

缺失值檢驗(yàn)

df.isnull().sum()

這里可以發(fā)現(xiàn) TotalCharges 列存在11個(gè)缺失值數(shù)量由于占比較小，簡(jiǎn)化工作直接刪除存在缺失的樣本行即可

df.dropna(subset=['TotalCharges'], inplace=True)

數(shù)據(jù)編碼

from sklearn.preprocessing import LabelEncoder



# 自動(dòng)選擇數(shù)據(jù)類型為 'object' 的列

columns_to_encode = df.select_dtypes(include=['object']).columns



# 初始化字典來(lái)存儲(chǔ)每列的編碼信息

label_mappings = {}



# 對(duì)需要編碼的列進(jìn)行標(biāo)簽編碼

for column in columns_to_encode:

    le = LabelEncoder()

    df[column] = le.fit_transform(df[column])



    # 將編碼的類別及其對(duì)應(yīng)的值保存到字典中

    label_mappings[column] = dict(zip(le.classes_, le.transform(le.classes_)))



# 輸出每個(gè)特征列的編碼信息

for column, mapping in label_mappings.items():

    print(f"Feature: {column}")

    for category, code in mapping.items():

        print(f"  {category}: {code}")

    print("\n")

由于原始數(shù)據(jù)存在大量類別數(shù)據(jù)，使用 LabelEncoder 對(duì)數(shù)據(jù)中的類別特征進(jìn)行編碼，將這些字符型特征轉(zhuǎn)換為機(jī)器學(xué)習(xí)模型可以理解的數(shù)值型數(shù)據(jù)

樣本采樣

from imblearn.over_sampling import SMOTE



# 將特征 (X) 和標(biāo)簽 (y) 分開(kāi)

X = df.drop(columns=['Churn'])  # 特征數(shù)據(jù)，去掉 'Churn' 列

y = df['Churn']  # 目標(biāo)標(biāo)簽，即 'Churn'



# 初始化 SMOTE

smote = SMOTE(random_state=42)



# 對(duì)數(shù)據(jù)進(jìn)行過(guò)采樣

X_res, y_res = smote.fit_resample(X, y)



# 輸出過(guò)采樣后的類別分布

print("原始數(shù)據(jù)類別分布:\n", y.value_counts())

print("過(guò)采樣后的類別分布:\n", y_res.value_counts())

在數(shù)據(jù)預(yù)處理的最后一步，使用SMOTE方法來(lái)平衡類別分布，防止模型因?yàn)轭悇e不平衡而產(chǎn)生偏差

構(gòu)建深度學(xué)習(xí)模型

import tensorflow as tf

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense, Dropout



X = X_res

y = y_res

from sklearn.model_selection import train_test_split

X_temp, X_test, y_temp, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y_res)

X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.125, random_state=42, stratify=y_temp)



# 輸入形狀為 (samples, features)

input_shape = (X_train.shape[1],)



# 構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)模型

model = Sequential()



# 添加全連接層

model.add(Dense(units=64, input_shape=input_shape, activation='relu'))

model.add(Dropout(0.2))  # 添加 Dropout 防止過(guò)擬合



# 添加第二個(gè)全連接層

model.add(Dense(units=32, activation='relu'))

model.add(Dropout(0.2))



# 添加輸出層，使用sigmoid作為激活函數(shù)處理二分類

model.add(Dense(units=1, activation='sigmoid'))



# 編譯模型

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])



# 訓(xùn)練模型

history = model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=100, batch_size=32)



# 繪制訓(xùn)練和驗(yàn)證的損失曲線

plt.plot(history.history['loss'], label='train loss')

plt.plot(history.history['val_loss'], label='val loss')

plt.title('Loss over epochs')

plt.xlabel('Epochs')

plt.ylabel('Loss')

plt.legend()

plt.show()



# 打印模型摘要

model.summary()

選擇一個(gè)簡(jiǎn)單的全連接神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)處理這個(gè)分類任務(wù)。模型包含兩個(gè)隱藏層，每層分別有 64 和 32 個(gè)神經(jīng)元，并使用 ReLU 激活函數(shù)。為了防止過(guò)擬合，在每一層后加入了 Dropout 層，選擇 binary_crossentropy 作為損失函數(shù)，并使用 Adam 優(yōu)化器。模型的評(píng)價(jià)指標(biāo)為準(zhǔn)確率（accuracy），模型訓(xùn)練使用了 100 個(gè) Epoch，并在訓(xùn)練集中使用了 80% 的數(shù)據(jù)進(jìn)行訓(xùn)練，剩余的 20% 作為驗(yàn)證集

模型性能評(píng)估

分類報(bào)告

# 使用模型在測(cè)試集上進(jìn)行預(yù)測(cè)

y_pred_prob = model.predict(X_test)



# 將概率轉(zhuǎn)換為二分類標(biāo)簽 (如果概率 >= 0.5，預(yù)測(cè)為 1，否則為 0)

y_pred = (y_pred_prob >= 0.5).astype(int)

from sklearn.metrics import classification_report

# 輸出模型報(bào)告， 查看評(píng)價(jià)指標(biāo)

print(classification_report(y_test, y_pred))

混淆矩陣

from sklearn.metrics import confusion_matrix

# 計(jì)算混淆矩陣

confusion_matrix = confusion_matrix(y_test, y_pred)



# 繪制混淆矩陣

fig, ax = plt.subplots(figsize=(10, 7),dpi=1200)

cax = ax.matshow(confusion_matrix, cmap='Blues')

fig.colorbar(cax)



# 設(shè)置英文標(biāo)簽

ax.set_xlabel('Predicted')

ax.set_ylabel('Actual')

ax.set_xticks(np.arange(2))

ax.set_yticks(np.arange(2))

ax.set_xticklabels(['Class 0', 'Class 1'])

ax.set_yticklabels(['Class 0', 'Class 1'])

for (i, j), val in np.ndenumerate(confusion_matrix):

    ax.text(j, i, f'{val}', ha='center', va='center', color='black')

plt.title('Confusion Matrix Heatmap')

plt.savefig('Confusion Matrix Heatmap.pdf', format='pdf', bbox_inches='tight')

plt.show()

ROC曲線

from sklearn.metrics import roc_curve, auc

# 預(yù)測(cè)概率

y_score = model.predict(X_test).ravel()  # 確保將輸出展平為1D



# 計(jì)算ROC曲線

fpr, tpr, _ = roc_curve(y_test, y_score)

roc_auc = auc(fpr, tpr)



# 繪制ROC曲線

plt.figure(dpi=1200)

plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)

plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')

plt.xlim([0.0, 1.0])

plt.ylim([0.0, 1.05])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver Operating Characteristic')

plt.legend(loc="lower right")

plt.savefig('Receiver Operating Characteristic.pdf', format='pdf', bbox_inches='tight')

plt.show()

訓(xùn)練完成后，模型在測(cè)試集上的性能評(píng)估使用了混淆矩陣、ROC 曲線以及分類報(bào)告，通過(guò)這些指標(biāo)，能夠了解模型的整體性能表現(xiàn)。但由于深度學(xué)習(xí)模型本質(zhì)上是黑盒模型，僅通過(guò)這些指標(biāo)很難解釋模型的決策過(guò)程。這就引出了下一步：如何使用 SHAP 來(lái)解釋模型預(yù)測(cè)

SHAP：解釋深度學(xué)習(xí)模型

什么是SHAP？

SHAP是一種基于博弈論的解釋方法，可以為每個(gè)特征分配一個(gè)重要性分?jǐn)?shù)，解釋模型的預(yù)測(cè)結(jié)果。SHAP 的核心思想是通過(guò)對(duì)每個(gè)特征的貢獻(xiàn)進(jìn)行分解，計(jì)算特征對(duì)模型輸出的邊際貢獻(xiàn)值，使用 SHAP，我們能夠可視化模型對(duì)每個(gè)樣本的預(yù)測(cè)依據(jù)，讓模型更加透明

SHAP值計(jì)算

import shap

# 1. 創(chuàng)建 SHAP 解釋器

# 使用訓(xùn)練集的一部分作為背景數(shù)據(jù)

background = X_train.sample(n=100, random_state=42)  # 根據(jù)數(shù)據(jù)量調(diào)整樣本數(shù)量

# 將背景數(shù)據(jù)和解釋數(shù)據(jù)轉(zhuǎn)換為 NumPy 數(shù)組

background_np = background.to_numpy()

X_explain_np = X_test[:100].to_numpy()  # 選擇要解釋的樣本

首先，從訓(xùn)練集中抽取了 100 個(gè)樣本作為背景數(shù)據(jù)（背景數(shù)據(jù)用于模型的解釋計(jì)算，它代表了模型在訓(xùn)練時(shí)見(jiàn)過(guò)的數(shù)據(jù)范圍），然后將背景數(shù)據(jù)和要解釋的測(cè)試數(shù)據(jù)轉(zhuǎn)換為 NumPy 數(shù)組，供 SHAP 后續(xù)計(jì)算使用，背景數(shù)據(jù)是解釋模型全局行為的關(guān)鍵，解釋器會(huì)以背景數(shù)據(jù)為基礎(chǔ)來(lái)計(jì)算每個(gè)樣本中的特征對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)

# 使用 shap.Explainer 自動(dòng)選擇合適的解釋器

explainer = shap.Explainer(model, background_np)

接著，通過(guò) shap.Explainer 創(chuàng)建了一個(gè) SHAP 解釋器，shap.Explainer 會(huì)根據(jù)輸入的模型和背景數(shù)據(jù)，自動(dòng)選擇合適的 SHAP 算法（比如針對(duì)深度學(xué)習(xí)模型，通常會(huì)選擇基于深度模型的 SHAP 解釋方法），model 是之前訓(xùn)練好的深度學(xué)習(xí)模型，background_np 是背景數(shù)據(jù)

# 2. 計(jì)算 SHAP 值

# 計(jì)算shap值為numpy.array數(shù)組

shap_values_numpy = explainer.shap_values(X_explain_np)

在這一步，使用 SHAP 解釋器來(lái)計(jì)算測(cè)試集前 100 個(gè)樣本的 SHAP 值，SHAP 值本質(zhì)上是每個(gè)特征對(duì)預(yù)測(cè)結(jié)果的邊際貢獻(xiàn)值，shap_values_numpy 是一個(gè) NumPy 數(shù)組，包含了每個(gè)樣本每個(gè)特征的 SHAP 值，這些值表示該特征如何影響模型的預(yù)測(cè)結(jié)果

# 計(jì)算shap值為Explanation格式

shap_values_raw = explainer(X_explain_np)

這一步通過(guò) explainer() 方法生成 shap_values_raw，它是一個(gè)包含更多信息的 SHAP 解釋結(jié)果對(duì)象，稱為 shap.Explanation，與 NumPy 數(shù)組不同，shap.Explanation 可以直接用于繪圖和可視化，它包含了 SHAP 值、基準(zhǔn)值（base value，模型的平均預(yù)測(cè)值），以及樣本的特征數(shù)據(jù)

feature_names = X_test.columns

# 手動(dòng)創(chuàng)建一個(gè) shap.Explanation 對(duì)象，并傳遞特征名

shap_values_Explanation = shap.Explanation(values=shap_values_raw.values, 

                        base_values=shap_values_raw.base_values,

                                           data=X_explain_np,  # 樣本數(shù)據(jù)

                                           feature_names=feature_names)  # 特征名稱

在這一部分，手動(dòng)創(chuàng)建一個(gè) shap.Explanation 對(duì)象，該對(duì)象將 SHAP 值、基準(zhǔn)值（base_values），輸入數(shù)據(jù)（data），以及每個(gè)特征的名稱（feature_names）整合在一起，這個(gè)對(duì)象將會(huì)被用來(lái)繪制 SHAP 圖，解釋每個(gè)特征對(duì)模型預(yù)測(cè)的貢獻(xiàn)情況

SHAP 摘要圖

plt.figure(figsize=(10, 5), dpi=1200)

# 使用 shap_values_Explanation 繪制摘要圖，顯示每個(gè)特征的影響力

shap.summary_plot(shap_values_Explanation, X_test[:100], feature_names=feature_names, plot_type="dot", show=False)

plt.savefig("SHAP_Summary_Plot.pdf", format='pdf', bbox_inches='tight')

plt.show()

特征重要性排序: 從圖中可以看出，MonthlyCharges、Contract、tenure、OnlineSecurity 等特征對(duì)模型預(yù)測(cè)具有較大的影響，它們位于圖的頂部，表明這些特征在預(yù)測(cè)客戶流失時(shí)起到了關(guān)鍵作用
特征值對(duì)預(yù)測(cè)結(jié)果的影響: 以 MonthlyCharges 為例，紅色的點(diǎn)主要分布在正 SHAP 值區(qū)域，說(shuō)明較高的月度費(fèi)用（紅色）傾向于增加客戶流失的可能性，相反，較低的月度費(fèi)用（藍(lán)色）更可能減少客戶流失
對(duì)比高低特征值的影響: 在特征 Contract 中，可以看到藍(lán)色（低值）和紅色（高值）分別對(duì)正負(fù) SHAP 值產(chǎn)生不同的影響，意味著合約類型也顯著影響客戶流失行為

SHAP特征重要性柱狀圖

# 繪制SHAP值總結(jié)圖（Summary Plot）

plt.figure(figsize=(10, 5), dpi=1200)

shap.summary_plot(shap_values_numpy, X_test[:100], plot_type="bar", show=False)

plt.title('SHAP_numpy Sorted Feature Importance')

plt.savefig("SHAP_numpy Sorted Feature Importance.pdf", format='pdf',bbox_inches='tight')

plt.tight_layout()

plt.show()

MonthlyCharges（月度費(fèi)用）對(duì)模型的預(yù)測(cè)影響最大，表示月度費(fèi)用對(duì)客戶是否會(huì)流失（Churn）有較大的決定性作用
tenure（客戶服務(wù)時(shí)長(zhǎng)）也是影響模型的一個(gè)重要因素，表明用戶在公司的時(shí)間長(zhǎng)短對(duì)于預(yù)測(cè)客戶是否流失很關(guān)鍵
Contract（合同類型）和 TotalCharges（總費(fèi)用）也對(duì)預(yù)測(cè)結(jié)果有較大的影響
像 PaperlessBilling 和 MultipleLines 等特征對(duì)模型預(yù)測(cè)的影響則較小

總結(jié)來(lái)說(shuō)，這個(gè)柱狀圖說(shuō)明了模型認(rèn)為哪些特征對(duì)預(yù)測(cè)客戶流失（Churn）最重要，并且量化了每個(gè)特征的重要性

SHAP瀑布圖

plt.figure(figsize=(10, 5), dpi=1200)

# 繪制第1個(gè)樣本的 SHAP 瀑布圖，并設(shè)置 show=False 以避免直接顯示

shap.plots.waterfall(shap_values_Explanation[1], show=False, max_display=10)

# 保存圖像為 PDF 文件

plt.savefig("SHAP_Waterfall_Plot_Sample_1.pdf", format='pdf', bbox_inches='tight')

plt.tight_layout()

plt.show()

模型輸出的初始值：

圖中最上方標(biāo)注的 f(x) = 0.212 是模型對(duì)這個(gè)樣本的預(yù)測(cè)值，表示該樣本的預(yù)測(cè)結(jié)果為 0.212，也就是對(duì)于類別0（no）的預(yù)測(cè)概率，這個(gè)值是基于每個(gè)特征對(duì)模型的貢獻(xiàn)累計(jì)得出的
右下角的 E[f(X)] = 0.597 是模型的基線值，表示在不考慮任何特征影響時(shí)，模型的平均預(yù)測(cè)值（全局平均值）

每個(gè)特征的影響：

tenure（服務(wù)時(shí)長(zhǎng)）對(duì)預(yù)測(cè)的貢獻(xiàn)最大，SHAP 值為 -0.14，表示它將預(yù)測(cè)結(jié)果降低了 0.14
OnlineSecurity（在線安全服務(wù)）也有較大的負(fù)向影響，SHAP 值為 -0.1
其他特征如 MonthlyCharges（月度費(fèi)用）、OnlineBackup（在線備份）等對(duì)預(yù)測(cè)結(jié)果也有不同程度的負(fù)向貢獻(xiàn)
而一些特征如 Contract（合同類型）和 Partner（配偶）則對(duì)預(yù)測(cè)有正向的推動(dòng)作用（紅色），使得最終的預(yù)測(cè)值有所提高

通過(guò)這個(gè) SHAP 瀑布圖，能夠清晰地看到哪些特征對(duì)于預(yù)測(cè)結(jié)果的重要性，以及它們具體對(duì)模型輸出是增加還是減少，這個(gè)可視化有助于解釋黑箱模型的決策邏輯，特別是在理解每個(gè)樣本單獨(dú)預(yù)測(cè)時(shí)，各個(gè)特征的貢獻(xiàn)

SHAP力圖

# 繪制單個(gè)樣本的SHAP解釋（Force Plot）

sample_index = 1  # 選擇一個(gè)樣本索引進(jìn)行解釋

expected_value = 0.504

shap.force_plot(expected_value, shap_values_numpy[sample_index], X_test[:100].iloc[sample_index], matplotlib=True,show=False)

plt.savefig("Shap Force.pdf", format='pdf',bbox_inches='tight')