欧美va天堂va视频va在线,亚洲国产精品久久久久666,免费看污污的网站

在上圖的三個(gè)小節(jié)中，A、D、G分別展示了隨著特征數(shù)量減少，交叉驗(yàn)證誤差的變化。可以看到，每條折線代表了交叉驗(yàn)證的過程，模型通過反復(fù)訓(xùn)練和測(cè)試來找到使誤差最小的特征子集，這種方法能有效避免過擬合問題，接下來作者將嘗試這樣的一個(gè)特征賽選過程

隨機(jī)森林與特征選擇

隨機(jī)森林是集成學(xué)習(xí)的一種，通過構(gòu)建多棵決策樹來完成分類或回歸任務(wù)，它的優(yōu)勢(shì)在于能夠自動(dòng)評(píng)估特征的重要性，但為了進(jìn)一步提高模型性能，可以使用遞歸特征消除（RFE）方法，逐步去除不重要的特征，保留對(duì)模型影響最大的特征

遞歸特征消除與交叉驗(yàn)證

RFE的原理是基于一個(gè)基礎(chǔ)模型，不斷移除最不重要的特征，直到獲得最佳特征子集，結(jié)合交叉驗(yàn)證，RFE可以保證在不同數(shù)據(jù)劃分下都能找到最佳的特征組合，進(jìn)一步提升模型的穩(wěn)健性，詳細(xì)的解釋參考往期文章——特征選擇(嵌入法)—— 遞歸特征消除 RFE、 RFE-CV

本文將基于一個(gè)多特征二分類數(shù)據(jù)集，使用RFE結(jié)合隨機(jī)森林進(jìn)行特征選擇，并可視化展示每折結(jié)果及最優(yōu)特征數(shù)組合

代碼實(shí)現(xiàn)

導(dǎo)入必要的庫(kù)和數(shù)據(jù)

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

plt.rcParams['font.family'] = 'Times New Roman'

plt.rcParams['axes.unicode_minus'] = False



df = pd.read_csv("Chabuhou.csv ")

# 劃分特征和目標(biāo)變量

X = df.drop(['Electrical_cardioversion'], axis=1)

y = df['Electrical_cardioversion']

# 劃分訓(xùn)練集和測(cè)試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 

                                                    random_state=42,stratify=df['Electrical_cardioversion'])

df.head()

數(shù)據(jù)集來源于一個(gè)名為“Chabuhou.csv”的文件，目標(biāo)變量為電擊復(fù)律（Electrical_cardioversion），將使用BorutaShap篩選出對(duì)目標(biāo)變量預(yù)測(cè)最有用的特征

遞歸特征消除與交叉驗(yàn)證：選擇最優(yōu)特征組合

from sklearn.ensemble import RandomForestClassifier

from sklearn.feature_selection import RFECV

from sklearn.model_selection import StratifiedKFold

# 初始化隨機(jī)森林分類器

clf = RandomForestClassifier(random_state=42)



# 定義StratifiedKFold用于交叉驗(yàn)證

cv = StratifiedKFold(n_splits=5)



# 遞歸特征消除和交叉驗(yàn)證

rfecv = RFECV(estimator=clf, step=1, cv=cv, scoring='accuracy')

rfecv.fit(X_train, y_train)



# 打印最佳特征數(shù)量

print(f"Optimal number of features: {rfecv.n_features_}")



# 獲取交叉驗(yàn)證每一折的分?jǐn)?shù)

cv_results = rfecv.cv_results_



# 取出5次交叉驗(yàn)證的單獨(dú)分?jǐn)?shù)

fold_scores = [cv_results[f'split{i}_test_score'] for i in range(5)]

mean_scores = cv_results['mean_test_score']  # 計(jì)算平均得分

# 輸出選擇的特征列

selected_features = X_train.columns[rfecv.support_]

print(f"Selected features: {list(selected_features)}")

df_selected = df[selected_features]

df_selected.head()

這里使用遞歸特征消除（RFECV）結(jié)合隨機(jī)森林分類器對(duì)特征進(jìn)行篩選，找出了對(duì)模型準(zhǔn)確性影響最大的18個(gè)特征。通過5折交叉驗(yàn)證評(píng)估每個(gè)特征子集的性能，最終選擇了使模型表現(xiàn)最佳的特征組合，這些特征包括“年齡”、“BMI”、“左房直徑”等生理和手術(shù)相關(guān)的指標(biāo)，表明它們?cè)陬A(yù)測(cè)結(jié)果（如心房顫動(dòng)類型）時(shí)最具影響力，結(jié)果表格展示了優(yōu)化后的特征數(shù)據(jù)集，列出了篩選出的特征及其對(duì)應(yīng)的樣本數(shù)據(jù)，方便后續(xù)的模型訓(xùn)練和分析，這一步驟不僅提升了模型的精度，還減少了不必要的特征，增強(qiáng)了模型的可解釋性和計(jì)算效率

交叉驗(yàn)證中的特征選擇與模型準(zhǔn)確性評(píng)估圖

plt.figure(figsize=(12, 8), dpi=1200)

plt.title('Recursive Feature Elimination with Cross-Validation (RFCV)', fontsize=16, fontweight='bold', pad=20)

plt.xlabel('Number of features selected', fontsize=14, labelpad=15)

plt.ylabel('Cross-validation score (accuracy)', fontsize=14, labelpad=15)

# 設(shè)置背景顏色

plt.gca().set_facecolor('#f7f7f7')

# 繪制每一條灰色線，表示5次交叉驗(yàn)證

for i in range(5):

    plt.plot(range(1, len(fold_scores[i]) + 1), fold_scores[i], marker='o', color='gray', linestyle='-', 

             linewidth=0.8, alpha=0.6)

# 繪制淡黑色線，表示平均交叉驗(yàn)證得分

plt.plot(range(1, len(mean_scores) + 1), mean_scores, marker='o', color='#696969', linestyle='-', 

         linewidth=3, label='Mean CV Accuracy')

# 繪制最佳特征數(shù)的垂直線

plt.axvline(x=rfecv.n_features_, color='#E76F51', linestyle='--', linewidth=2, label=f'Optimal = {rfecv.n_features_}')

plt.legend(fontsize=12, loc='best', frameon=True, shadow=True, facecolor='white', framealpha=0.9)

plt.grid(True, which='both', linestyle='--', linewidth=0.5, alpha=0.7)

plt.xticks(fontsize=12)

plt.yticks(fontsize=12)

plt.subplots_adjust(left=0.1, right=0.9, top=0.9, bottom=0.1)

plt.savefig('分類.pdf', format='pdf', bbox_inches='tight')

plt.show()

圖形展示了遞歸特征消除結(jié)合交叉驗(yàn)證（RFECV）在特征選擇過程中的表現(xiàn)，橫軸表示被選擇的特征數(shù)量，縱軸表示交叉驗(yàn)證的準(zhǔn)確率（accuracy）

灰色線條和點(diǎn)：每個(gè)灰色點(diǎn)表示一次交叉驗(yàn)證的準(zhǔn)確率，每條灰色線表示一折交叉驗(yàn)證的變化趨勢(shì)，可以看出，隨著特征數(shù)量的增加，模型的準(zhǔn)確率先逐漸提高，達(dá)到一個(gè)最佳點(diǎn)后，開始波動(dòng)且趨于平穩(wěn)
黑色粗線：表示五次交叉驗(yàn)證中每次的平均準(zhǔn)確率，它表明隨著特征數(shù)量的增加，模型的表現(xiàn)總體上呈現(xiàn)出先上升后趨于平穩(wěn)的趨勢(shì)
紅色虛線：標(biāo)出了最優(yōu)特征數(shù)量（18個(gè)），即在18個(gè)特征時(shí)交叉驗(yàn)證的平均準(zhǔn)確率達(dá)到了最大值

從圖中可以看出，選擇18個(gè)特征時(shí)，模型的交叉驗(yàn)證準(zhǔn)確率達(dá)到了峰值，意味著這是一個(gè)最佳特征子集，進(jìn)一步增加特征沒有帶來顯著的準(zhǔn)確率提升，反而可能增加模型的復(fù)雜度或?qū)е螺p微的過擬合，因此，18個(gè)特征是最優(yōu)的選擇

在模型優(yōu)化和特征選擇過程中，目標(biāo)函數(shù)的選擇至關(guān)重要，不同的目標(biāo)函數(shù)會(huì)影響模型的優(yōu)化方向以及最終的評(píng)估結(jié)果，比如，分類問題中常用的目標(biāo)函數(shù)包括準(zhǔn)確率（accuracy）、ROC AUC、F1-score等，如果數(shù)據(jù)集存在類別不均衡問題，單純依賴準(zhǔn)確率可能會(huì)誤導(dǎo)模型的性能評(píng)估，因?yàn)槟Ｐ涂赡芡ㄟ^偏向多數(shù)類獲得較高的準(zhǔn)確率，這時(shí)，選擇ROC AUC或F1-score作為目標(biāo)函數(shù)，能夠更好地衡量模型在區(qū)分不同類別時(shí)的表現(xiàn)。因此，在特征選擇和模型評(píng)估過程中，目標(biāo)函數(shù)的合理選擇能夠有效提升模型的泛化能力，避免因不合適的評(píng)估標(biāo)準(zhǔn)導(dǎo)致模型過擬合或效果不理想

文章轉(zhuǎn)自微信公眾號(hào)@Python機(jī)器學(xué)習(xí)AI