久久久网久久久网久久久久,全网国产福利在线播放,久草综合视频在线

在接下來的代碼實現中，我們將復現并細化類似的可視化效果，希望能為大家在實踐中提供參考，通過這種方式，我們能夠更好地理解模型的表現，并為數據分析與模型調優提供有力支持

代碼實現

模型構建

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split df = pd.read_excel('數據.xlsx') # 劃分特征和目標變量 X = df.drop(['price'], axis=1) y = df['price'] # 劃分訓練集和測試集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) import xgboost as xgb from sklearn.model_selection import GridSearchCV # XGBoost模型參數 params_xgb = { 'learning_rate': 0.02, # 學習率，控制每一步的步長，用于防止過擬合。典型值范圍：0.01 - 0.1 'booster': 'gbtree', # 提升方法，這里使用梯度提升樹（Gradient Boosting Tree） 'objective': 'reg:squarederror', # 損失函數，這里使用平方誤差 'max_leaves': 127, # 每棵樹的葉子節點數量，控制模型復雜度。較大值可以提高模型復雜度但可能導致過擬合 'verbosity': 1, # 控制 XGBoost 輸出信息的詳細程度，0表示無輸出，1表示輸出進度信息 'seed': 42, # 隨機種子，用于重現模型的結果 'nthread': -1, # 并行運算的線程數量，-1表示使用所有可用的CPU核心 'colsample_bytree': 0.6, # 每棵樹隨機選擇的特征比例，用于增加模型的泛化能力 'subsample': 0.7 # 每次迭代時隨機選擇的樣本比例，用于增加模型的泛化能力 } model_xgb = xgb.XGBRegressor(**params_xgb) # 定義參數網格，用于網格搜索 param_grid = { 'n_estimators': [100, 200, 300, 400, 500], # 樹的數量，控制模型的復雜度 'max_depth': [3, 4, 5, 6, 7], # 樹的最大深度，控制模型的復雜度，防止過擬合 'min_child_weight': [1, 2, 3, 4, 5], # 節點最小權重，值越大，算法越保守，用于控制過擬合 } grid_search = GridSearchCV( estimator=model_xgb, param_grid=param_grid, scoring='neg_root_mean_squared_error', cv=5, n_jobs=-1, verbose=1 ) # 訓練模型 grid_search.fit(X_train, y_train) best_model = grid_search.best_estimator_

使用網格搜索優化了XGBoost回歸模型的參數，并在訓練集上訓練了最佳模型，用于預測目標變量。

模型評價指標

from sklearn import metrics # 預測 y_pred_train = best_model.predict(X_train) y_pred_test = best_model.predict(X_test) y_pred_train_list = y_pred_train.tolist() y_pred_test_list = y_pred_test.tolist() # 計算訓練集的指標 mse_train = metrics.mean_squared_error(y_train, y_pred_train_list) rmse_train = np.sqrt(mse_train) mae_train = metrics.mean_absolute_error(y_train, y_pred_train_list) r2_train = metrics.r2_score(y_train, y_pred_train_list) # 計算測試集的指標 mse_test = metrics.mean_squared_error(y_test, y_pred_test_list) rmse_test = np.sqrt(mse_test) mae_test = metrics.mean_absolute_error(y_test, y_pred_test_list) r2_test = metrics.r2_score(y_test, y_pred_test_list) print("訓練集評價指標:") print("均方誤差 (MSE):", mse_train) print("均方根誤差 (RMSE):", rmse_train) print("平均絕對誤差 (MAE):", mae_train) print("擬合優度 (R-squared):", r2_train) print("\n測試集評價指標:") print("均方誤差 (MSE):", mse_test) print("均方根誤差 (RMSE):", rmse_test) print("平均絕對誤差 (MAE):", mae_test) print("擬合優度 (R-squared):", r2_test)

量化和比較模型在訓練數據和測試數據上的預測效果，通過一系列常用的回歸指標來衡量模型的性能。

回歸結果可視化

import seaborn as sns from sklearn import metrics # 創建一個包含訓練集和測試集真實值與預測值的數據框 data_train = pd.DataFrame({ 'True': y_train, 'Predicted': y_pred_train, 'Data Set': 'Train' }) data_test = pd.DataFrame({ 'True': y_test, 'Predicted': y_pred_test, 'Data Set': 'Test' }) data = pd.concat([data_train, data_test]) # 自定義調色板 palette = {'Train': '#b4d4e1', 'Test': '#f4ba8a'} # 創建 JointGrid 對象 plt.figure(figsize=(8, 6), dpi=1200) g = sns.JointGrid(data=data, x="True", y="Predicted", hue="Data Set", height=10, palette=palette) # 繪制中心的散點圖 g.plot_joint(sns.scatterplot, alpha=0.5) # 添加訓練集的回歸線 sns.regplot(data=data_train, x="True", y="Predicted", scatter=False, ax=g.ax_joint, color='#b4d4e1', label='Train Regression Line') # 添加測試集的回歸線 sns.regplot(data=data_test, x="True", y="Predicted", scatter=False, ax=g.ax_joint, color='#f4ba8a', label='Test Regression Line') # 添加邊緣的柱狀圖 g.plot_marginals(sns.histplot, kde=False, element='bars', multiple='stack', alpha=0.5) # 添加擬合優度文本在右下角 ax = g.ax_joint ax.text(0.95, 0.1, f'Train $R^2$ = {r2_train:.3f}', transform=ax.transAxes, fontsize=12, verticalalignment='bottom', horizontalalignment='right', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white")) ax.text(0.95, 0.05, f'Test $R^2$ = {r2_test:.3f}', transform=ax.transAxes, fontsize=12, verticalalignment='bottom', horizontalalignment='right', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white")) # 在左上角添加模型名稱文本 ax.text(0.75, 0.99, 'Model = xgboost', transform=ax.transAxes, fontsize=12, verticalalignment='top', horizontalalignment='left', bbox=dict(boxstyle="round,pad=0.3", edgecolor="black", facecolor="white")) # 添加中心線 ax.plot([data['True'].min(), data['True'].max()], [data['True'].min(), data['True'].max()], c="black", alpha=0.5, linestyle='--', label='x=y') ax.legend() plt.savefig("TrueFalse.pdf", format='pdf', bbox_inches='tight')