国产福利在线观看你懂的,欧美精品免费一区欧美久久优播,亚洲精品日韩一区二区

算法流程

優缺點

優點：

強大的預測性能。
能處理非線性問題。
靈活，適用于回歸和分類問題。

缺點：

訓練時間較長。
對參數調優敏感。
難以并行化。

適用場景

回歸任務，如房價預測。
分類任務，如垃圾郵件檢測。
排序任務，如搜索引擎結果排序。

LightGBM

原理

LightGBM 是一種高效的梯度提升框架，專注于快速訓練和低內存使用。它采用了基于直方圖的決策樹學習算法，顯著提高了效率。

核心公式和解釋

LightGBM 的核心與 GBDT 相同，但在優化方面進行了改進。它引入了基于直方圖的算法，將連續值離散化，從而加快了訓練速度并降低了內存消耗。

算法流程

構建特征直方圖。
計算每個特征的增益，選擇增益最大的特征進行分裂。
基于直方圖的累積直方圖法快速計算最佳分割點。
構建決策樹，更新模型。

優缺點

優點：

訓練速度快。
內存效率高。
支持并行學習。
能處理大規模數據。

缺點：

對于小數據集性能提升不明顯。
參數較多，調優復雜。

適用場景

大規模數據集的分類和回歸任務。
實時在線學習任務。

XGBoost

原理

XGBoost 是一種高效的梯度提升框架，優化了傳統的 GBDT，并引入了正則化項以防止過擬合。

核心公式和解釋

算法流程

初始化模型。
對每一輪迭代：
1. 計算當前模型的殘差。
根據殘差擬合新的樹。
計算正則化項并更新模型。
輸出最終模型。

優缺點

優點：

強大的預測性能。
控制過擬合的能力強。
并行計算支持良好。
易于集成和調優。

缺點：

對內存要求較高。
參數調優較復雜。

適用場景

各種分類和回歸任務。
大數據處理，如Kaggle競賽。

AdaBoost

原理

AdaBoost（Adaptive Boosting）通過結合多個弱分類器來提高分類性能。每個分類器的權重由其錯誤率決定，后續分類器更關注前面分類器錯誤分類的樣本。

核心公式和解釋

算法流程

初始化樣本權重。
對每個弱分類器：
1. 訓練分類器，計算分類誤差。
根據誤差計算分類器權重。
更新樣本權重。
最終分類器為所有弱分類器的加權和。

優缺點

優點：

簡單易實現。
強大的集成學習效果。
能提高弱分類器的性能。

缺點：

對噪聲數據敏感。
不能并行訓練。

適用場景

小數據集的分類任務。
基于決策樹的集成學習。

綜合案例

這里，咱們是一個使用 GBDT、LightGBM、XGBoost 和 AdaBoost 的完整示例。

整個這個示例將涵蓋以下內容：

數據準備：生成一個簡單的合成數據集。
模型訓練和預測：訓練四種不同的模型。
性能比較：比較每個模型的性能。
可視化：展示每個模型的預測結果和性能。

我們將使用以下包：

scikit-learn：用于 GBDT 和 AdaBoost。
lightgbm：用于 LightGBM。
xgboost：用于 XGBoost。
matplotlib 和 seaborn：用于數據可視化。

數據準備

我們將生成一個合成的回歸數據集，以便比較不同模型的性能。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.datasets import make_regression

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error, r2_score

import lightgbm as lgb

import xgboost as xgb

from sklearn.ensemble import GradientBoostingRegressor, AdaBoostRegressor

from sklearn.tree import DecisionTreeRegressor



# 生成合成數據

X, y = make_regression(n_samples=1000, n_features=10, noise=0.1, random_state=42)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)



# 轉換為 DataFrame 以便繪圖

df_train = pd.DataFrame(X_train, columns=[f"feature_{i}" for i in range(X_train.shape[1])])

df_train['target'] = y_train

df_test = pd.DataFrame(X_test, columns=[f"feature_{i}" for i in range(X_test.shape[1])])

df_test['target'] = y_test

訓練模型并進行預測

# 1. Gradient Boosting Decision Tree (GBDT)

gbdt_model = GradientBoostingRegressor(n_estimators=100, random_state=42)

gbdt_model.fit(X_train, y_train)

y_pred_gbdt = gbdt_model.predict(X_test)



# 2. LightGBM

lgb_model = lgb.LGBMRegressor(n_estimators=100, random_state=42)

lgb_model.fit(X_train, y_train)

y_pred_lgb = lgb_model.predict(X_test)



# 3. XGBoost

xgb_model = xgb.XGBRegressor(n_estimators=100, random_state=42)

xgb_model.fit(X_train, y_train)

y_pred_xgb = xgb_model.predict(X_test)



# 4. AdaBoost

ada_model = AdaBoostRegressor(base_estimator=DecisionTreeRegressor(max_depth=3), n_estimators=100, random_state=42)

ada_model.fit(X_train, y_train)

y_pred_ada = ada_model.predict(X_test)

性能評估

def evaluate_model(y_true, y_pred, model_name):

    mse = mean_squared_error(y_true, y_pred)

    r2 = r2_score(y_true, y_pred)

    print(f"{model_name} - MSE: {mse:.4f}, R2: {r2:.4f}")



print("Performance Comparison:")

evaluate_model(y_test, y_pred_gbdt, "GBDT")

evaluate_model(y_test, y_pred_lgb, "LightGBM")

evaluate_model(y_test, y_pred_xgb, "XGBoost")

evaluate_model(y_test, y_pred_ada, "AdaBoost")

可視化

我們將繪制模型的預測結果與實際值的對比圖，并繪制預測值的分布圖。

plt.style.use('ggplot')  # 使用有效的樣式

fig, axes = plt.subplots(2, 2, figsize=(16, 12))

axes = axes.flatten()



def plot_predictions(ax, y_true, y_pred, model_name):

    sns.scatterplot(x=y_true, y=y_pred, ax=ax)

    ax.plot([min(y_true), max(y_true)], [min(y_true), max(y_true)], 'k--', label='Perfect Prediction')

    ax.set_title(f'{model_name} Predictions vs Actual')

    ax.set_xlabel('Actual Values')

    ax.set_ylabel('Predicted Values')

    ax.legend()



# 預測與實際值對比

plot_predictions(axes[0], y_test, y_pred_gbdt, 'GBDT')

plot_predictions(axes[1], y_test, y_pred_lgb, 'LightGBM')

plot_predictions(axes[2], y_test, y_pred_xgb, 'XGBoost')

plot_predictions(axes[3], y_test, y_pred_ada, 'AdaBoost')



plt.tight_layout()

plt.show()



# 預測值分布圖

fig, axes = plt.subplots(2, 2, figsize=(16, 12))

axes = axes.flatten()



def plot_prediction_distribution(ax, y_pred, model_name):

    sns.histplot(y_pred, ax=ax, kde=True, bins=30)

    ax.set_title(f'{model_name} Predicted Values Distribution')

    ax.set_xlabel('Predicted Values')

    ax.set_ylabel('Frequency')



# 繪制預測值的分布

plot_prediction_distribution(axes[0], y_pred_gbdt, 'GBDT')

plot_prediction_distribution(axes[1], y_pred_lgb, 'LightGBM')

plot_prediction_distribution(axes[2], y_pred_xgb, 'XGBoost')

plot_prediction_distribution(axes[3], y_pred_ada, 'AdaBoost')



plt.tight_layout()

plt.show()

可視化部分：

預測與實際值對比：

預測值分布圖：

適用性和性能比較

GBDT：
– 適用性：通用的梯度提升算法，適用于各種回歸和分類任務。

性能：通常表現良好，但對大數據集可能較慢。

LightGBM：
– 適用性：高效的梯度提升算法，專為大規模數據和高維特征設計。

性能：在速度和內存使用上優于傳統的 GBDT，特別是在大數據集上。

XGBoost：
– 適用性：優化的梯度提升算法，具有強大的性能和靈活性。

性能：速度較快，性能優越，但調參可能較復雜。

AdaBoost：
– 適用性：提升算法的簡單實現，適合于少量樣本或簡單問題。

性能：可能不如 GBDT 或 LightGBM 強大，但簡單且易于理解。

調參細節

針對 GBDT、LightGBM、XGBoost 和 AdaBoost 的調參細節以及每種方法的建議參數范圍和優化技巧。

1. Gradient Boosting Decision Tree (GBDT)

GBDT 通常使用 sklearn 的 GradientBoostingRegressor 來實現。主要調參項包括：

n_estimators: 樹的數量。增加數量可以提高模型的性能，但會增加計算時間和可能導致過擬合。推薦范圍：100 到 1000。
learning_rate: 學習率。控制每棵樹對最終預測的貢獻。較小的學習率可以提高模型的性能，但需要更多的樹。推薦范圍：0.01 到 0.2。
max_depth: 每棵樹的最大深度。限制樹的深度可以防止過擬合。推薦范圍：3 到 10。
min_samples_split: 每個內部節點的最小樣本數，用于進行分裂。增加此值可以防止過擬合。推薦范圍：2 到 20。
min_samples_leaf: 每個葉子節點的最小樣本數。增加此值也可以防止過擬合。推薦范圍：1 到 20。
subsample: 每棵樹訓練時使用的樣本比例。推薦范圍：0.5 到 1.0。

調參技巧：

使用網格搜索（GridSearchCV）或隨機搜索（RandomizedSearchCV）來尋找最佳超參數。
首先固定 n_estimators 的值，調整 learning_rate 和 max_depth，然后調整其他參數。

2.LightGBM

LightGBM 是一個高效的梯度提升框架，適用于大規模數據。主要調參項包括：

num_leaves: 每棵樹的葉子數量。更多的葉子可能導致過擬合。推薦范圍：20 到 300。
learning_rate: 學習率。較小的學習率與更多的樹結合使用。推薦范圍：0.01 到 0.2。
n_estimators: 樹的數量。推薦范圍：100 到 1000。
max_depth: 樹的最大深度。推薦范圍：-1（無限制）到 20。
min_child_samples: 每個葉子上的最小樣本數。推薦范圍：10 到 100。
subsample: 訓練樣本的比例。推薦范圍：0.5 到 1.0。
colsample_bytree: 每棵樹的特征比例。推薦范圍：0.5 到 1.0。

調參技巧：

LightGBM 支持通過交叉驗證（lgb.cv）來選擇最佳超參數。
可以通過 optuna 等庫來進行超參數優化。

3. XGBoost

XGBoost 是另一種流行的梯度提升框架。主要調參項包括：

n_estimators: 樹的數量。推薦范圍：100 到 1000。
learning_rate: 學習率。推薦范圍：0.01 到 0.2。
max_depth: 樹的最大深度。推薦范圍：3 到 10。
min_child_weight: 每個葉子節點的最小樣本權重。推薦范圍：1 到 10。
subsample: 訓練樣本的比例。推薦范圍：0.5 到 1.0。
colsample_bytree: 每棵樹的特征比例。推薦范圍：0.5 到 1.0。
gamma: 節點分裂所需的最小損失函數下降值。推薦范圍：0 到 5。

調參技巧：

XGBoost 提供了交叉驗證功能（xgb.cv）來選擇最佳超參數。
使用 GridSearchCV 或 RandomizedSearchCV 來找到最佳參數組合。

4. AdaBoost

AdaBoost 是一種提升方法，通過調整每個樣本的權重來提高模型性能。主要調參項包括：

n_estimators: 基學習器的數量。推薦范圍：50 到 500。
learning_rate: 學習率。控制每個基學習器的貢獻。推薦范圍：0.01 到 1.0。
base_estimator: 基學習器。常用的基學習器是 DecisionTreeRegressor，可以設置其參數，如 max_depth。

調參技巧：

嘗試不同數量的基學習器和學習率組合。
基學習器的復雜度（例如 DecisionTreeRegressor 的 max_depth）會影響模型性能，適當調整。

代碼中的調參示例

假設我們使用網格搜索來調整 GBDT 的超參數：

from sklearn.model_selection import GridSearchCV



# 定義參數網格

param_grid = {

    'n_estimators': [100, 200, 300],

    'learning_rate': [0.01, 0.1, 0.2],

    'max_depth': [3, 5, 7],

    'min_samples_split': [2, 5, 10],

    'min_samples_leaf': [1, 2, 5]

}



# 創建模型

gbdt = GradientBoostingRegressor()



# 使用網格搜索進行調參

grid_search = GridSearchCV(estimator=gbdt, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error')

grid_search.fit(X_train, y_train)



# 輸出最佳參數

print("Best parameters found: ", grid_search.best_params_)

大家可以對 LightGBM 和 XGBoost 進行類似的調參，只需使用相應的模型和參數網格。

調參是一個迭代的過程，通常需要多次實驗才能找到最佳參數組合。希望這些細節和技巧能幫助大家在自己實際的實驗中，可以得到一些啟發！~

文章轉自微信公眾號@深夜努力寫Python

通透！十大時間序列模型最強總結！！

講透一個強大算法案例，LSTM ！！

#你可能也喜歡這些API文章!

如何高效爬取全球新聞網站 – 整合Scrapy、Selenium與Mediastack API實現自動化新聞采集

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道

一鍵對比試用API 限時免費

內容目錄

GBDT（Gradient Boosting Decision Tree）
LightGBM
XGBoost
AdaBoost
綜合案例

返回頂部

算法流程

優缺點

適用場景

LightGBM

原理

核心公式和解釋

算法流程

優缺點

適用場景

XGBoost

原理

核心公式和解釋

算法流程

優缺點

適用場景

AdaBoost

原理

核心公式和解釋

算法流程

優缺點

適用場景

綜合案例

數據準備

訓練模型并進行預測

性能評估

可視化

適用性和性能比較

調參細節

1. Gradient Boosting Decision Tree (GBDT)

2.LightGBM

3. XGBoost

4. AdaBoost

代碼中的調參示例

通透！十大時間序列模型 最強總結 ！！

講透一個強大算法案例，LSTM ！！

我們有何不同？

熱門場景實測，選對API

#AI文本生成大模型API

#AI深度推理大模型API

通透！十大時間序列模型最強總結！！