国产福利一区二区精品视频,成人啪啪漫画网18,亚洲色中文字幕在线播放

library(dplyr) #數(shù)據(jù)處理使用
library(data.table) #數(shù)據(jù)讀取使用
library(xgboost) #模型使用
library(Matrix) #模型數(shù)據(jù)處理使用
library(caret) # 調(diào)參和計(jì)算模型評(píng)價(jià)參數(shù)使用
library(pROC) #繪圖使用
library(ggplot2) #繪圖使用
library(ggpubr) #繪圖使用
library(ggprism) #繪圖使用
# 讀取數(shù)據(jù)
data <- fread("./XGBoost.txt",data.table = F) # 替換為你的數(shù)據(jù)文件名或路徑

數(shù)據(jù)長(zhǎng)這個(gè)樣子，一共35727行，214列。每一行代表一個(gè)樣本，第一列是樣本標(biāo)簽malignant或normal，后面213列是213個(gè)特征。我們想根據(jù)213個(gè)特征，使用RF訓(xùn)練出一個(gè)能夠?qū)颖具M(jìn)行精準(zhǔn)分類的模型。

構(gòu)建XGBoost模型

# 將分類轉(zhuǎn)換成0和1

data <- data %>% mutate(type = ifelse(type == "normal",1,0))

# 分割數(shù)據(jù)為訓(xùn)練集和測(cè)試集

set.seed(123)  # 設(shè)置隨機(jī)種子，保證結(jié)果可復(fù)現(xiàn)

split <- sample.split(data$type, SplitRatio = 0.8)  # 將數(shù)據(jù)按照指定比例分割

train_data <- subset(data, split == TRUE)  # 訓(xùn)練集

test_data <- subset(data, split == FALSE)  # 測(cè)試集



# 定義訓(xùn)練集特征和目標(biāo)變量

X_train <- train_data[, -1]

y_train <- train_data[, 1]



# 將特征和目標(biāo)變量轉(zhuǎn)換為DMatrix格式

dtrain <- xgb.DMatrix(data = as.matrix(X_train), label = y_train)

# 設(shè)置XGBoost參數(shù)

params <- list(objective = "binary:logistic", eval_metric = "logloss", eta = 0.1, max_depth = 3)

# 設(shè)置迭代輪數(shù)（樹的數(shù)量）

nrounds <- 100

# 訓(xùn)練XGBoost模型

xgb_model <- xgboost(params = params, data = dtrain, nrounds = nrounds)



# 在訓(xùn)練集上進(jìn)行預(yù)測(cè)

train_predictions <- predict(xgb_model, newdata = dtrain)

train_predictions <- ifelse(train_predictions > 0.5,1,0)



# 計(jì)算準(zhǔn)確率

accuracy <- mean(train_predictions == y_train)

print(paste("訓(xùn)練集準(zhǔn)確率:", accuracy))



# 在測(cè)試集上進(jìn)行預(yù)測(cè)

X_test <- test_data[, -1]

y_test <- as.factor(test_data[, 1])



dtest <- xgb.DMatrix(data = as.matrix(X_test))

test_predictions <- predict(xgb_model, newdata = dtest)

test_predictions <- ifelse(test_predictions > 0.5,1,0)



# 計(jì)算準(zhǔn)確率

accuracy <- mean(test_predictions == y_test)

print(paste("測(cè)試集準(zhǔn)確率:", accuracy))

從accuracy來(lái)看，初始模型在訓(xùn)練集和測(cè)試集中表現(xiàn)的都挺好的。

使用caret包進(jìn)行調(diào)參

caret包中，XGBoost模型有七個(gè)參數(shù)可以進(jìn)行調(diào)節(jié)。

nrounds：迭代輪數(shù)，即樹的數(shù)量。它決定了模型的復(fù)雜度和訓(xùn)練時(shí)間，通常需要根據(jù)數(shù)據(jù)集大小和模型性能進(jìn)行調(diào)整。
max_depth：每棵樹的最大深度。它控制樹的復(fù)雜度，較大的值可能會(huì)導(dǎo)致過擬合，較小的值可能會(huì)導(dǎo)致欠擬合。
eta：學(xué)習(xí)率（也稱為步長(zhǎng)），控制每個(gè)樹對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)程度。較小的學(xué)習(xí)率可以使模型更加穩(wěn)定，但需要更多的迭代次數(shù)才能達(dá)到最優(yōu)結(jié)果。
gamma：樹分裂所需的最小損失減少值。它控制了樹的生長(zhǎng)過程中分裂節(jié)點(diǎn)的限制條件，較大的值可以防止過擬合。
colsample_bytree：每棵樹的特征子采樣比例。它決定了每棵樹使用的特征的比例，較小的值可以增加模型的多樣性，防止過擬合。
min_child_weight：葉子節(jié)點(diǎn)的最小樣本權(quán)重和。它控制了樹的生長(zhǎng)過程中分裂節(jié)點(diǎn)的限制條件，較大的值可以防止過擬合。
subsample：樣本子采樣比例。它控制每棵樹使用的樣本比例，較小的值可以防止過擬合。

##參數(shù)調(diào)整

# 將數(shù)據(jù)集轉(zhuǎn)換為trainControl對(duì)象

ctrl <- trainControl(

  method = "cv",   # 交叉驗(yàn)證

  number = 5,     # 5折交叉驗(yàn)證

  verboseIter = FALSE)



# 設(shè)置參數(shù)網(wǎng)格

param_grid <- expand.grid(

  nrounds = c(100, 200), # 迭代輪數(shù)（nrounds）

  max_depth = c(3, 6), # 最大樹深度（max_depth）

  eta = c(0.1), # 學(xué)習(xí)率（eta）

  gamma = c(0, 0.1), # 樹分裂所需的最小損失減少值

  colsample_bytree = c(0.8), # 特征子采樣比例（colsample_bytree）

  min_child_weight = c(1, 3), # 葉子節(jié)點(diǎn)的最小權(quán)重和（min_child_weight）

  subsample = c(0.8)) # 和樣本子采樣比例（subsample）



# 使用train()函數(shù)進(jìn)行參數(shù)調(diào)優(yōu)

xgb_model <- train(

  x = X_train,

  y = y_train,

  method = "xgbTree",

  trControl = ctrl,

  tuneGrid = param_grid)



# 輸出最佳參數(shù)配置

print(xgb_model$bestTune)

使用最佳參數(shù)訓(xùn)練模型

# 設(shè)置最佳XGBoost參數(shù)

params <- list(objective = "binary:logistic", eval_metric = "logloss", 

               eta = 0.1, max_depth = 3, gamma = 0.1,

               colsample_bytree = 0.8,

               min_child_weight = 1,

               subsample = 0.8)



# 訓(xùn)練模型

xgb_model_final <- xgb.train(params = params, data = dtrain, nrounds = 200)



# 在訓(xùn)練集上進(jìn)行預(yù)測(cè)

train_predictions <- predict(xgb_model_final, newdata = dtrain)

train_predictions <- ifelse(train_predictions > 0.5,1,0)

# 計(jì)算準(zhǔn)確率

accuracy <- mean(train_predictions == y_train)

print(paste("訓(xùn)練集準(zhǔn)確率:", accuracy))



# 在測(cè)試集上進(jìn)行預(yù)測(cè)

X_test <- test_data[, -1]

y_test <- as.factor(test_data[, 1])

dtest <- xgb.DMatrix(data = as.matrix(X_test))

test_predictions <- predict(xgb_model_final, newdata = dtest)

test_predictions <- ifelse(test_predictions > 0.5,1,0)



# 計(jì)算準(zhǔn)確率

accuracy <- mean(test_predictions == y_test)

print(paste("測(cè)試集準(zhǔn)確率:", accuracy))