久久国产精品免费观看,亚洲国产精品大秀在线播放,全国男人的天堂天堂网

總之，K-均值聚類是一種把數據分組的方法，它通過找到每組數據的中心點，并不斷調整這些中心點的位置，來達到分組的目的。

理論基礎

數學原理與公式推理

1. 目標函數

K-均值聚類的目標是最小化每個簇內樣本到簇中心的距離之和。用數學符號表示，即最小化以下目標函數：

其中：

是簇的數量。
是第個簇的樣本集合。
是樣本點。
是第個簇的中心（質心）。

2. 質心的計算

質心是簇內所有點的平均值。第??個簇的質心??的計算公式為：

其中是簇中的樣本點數量。

算法流程

初始化：

隨機選擇個初始質心。

分配樣本到最近的質心：

對每個樣本點，計算其到每個質心的距離：

將??分配到最近的質心所對應的簇?：

更新質心：

對每個簇，重新計算其質心：

檢查收斂條件：

如果質心的位置在前后兩次迭代中沒有顯著變化，或者達到預設的迭代次數，則算法終止。
否則，返回步驟2。

詳細推導

目標函數的推導：

目標函數表示簇內平方誤差總和（Sum of Squared Errors, SSE），即所有樣本點到其所屬簇質心的歐幾里得距離的平方和：

為了最小化，我們需要反復調整每個簇的質心位置并重新分配樣本點到簇。

質心計算的推導：

對于每個簇，質心是簇內所有點的平均值：

這是因為質心是使得簇內點到質心距離平方和最小的點。

迭代更新：

在每次迭代中，通過最小化每個簇的內部誤差來更新質心，并通過最小化樣本點到質心的距離重新分配樣本點。
反復進行質心更新和樣本點分配，直到收斂。

收斂性與復雜度分析

收斂性：K-均值算法通過每次迭代減少目標函數的值，最終收斂到一個局部最優解。雖然不能保證找到全局最優解，但通常通過多次運行K-均值并選擇最小的值的結果來提高效果。
復雜度：在每次迭代中，計算每個樣本點到每個質心的距離的復雜度是，更新質心的復雜度是，因此總的時間復雜度大致為，其中是迭代次數，是樣本數量，是簇的數量。

綜上，K-均值聚類通過迭代優化，逐步最小化樣本點到質心的距離平方和，達到將數據分成多個相似簇的目的。

完整案例

我們來進行一個完整的K-均值聚類實際案例示例。

還是使用經典的鳶尾花數據集（Iris Dataset），這個數據集包含150個樣本，每個樣本有4個特征：花萼長度、花萼寬度、花瓣長度和花瓣寬度。此外，每個樣本還標注了其所屬的花的品種（鳶尾花的三種品種：Iris-setosa、Iris-versicolor和Iris-virginica）。

完整代碼，大家可以根據注釋進行理解，后面可以使用自己的數據集進行實現，加強理解。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.cluster import KMeans

from sklearn.datasets import load_iris

from sklearn.decomposition import PCA

from sklearn.metrics import silhouette_score



# 加載數據集

iris = load_iris()

X = iris.data

y = iris.target

feature_names = iris.feature_names



# 將數據集轉換為DataFrame，便于處理

df = pd.DataFrame(X, columns=feature_names)

df['target'] = y



# 數據可視化

sns.pairplot(df, hue='target', markers=["o", "s", "D"])

plt.suptitle('Iris Data Pair Plot', y=1.02)

plt.show()

# 使用PCA進行降維到2D，以便于可視化

pca = PCA(n_components=2)

X_pca = pca.fit_transform(X)

df_pca = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])

df_pca['target'] = y



# 可視化降維后的數據

plt.figure(figsize=(10, 6))

sns.scatterplot(x='PCA1', y='PCA2', hue='target', data=df_pca, palette='deep', markers=["o", "s", "D"])

plt.title('PCA of Iris Dataset')

plt.show()

# 確定最優的簇數

inertia = []

silhouette_scores = []

K_range = range(2, 11)



for k in K_range:

    kmeans = KMeans(n_clusters=k, random_state=42)

    kmeans.fit(X)

    inertia.append(kmeans.inertia_)

    score = silhouette_score(X, kmeans.labels_)

    silhouette_scores.append(score)



# 繪制肘部法圖和輪廓系數圖

fig, ax1 = plt.subplots(figsize=(12, 6))

plt.subplot(1, 2, 1)

plt.plot(K_range, inertia, 'bo-')

plt.xlabel('Number of clusters (k)')

plt.ylabel('Inertia')

plt.title('Elbow Method For Optimal k')



plt.subplot(1, 2, 2)

plt.plot(K_range, silhouette_scores, 'bo-')

plt.xlabel('Number of clusters (k)')

plt.ylabel('Silhouette Score')

plt.title('Silhouette Scores For Optimal k')



plt.show()

# 選擇最優簇數并進行K-均值聚類

optimal_k = 3  # 根據肘部法和輪廓系數選擇

kmeans = KMeans(n_clusters=optimal_k, random_state=42)

kmeans.fit(X)

labels = kmeans.labels_



# 將聚類結果加入到DataFrame

df_pca['cluster'] = labels



# 可視化聚類結果

plt.figure(figsize=(10, 6))

sns.scatterplot(x='PCA1', y='PCA2', hue='cluster', data=df_pca, palette='deep', markers=["o", "s", "D"])

plt.title('K-means Clustering of Iris Dataset')

plt.show()



# 打印聚類中心

centroids = kmeans.cluster_centers_

centroids_df = pd.DataFrame(centroids, columns=feature_names)

print("Cluster Centers (Centroids):\n", centroids_df)



# 打印輪廓系數

final_silhouette_score = silhouette_score(X, labels)

print(f"Final Silhouette Score: {final_silhouette_score}")

其中需要注意的幾個步驟：

數據加載與初步處理：

加載鳶尾花數據集，并將其轉換為DataFrame格式。
使用Seaborn進行數據的初步可視化，繪制特征對特征的散點圖，展示不同類別的分布情況。

降維與可視化：

使用PCA將數據降維到2D，以便于后續的可視化。
繪制降維后的數據分布圖，進一步觀察數據的結構。

確定最優的簇數：

使用肘部法和輪廓系數（Silhouette Score）來確定最優的簇數。
繪制肘部法圖和輪廓系數圖，根據圖形選擇最優的簇數（本例中選擇k=3）。

K-均值聚類：

使用K-均值算法進行聚類，并將結果標簽加入到DataFrame中。
可視化聚類結果，展示不同簇的分布情況。

聚類中心與輪廓系數：

打印聚類中心（質心）的位置。
計算并打印最終的輪廓系數，以評估聚類效果。

算法優化

算法優化方面，可以考慮三方面：

初始質心選擇優化
數據標準化
重復實驗

1. 初始質心選擇優化：使用k-means++算法來優化初始質心的選擇，從而提高聚類的穩定性和準確性。

kmeans = KMeans(n_clusters=optimal_k, init='k-means++', random_state=42)

2. 數據標準化：在聚類之前，對數據進行標準化處理，使得每個特征的均值為0，方差為1。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X)

3. 重復實驗：運行多次K-均值聚類，并選擇最小的目標函數值對應的聚類結果。

kmeans = KMeans(n_clusters=optimal_k, init='k-means++', n_init=10, random_state=42)

通過整個的代碼和優化策略，大家可以感受整個過程。代碼中，實現了鳶尾花數據集的聚類分析，并且通過可視化、評估指標等手段對聚類效果進行了詳細的評估和優化。

模型分析

K-均值聚類模型的優缺點

優點：

簡單易實現：K-均值聚類算法簡單直觀，易于理解和實現。
計算速度快：適用于大規模數據集，計算復雜度較低。
適用范圍廣：對于球狀分布的數據效果較好，特別是在數據量不是很大、簇的形狀規則且差異明顯時表現良好。

缺點：

需要預先指定簇的數量K：對于不知道簇數量的數據，難以確定合適的K值。
對初始質心的選擇敏感：初始質心的選擇會影響最終的聚類結果，可能導致局部最優解。
對異常值敏感：異常值或噪聲會對質心的計算和最終的聚類結果產生較大影響。

與相似算法的對比

K-均值聚類 vs 層次聚類（Hierarchical Clustering）：

層次聚類不需要預先指定簇的數量，能夠從數據中找出不同層次的簇結構，但計算復雜度較高，不適合大數據集。
K-均值聚類適用于大數據集和球狀分布的數據，但需要預先指定簇的數量。

K-均值聚類 vs 密度聚類（Density-Based Clustering，如DBSCAN）：

DBSCAN能夠發現任意形狀的簇，并且對噪聲和異常值不敏感，但需要調整一些參數如鄰域大小和最小樣本數。
K-均值聚類簡單易懂，適用于較為規則的簇形狀和較大的數據集，但對數據的分布形狀和簇的數量敏感。

優選和考慮其他算法的情況

K-均值聚類適用情況：

數據量較大：K-均值聚類的計算速度快，適合處理大規模數據集。
簇的形狀較為規則：如果數據集的簇形狀接近球狀，K-均值聚類效果較好。
已知簇的數量：當我們事先知道數據應該分成幾個簇時，K-均值聚類是一個簡單有效的選擇。

考慮其他算法的情況：

不確定簇的數量：如果無法確定簇的數量，可以考慮使用層次聚類或基于密度的聚類算法。
數據包含異常值或噪聲：對于數據中存在異常值或噪聲的情況，可以考慮使用DBSCAN等密度聚類算法，這些算法對異常值較為魯棒。
簇形狀復雜：如果數據集中的簇形狀非常復雜或者不規則，層次聚類或者基于密度的聚類可能更適合。

最后

K-均值聚類是一種簡單且有效的聚類算法，特別適合處理大規模數據集和具有明顯球狀分布的數據。在選擇算法時，需要根據數據的特點（如簇的形狀、數據量、簇數量的確定性等）來權衡不同算法的優缺點，以達到最佳的聚類效果。

本文章轉載微信公眾號@深夜努力寫Python

講透一個強大算法模型，層次聚類！！

快速突破PyTorch，構建CNN圖像分類模型！！

#你可能也喜歡這些API文章!

如何高效爬取全球新聞網站 – 整合Scrapy、Selenium與Mediastack API實現自動化新聞采集

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道