日韩中文字幕在线观看,99久久精品无码一区二区毛片,亚洲一级毛片欧美一级说乱

import matplotlib.pyplot as plt

import numpy as np



plt.rcParams['font.sans-serif'] = 'SimHei'

plt.rcParams['axes.unicode_minus'] = False



# 第一個(gè)子圖：均值為0，標(biāo)準(zhǔn)差為1的正態(tài)分布

mean1 = 0

std_dev1 = 1

num_samples = 1000

data1 = np.random.normal(mean1, std_dev1, num_samples)

plt.figure(figsize=(12, 6))



plt.subplot(1, 2, 1)

plt.hist(data1, bins=30, density=True, alpha=0.6, color='g', edgecolor='black')

plt.title('正態(tài)分布示例 1')

plt.xlabel('值')

plt.ylabel('密度')



x = np.linspace(-4, 4, 100)

p = 1/(std_dev1 * np.sqrt(2 * np.pi)) * np.exp(-(x - mean1)**2 / (2 * std_dev1**2))

plt.plot(x, p, 'k', linewidth=2, label = '正態(tài)分布曲線')

plt.legend()

plt.text(-3, 0.35, r'$\mu=0,\ \sigma=1$', fontsize=12)

plt.grid(True)



# 第二個(gè)子圖：均值為5，標(biāo)準(zhǔn)差為10的正態(tài)分布

mean2 = 5

std_dev2 = 10

data2 = np.random.normal(mean2, std_dev2, num_samples)



plt.subplot(1, 2, 2)

plt.hist(data2, bins=30, density=True, alpha=0.6, color='g', edgecolor='black')

plt.title('正態(tài)分布示例 2')

plt.xlabel('值')

plt.ylabel('密度')



x = np.linspace(-30, 40, 100)

p = 1/(std_dev2 * np.sqrt(2 * np.pi)) * np.exp(-(x - mean2)**2 / (2 * std_dev2**2))

plt.plot(x, p, 'k', linewidth=2, label='正態(tài)分布曲線')

plt.legend()

plt.text(-25, 0.035, r'$\mu=5,\ \sigma=10$', fontsize=12)

plt.grid(True)



plt.tight_layout()

plt.show()

正態(tài)分布作用

正態(tài)分布的應(yīng)用廣泛，包括但不限于：

統(tǒng)計(jì)推斷: 在假設(shè)檢驗(yàn)和置信區(qū)間估計(jì)中，正態(tài)分布是常用的基礎(chǔ)分布之一，例如 t 檢驗(yàn)、方差分析等。這些方法要求數(shù)據(jù)滿足正態(tài)分布假設(shè)，以保證推斷的準(zhǔn)確性和可靠性
數(shù)據(jù)建模: 在許多機(jī)器學(xué)習(xí)算法中，假設(shè)數(shù)據(jù)服從正態(tài)分布有時(shí)是必要的前提條件，如線性回歸模型中的殘差

如何檢驗(yàn)數(shù)據(jù)是否為正態(tài)分布

正態(tài)分布檢驗(yàn)是一種用來(lái)驗(yàn)證數(shù)據(jù)是否服從正態(tài)分布的方法，常見(jiàn)的正態(tài)分布檢驗(yàn)包括以下幾種：

直方圖和正態(tài)概率圖檢驗(yàn)：

直方圖檢驗(yàn)：通過(guò)觀察數(shù)據(jù)的直方圖來(lái)初步判斷數(shù)據(jù)的分布形態(tài)，是否近似正態(tài)分布
正態(tài)概率圖（Q-Q 圖）：將數(shù)據(jù)的分位數(shù)與標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)進(jìn)行比較，如果數(shù)據(jù)點(diǎn)落在一條直線上，則表明數(shù)據(jù)與正態(tài)分布擬合良好

統(tǒng)計(jì)檢驗(yàn)方法：

Shapiro-Wilk 檢驗(yàn)：用于小樣本（通常小于50個(gè)觀測(cè)值）的正態(tài)性檢驗(yàn)，具有較高的敏感性
Kolmogorov-Smirnov 檢驗(yàn)：適用于大樣本的正態(tài)性檢驗(yàn)，但相對(duì)于 Shapiro-Wilk 檢驗(yàn)來(lái)說(shuō)，對(duì)于正態(tài)分布的檢測(cè)能力較弱

偏度和峰度檢驗(yàn)：

偏度和峰度的數(shù)值可以提供關(guān)于數(shù)據(jù)分布形態(tài)的信息，對(duì)于正態(tài)分布來(lái)說(shuō)，偏度應(yīng)接近于0，峰度應(yīng)接近于3

Anderson-Darling 檢驗(yàn)：

Anderson-Darling 檢驗(yàn)結(jié)合了樣本的分位數(shù)與理論分布的比較，提供了對(duì)數(shù)據(jù)是否來(lái)自指定分布的詳細(xì)檢驗(yàn)

mean = 0   

std_dev = 1  

num_samples = 1000  



data = np.random.normal(mean, std_dev, num_samples)

# 添加異常值

data[0] = 8

data[1] = -5

plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)

plt.hist(data, bins=30, density=True, alpha=0.6, color='g')

plt.title('正態(tài)分布（包含異常值）')

plt.xlabel('值')

plt.ylabel('密度')



xmin, xmax = plt.xlim()

x = np.linspace(xmin, xmax, 100)

p = np.exp(-(x-mean)**2 / (2*std_dev**2)) / (std_dev * np.sqrt(2*np.pi))

plt.plot(x, p, 'k', linewidth=2, alpha = 0.3)



# 標(biāo)記異常值

plt.scatter([data[0], data[1]], [0, 0], color='red', marker='o', label='異常值')



plt.text(-3, 0.35, r'$\mu=0,\ \sigma=1$', fontsize=12)

plt.text(-3, 0.3, '均值和標(biāo)準(zhǔn)差 ', fontsize=10, color='blue')

plt.text(2, 0.2, '正態(tài)分布曲線', fontsize=10, color='black')

plt.legend()

plt.grid(True)



from scipy import stats

# 繪制 Q-Q 圖

plt.subplot(1, 3, 2)

stats.probplot(data, dist="norm", plot=plt)

plt.title('Q-Q 圖')

plt.xlabel('理論分位數(shù)')

plt.ylabel('樣本分位數(shù)')

plt.grid(True)

# 繪制 P-P 圖

plt.subplot(1, 3, 3)

stats.probplot(data, dist="norm", plot=plt, fit=True)

plt.title('P-P 圖')

plt.xlabel('理論累積概率')

plt.ylabel('樣本累積概率')

plt.grid(True)

plt.show()

生成一組包含異常值的正態(tài)分布數(shù)據(jù)，繪制包含異常值的直方圖、Q-Q 圖和 P-P 圖，以幫助可視化數(shù)據(jù)分布和判斷數(shù)據(jù)是否符合正態(tài)分布，如果數(shù)據(jù)點(diǎn)落在一條直線上，則表明數(shù)據(jù)與正態(tài)分布擬合良好，可發(fā)現(xiàn)存在兩個(gè)數(shù)據(jù)點(diǎn)不在一條直線上，和異常值存在對(duì)應(yīng)，對(duì)于這種異常值可采取3??原則來(lái)識(shí)別，3??原則來(lái)源于正態(tài)分布的特性，在正態(tài)分布中，約99.7%的數(shù)據(jù)點(diǎn)會(huì)落在均值和??的??的范圍內(nèi)，因此超過(guò)這個(gè)范圍的數(shù)據(jù)點(diǎn)通常就被認(rèn)為是異常值，詳情代碼參考往期文章基于分布的四種離群值檢驗(yàn)方法

泊松分布

泊松分布理論

泊松分布是一種離散概率分布，用于描述在固定時(shí)間間隔或空間區(qū)域內(nèi)，事件發(fā)生的次數(shù)，它假設(shè)這些事件是獨(dú)立發(fā)生的，并且在任意兩個(gè)不重疊的時(shí)間間隔內(nèi)，事件發(fā)生的概率是相同的，泊松分布的概率質(zhì)量函數(shù)公式如下：

# 設(shè)置泊松分布參數(shù)

lam = 3  # 泊松分布的參數(shù) lambda，控制事件的平均發(fā)生率



# 生成泊松分布的數(shù)據(jù)

k_values = np.arange(0, 15)  # 可視化的事件發(fā)生次數(shù)范圍

probabilities = np.exp(-lam) * np.power(lam, k_values) / np.array([np.math.factorial(k) for k in k_values])



# 繪制泊松分布的柱狀圖

plt.figure(figsize=(10, 6), dpi=300)

plt.bar(k_values, probabilities, color='skyblue', edgecolor='black')



plt.title('泊松分布')

plt.xlabel('事件發(fā)生次數(shù)')

plt.ylabel('概率')

for k, prob in zip(k_values, probabilities):

    plt.text(k, prob + 0.01, f'{prob:.3f}', ha='center', va='bottom')



plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.xticks(k_values)

plt.ylim(0, max(probabilities) + 0.1)

plt.show()

卡方分布

卡方分布理論

卡方分布是一種連續(xù)概率分布，常用于描述多個(gè)獨(dú)立標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量的平方和的分布，卡方分布的概率密度函數(shù)公式如下：

from scipy.stats import chi2



# 設(shè)置自由度

degrees_freedom_1 = 5

degrees_freedom_2 = 10

x = np.linspace(0, 20, 1000)

pdf_1 = chi2.pdf(x, degrees_freedom_1)

pdf_2 = chi2.pdf(x, degrees_freedom_2)



plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)

plt.plot(x, pdf_1, label=f'k={degrees_freedom_1}')

plt.title('卡方分布概率密度函數(shù)')

plt.xlabel('x')

plt.ylabel('概率密度')

plt.legend()

plt.grid(True)



plt.subplot(1, 2, 2)

plt.plot(x, pdf_2, label=f'k={degrees_freedom_2}')

plt.title('卡方分布概率密度函數(shù)')

plt.xlabel('x')

plt.ylabel('概率密度')

plt.legend()

plt.grid(True)

plt.show()

卡方分布作用

假設(shè)檢驗(yàn)：用于比較觀察到的數(shù)據(jù)與期望數(shù)據(jù)之間的差異，常見(jiàn)的例子包括卡方檢驗(yàn)和擬合優(yōu)度檢驗(yàn)
置信區(qū)間構(gòu)造：用于估計(jì)參數(shù)的置信區(qū)間，尤其是在數(shù)據(jù)的分布未知但滿足一定條件時(shí)，例如方差分析中對(duì)組間方差的估計(jì)
模型擬合：用于評(píng)估模型的擬合程度，例如線性回歸模型中的殘差分析

文章轉(zhuǎn)自微信公眾號(hào)@Python機(jī)器學(xué)習(xí)AI