分類(Classification)是機器學習中的一種有監督學習任務,其目標是根據輸入數據的特征將數據點分配到預定義的類別中

二分類、多類分類、多標簽分類和多輸出分類是機器學習中的四種重要分類問題。其中二分類區分兩個類別,多類分類選擇多個類別中的一個,多標簽分類允許一個樣本擁有多個標簽,而多輸出分類則為每個類別提供獨立的輸出值或概率。

一、二分類

二分類(Binary Classification)是什么?二分類是機器學習中最基本的分類問題之一,它將數據集中的樣本劃分為兩個互斥的類別。二分類任務的目標是預測一個樣本屬于兩個類別中的哪一個。

二分類應用場景有哪些?

垃圾郵件檢測(郵件是垃圾郵件還是非垃圾郵件)、疾病診斷(患者是否患病)、信用評分(個人信用是否達標)等。

二分類常見算法有哪些?邏輯回歸、支持向量機(SVM)等。

邏輯回歸用閾值判斷實現二分類,適合線性和非線性數據;支持向量機找最優超平面分類,對線性不可分數據用核函數處理,泛化能力強。

  1. 邏輯回歸(Logistic Regression):將線性模型的輸出映射到0和1之間,通過閾值判斷來進行二分類。
  2. 支持向量機(Support Vector Machine, SVM):在特征空間中找到一個最優的超平面來實現分類。對于線性不可分的數據,可以通過核函數將其映射到高維空間,從而變得線性可分。

二、多類分類

多類分類(Multi-class Classification)是什么?多類分類問題是指數據集中的樣本可以被劃分為多個類別,并且每個樣本只能屬于一個類別。多類分類任務的目標是預測一個樣本屬于多個類別中的某一個。

多類分類應用場景有哪些?手寫數字識別(0-9的數字)、物體識別(貓、狗、兔等)、文本分類(新聞、體育、科技等)等。

多類分類常見算法有哪些?Softmax回歸、k-近鄰(k-NN)等。

Softmax回歸通過映射線性模型輸出到概率分布實現多類分類,而k-近鄰(k-NN)則基于距離度量與已知樣本的相似性來進行多類分類。

  1. Softmax回歸:將線性模型的輸出映射到多個類別上的概率分布,通過比較不同類別的概率來進行多分類。具體來說,Softmax函數會將線性模型的輸出(也稱為logits)轉換為概率分布,每個類別的概率值都在0和1之間,且所有類別的概率值之和為1。
  2. k-近鄰(k-Nearest Neighbors, k-NN):基于實例的學習方法,通過比較待分類樣本與已知類別樣本之間的距離來進行分類。在多類分類問題中,k-NN算法會選擇距離待分類樣本最近的k個已知樣本,并根據這些樣本的類別進行投票,選擇出現次數最多的類別作為待分類樣本的類別。

三、多標簽分類

多標簽分類(Multi-label Classification)是什么?多標簽分類問題是指一個樣本可以同時被賦予多個標簽,這些標簽之間不是互斥的。多標簽分類任務的目標是預測一個樣本同時屬于哪些標簽集合中的標簽。

多標簽分類應用場景有哪些?文本主題標注(一篇文章可能同時涉及政治、經濟、文化等多個主題)、圖像標注(一張圖片可能包含多個對象或場景)等。

多標簽分類常見方法是什么?將多標簽分類問題轉化為多個二分類問題來解決,或者利用上一個輸出的標簽作為下一個標簽分類器的輸入。

四、多輸出分類

多輸出分類(Multi-output Classification)是什么?多輸出分類問題是指每個樣本可以屬于多個類別,并且每個類別可能有不同的輸出值或概率。多輸出分類任務的目標是預測一個樣本在每個類別上的輸出值或概率。

多輸出分類應用場景有哪些?醫學診斷(一個患者可能同時患有多種疾病,每種疾病需要獨立的預測結果)、圖像分割(每個像素點可能屬于多個類別)等。

多輸出分類常見方法是什么?多輸出神經網絡、多輸出支持向量機等。這些方法通常需要對每個類別構建獨立的輸出層,并使用適當的損失函數進行訓練。

本文章轉載微信公眾號@架構師帶你玩轉AI

上一篇:

一文徹底搞懂機器學習 - Softmax回歸(Softmax Regression)

下一篇:

一文徹底搞懂機器學習 - 基礎知識
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費