Transformer架構(gòu)由Vaswani等人于2017年提出,它通過(guò)并行處理標(biāo)記的能力,打破了傳統(tǒng)循環(huán)序列到序列模型(如LSTM網(wǎng)絡(luò)和RNN)的順序處理限制。Transformer的關(guān)鍵創(chuàng)新在于其多頭自注意力機(jī)制,它允許模型并行訓(xùn)練。概念上,Transformer架構(gòu)由編碼器和解碼器兩部分組成。編碼器將輸入序列映射到更高維的嵌入空間,而解碼器則從這些嵌入中生成輸出序列。通常,Transformer模型包含多個(gè)編碼器和解碼器層。圖2展示了Transformer模型的架構(gòu)。

與其他傳統(tǒng)模型不同,Transformer能夠通過(guò)同時(shí)處理輸入數(shù)據(jù)的所有部分,實(shí)現(xiàn)更快速和更高效的并行處理。為了解決在沒(méi)有內(nèi)在順序處理的情況下保持序列信息的問(wèn)題,Transformer使用了一種稱(chēng)為位置編碼的技術(shù)。該機(jī)制允許每個(gè)標(biāo)記(例如句子中的單詞)編碼其在序列中的相對(duì)位置。位置編碼至關(guān)重要;沒(méi)有它,Transformer會(huì)將句子視為一個(gè)詞袋,完全忽略了單詞的順序。

位置編碼使用涉及正弦和余弦函數(shù)的特定數(shù)學(xué)公式。該公式確保序列中的每個(gè)位置都獲得唯一的編碼。通過(guò)將此編碼附加到標(biāo)記的嵌入中,模型可以了解標(biāo)記在序列中的位置。精確的公式如下:

E(pos, 2i) = sin(pos / 10000^(2i/dim))

E(pos, 2i + 1) = cos(pos / 10000^(2i/dim))

其中pos表示序列中的標(biāo)記位置,i從0到dim/2,分別表示偶數(shù)和奇數(shù)位置。

正弦和余弦函數(shù)的選擇特別有利,因?yàn)樗鼈優(yōu)榍度肟臻g中的位置信息提供了獨(dú)特且一致的方式。這種設(shè)置不僅簡(jiǎn)化了模型根據(jù)相對(duì)位置進(jìn)行注意力的學(xué)習(xí),而且還使模型能夠泛化到訓(xùn)練期間遇到的序列長(zhǎng)度之外的長(zhǎng)度。這種方法的美妙之處在于它賦予模型從數(shù)據(jù)中識(shí)別模式的能力,并增加了位置上下文。這種簡(jiǎn)單而深刻的方法對(duì)于Transformer模型在從文本生成和語(yǔ)言翻譯到圖像識(shí)別等語(yǔ)言之外的領(lǐng)域的成功至關(guān)重要。

B. 自編碼模型

自編碼模型,也稱(chēng)為“僅編碼器模型”,主要針對(duì)以理解為中心的自然語(yǔ)言處理任務(wù),例如BERT、ERNIE和ALBERT。它們通過(guò)雙向?qū)W習(xí)和掩碼等訓(xùn)練技術(shù),在上下文理解方面表現(xiàn)出色。然而,它們也存在一些局限性:

C. 自回歸模型

這些模型,包括GPT和LLaMA系列,近年來(lái)備受關(guān)注。它們的自回歸設(shè)計(jì)意味著標(biāo)記生成依賴(lài)于先前標(biāo)記,這使得它們非常適合生成任務(wù)。這些模型提供了:

D. 序列到序列模型

T5和GLM等模型結(jié)合了前兩種類(lèi)型的優(yōu)勢(shì),擅長(zhǎng)將輸入序列映射到固定長(zhǎng)度的嵌入,使解碼器能夠生成上下文相關(guān)的輸出。這使得它們特別適用于條件生成任務(wù),例如摘要、翻譯和問(wèn)答,其中輸出緊密依賴(lài)于提供的輸入。

編碼器和解碼器組件的集成使Seq2Seq模型能夠處理復(fù)雜的輸入,但也帶來(lái)了以下缺點(diǎn):

組合增加了參數(shù)數(shù)量,可能影響效率。

訓(xùn)練此類(lèi)模型需要大量的計(jì)算資源,因?yàn)閷?duì)齊輸入和輸出序列很復(fù)雜。

E. 變分自編碼器(Variational auto-encoder

變分自編碼器(VAE)是一種復(fù)雜的生成模型,它通過(guò)整合概率建模來(lái)發(fā)展一個(gè)有意義且通用的潛在空間,從而從傳統(tǒng)的自編碼器(AE)中演變而來(lái)。與標(biāo)準(zhǔn)的AE不同,VAE的編碼器產(chǎn)生由均值和方差定義的概率分布,而不是單個(gè)確定性點(diǎn)。

VAE使用概率編碼來(lái)創(chuàng)建一個(gè)動(dòng)態(tài)和可適應(yīng)的潛在空間,不僅允許數(shù)據(jù)重建,而且還允許通過(guò)從學(xué)習(xí)的概率分布中采樣來(lái)生成新數(shù)據(jù)。這增強(qiáng)了模型的泛化能力,并確保潛在空間中的平滑過(guò)渡,這對(duì)于數(shù)據(jù)生成和增強(qiáng)等任務(wù)至關(guān)重要。它利用重參數(shù)化技巧,在反向傳播過(guò)程中保持梯度流動(dòng),使?jié)撛谧兞勘3挚晌⑿裕瑥亩鴮?shí)現(xiàn)傳統(tǒng)的訓(xùn)練。VAE的目標(biāo)函數(shù)在重建損失和Kullback-Leibler(KL)散度之間進(jìn)行權(quán)衡,重建損失評(píng)估解碼器樣本與原始輸入的準(zhǔn)確性,而KL散度通過(guò)鼓勵(lì)后驗(yàn)接近標(biāo)準(zhǔn)高斯分布來(lái)促進(jìn)潛在分布的逼近。這種雙重關(guān)注確保了精確的輸入重建和平滑、連續(xù)的潛在空間,使VAE成為圖像生成、數(shù)據(jù)增強(qiáng)和異常檢測(cè)等應(yīng)用的強(qiáng)大工具。

F. 生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network

生成對(duì)抗網(wǎng)絡(luò)(GAN)是Goodfellow等人于2014年提出的一類(lèi)深度學(xué)習(xí)框架。GAN由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成,即生成器和判別器,它們通過(guò)對(duì)抗過(guò)程同時(shí)進(jìn)行訓(xùn)練。生成器的目標(biāo)是創(chuàng)建類(lèi)似于真實(shí)數(shù)據(jù)的合成數(shù)據(jù),而判別器的角色是區(qū)分真實(shí)和合成數(shù)據(jù)。隨著時(shí)間的推移,隨著訓(xùn)練的進(jìn)行,生成器越來(lái)越擅長(zhǎng)創(chuàng)建真實(shí)數(shù)據(jù),而判別器越來(lái)越擅長(zhǎng)區(qū)分真實(shí)和假數(shù)據(jù),如圖所示。

III. 以前基于領(lǐng)域的LLM綜述(Previous Domain-based LLM Surveys)

本節(jié)對(duì)現(xiàn)有的大語(yǔ)言模型(LLM)調(diào)查進(jìn)行綜合分析。我們根據(jù)這些調(diào)查論文所涉及的主題對(duì)它們進(jìn)行比較評(píng)估。調(diào)查按時(shí)間順序排列,使讀者能夠跟蹤研究重點(diǎn)隨時(shí)間的演變。通過(guò)檢查這些調(diào)查中的內(nèi)容,讀者可以深入了解高級(jí)LLM開(kāi)發(fā)所取得的進(jìn)展。類(lèi)別包括:

IV. LLMS的比較分析

本節(jié)使用各種基準(zhǔn)對(duì)主要語(yǔ)言模型進(jìn)行比較分析,這些基準(zhǔn)評(píng)估了模型在語(yǔ)言理解、推理和多模態(tài)任務(wù)中的能力。這些基準(zhǔn)旨在評(píng)估語(yǔ)言理解和認(rèn)知能力的各個(gè)方面。

A. 主要基準(zhǔn)

MMLU(大量多任務(wù)語(yǔ)言理解): 包含57個(gè)任務(wù),涵蓋從人類(lèi)概念到高中考試的各種主題,評(píng)估語(yǔ)言模型在廣泛主題上的全面理解和泛化能力。

SuperGLUE: 設(shè)計(jì)為高級(jí)基準(zhǔn),用于評(píng)估和促進(jìn)AI模型在推理和預(yù)測(cè)能力方面的改進(jìn),這些能力超越了GLUE基準(zhǔn)。

HellaSwag: 設(shè)計(jì)用于測(cè)試模型的一般知識(shí)和使用日常知識(shí)完成場(chǎng)景的能力。

ARC(AI2推理挑戰(zhàn)): 提供小學(xué)水平的多項(xiàng)選擇題,測(cè)試模型理解和應(yīng)用推理技能的能力。

WinoGrande: 包含大量winograd方案,用于測(cè)試AI模型的常識(shí)推理能力

B. 多模態(tài)LLM基準(zhǔn)

NLVR2(真實(shí)世界視覺(jué)推理): 評(píng)估AI模型使用自然語(yǔ)言進(jìn)行視覺(jué)推理的能力。它要求模型確定給定的自然語(yǔ)言陳述是否準(zhǔn)確地描述了圖像對(duì)。

視覺(jué)問(wèn)答(VQA)基準(zhǔn): 評(píng)估AI系統(tǒng)回答與給定圖像相關(guān)問(wèn)題的能力。該多模態(tài)基準(zhǔn)結(jié)合了自然語(yǔ)言處理和圖像識(shí)別,以測(cè)試模型對(duì)視覺(jué)內(nèi)容的全面理解,以及與概念和事實(shí)查詢(xún)相關(guān)聯(lián)的能力。

V. LLMS的微調(diào)技術(shù)

LLM的微調(diào)方法在各種應(yīng)用中使用,包括領(lǐng)域?qū)I(yè)化、性能改進(jìn)和偏差緩解。本文詳細(xì)介紹了兩種關(guān)鍵的微調(diào)方法:低秩適應(yīng)(LoRA)和持續(xù)學(xué)習(xí)(CL)。

A. LLMS中的低秩適應(yīng)(LOW-RANK ADAPTATION IN LLMS

LoRA提供了一種有效的方法來(lái)微調(diào)基于Transformer的語(yǔ)言模型。該技術(shù)通過(guò)將原始權(quán)重矩陣分解為低秩更新來(lái)減少可訓(xùn)練參數(shù)的數(shù)量,從而顯著降低計(jì)算開(kāi)銷(xiāo)。它還推廣了全微調(diào),理論上允許模型通過(guò)選擇合適的r來(lái)逼近全秩權(quán)重矩陣的表示能力。

B. 持續(xù)學(xué)習(xí)

CL是一種方法,它專(zhuān)注于隨著時(shí)間的推移使模型適應(yīng)新任務(wù),同時(shí)避免先前學(xué)習(xí)信息的災(zāi)難性遺忘。它利用PEFT方法引入最小的、任務(wù)特定的更新到模型的參數(shù)中。這些策略通過(guò)包含基于熵的分類(lèi)器用于適配器選擇和確保任務(wù)之間知識(shí)轉(zhuǎn)移的策略,幫助模型在一系列任務(wù)中保持性能。

C. 上下文窗口擴(kuò)展(CONTEXT WINDOW EXTENSION

上下文窗口擴(kuò)展是指將LLM適應(yīng)處理超過(guò)其最初定義的上下文長(zhǎng)度的輸入序列。通過(guò)PEFT,例如LongLoRA,LLM可以高效地微調(diào)以擴(kuò)展其上下文窗口,使其能夠處理更長(zhǎng)的輸入序列而不會(huì)顯著增加計(jì)算需求。

D. 視覺(jué)指令微調(diào)(VISUAL INSTRUCTION TUNING

一種引人注目的PEFT技術(shù)是視覺(jué)指令微調(diào),其中LLM(傳統(tǒng)上基于文本)被適應(yīng)以處理視覺(jué)輸入,使其能夠執(zhí)行圖像字幕和視覺(jué)問(wèn)答等任務(wù)。通過(guò)視覺(jué)指令微調(diào)將視覺(jué)和語(yǔ)言處理集成到LLM中,代表了多模態(tài)AI能力的重大飛躍。該過(guò)程涉及使用LLM(如GPT-4)生成語(yǔ)言-圖像指令遵循數(shù)據(jù),然后使用這些數(shù)據(jù)微調(diào)一個(gè)能夠理解和交互文本和視覺(jué)輸入的模型。生成的模型被稱(chēng)為L(zhǎng)LaVA(大型語(yǔ)言和視覺(jué)助手),展示了令人印象深刻的跨模態(tài)對(duì)話能力,并在科學(xué)問(wèn)答等任務(wù)上設(shè)置了新的準(zhǔn)確率基準(zhǔn)。

VI. 最先進(jìn)的LLM

本節(jié)概述了基于其架構(gòu)和所屬系列的大語(yǔ)言模型(LLM)。這將提供對(duì)各種LLM及其各自設(shè)計(jì)框架的全面理解。

A. 自編碼模型

BERT: 2018年發(fā)布的先驅(qū)模型,利用僅編碼器架構(gòu),顯著提高了自然語(yǔ)言理解模型的能力。

BERT變體: 包括BERT-wwm、BERT-wwm-ext、SpanBERT、DistillBERT、TinyBERT、VisualBERT和MacBERT等,針對(duì)不同任務(wù)和效率進(jìn)行了改進(jìn)。

RoBERTa: 通過(guò)動(dòng)態(tài)掩碼策略增強(qiáng)了BERT的訓(xùn)練過(guò)程的魯棒性,并采用更大的批量大小、更大的訓(xùn)練語(yǔ)料庫(kù)和更深的訓(xùn)練迭代來(lái)優(yōu)化性能。

ERNIE: 采用多級(jí)掩碼策略來(lái)優(yōu)化中文語(yǔ)言的性能,并引入了對(duì)話語(yǔ)言模型(DLM)技術(shù)。

ALBERT: 通過(guò)因式分解嵌入?yún)?shù)化來(lái)優(yōu)化訓(xùn)練,并引入了句子順序預(yù)測(cè)(SOP)任務(wù)來(lái)替代BERT中的NSP任務(wù)。

ELECTRA: 采用生成對(duì)抗網(wǎng)絡(luò)(GAN)技術(shù),通過(guò)預(yù)測(cè)所有單詞而不是僅預(yù)測(cè)掩碼的單詞來(lái)提高效率。

DeBERTa: 引入了解耦注意力機(jī)制,以解決傳統(tǒng)自編碼模型中掩碼語(yǔ)言模型(MLM)的局限性。

Transformer-XL: 通過(guò)引入段級(jí)遞歸和狀態(tài)重用以解決處理長(zhǎng)序列的挑戰(zhàn)。

B. 自回歸模型

GPT: 2018年發(fā)布的先驅(qū)模型,引入了自回歸技術(shù),并采用了無(wú)監(jiān)督學(xué)習(xí)和上下文學(xué)習(xí)訓(xùn)練策略。

Pathways和PaLM: 基于Pathways架構(gòu),PaLM是第一個(gè)使用該架構(gòu)訓(xùn)練的語(yǔ)言模型,擁有高達(dá)540B的參數(shù)。PaLM-E是PaLM的擴(kuò)展,集成了語(yǔ)言路徑和視覺(jué)路徑,使其能夠理解和處理文本和圖像。

Microsoft KOSMOS-1: 基于magneto transformer架構(gòu),KOSMOS-1使用CLIP ViT-L/14模型來(lái)捕獲圖像特征,并采用XPOS技術(shù)來(lái)協(xié)調(diào)訓(xùn)練標(biāo)記和預(yù)測(cè)標(biāo)記之間的長(zhǎng)度差異。

Megatron: Nvidia提出的框架,用于解決LLM訓(xùn)練中的并行計(jì)算問(wèn)題,通過(guò)層內(nèi)并行、層間并行和數(shù)據(jù)并行來(lái)加速模型訓(xùn)練。

LLaMA: Meta開(kāi)發(fā)的模型,旨在提高模型能力的同時(shí)保持較小的尺寸,適用于本地部署。LLaMA系列包括LLaMA、Alpaca、Guanaco、Vicuna、Dolly、LLaMA 2和Video-LLaMA等,針對(duì)不同參數(shù)大小和模態(tài)支持進(jìn)行了改進(jìn)。

Gopher和DeepMind: Gopher是DeepMind開(kāi)發(fā)的模型,擁有從44M到280B不等的參數(shù)。Chinchilla是Gopher的繼任者,目標(biāo)是提高模型大小和訓(xùn)練數(shù)據(jù)之間的比例。DeepMind還開(kāi)發(fā)了視覺(jué)模型Flamingo,用于少樣本學(xué)習(xí)。

其他自回歸模型: 包括Jurassic系列、Claude系列、Falcon、DALL-E、Whisper和Codex等,涵蓋了圖像生成、音頻到文本轉(zhuǎn)換和代碼生成等領(lǐng)域。

Google模型: 包括Meena、LaMDA、ALIGN、GaLM和Gemini等,針對(duì)特定領(lǐng)域和任務(wù)進(jìn)行了優(yōu)化。

Microsoft模型: 包括Phi系列和mPLUG系列,Phi系列專(zhuān)注于小模型和高精度,mPLUG系列專(zhuān)注于多模態(tài)支持。

其他模型: 包括AlexaTM、PLATO系列、WuDao系列、Cogview、Lawformer、OPT、YaLM、BLOOM和Galactica等,展示了LLM在各個(gè)領(lǐng)域的應(yīng)用潛力。

C. 序列到序列模型

BART: 結(jié)合了BERT的雙向編碼器特征和GPT的自回歸解碼器特征,在序列生成任務(wù)中表現(xiàn)出色。

基于T5: 包括T5、mT5和T0等,提供了一種通用的預(yù)訓(xùn)練模型框架,并針對(duì)機(jī)器翻譯和提示工程進(jìn)行了改進(jìn)。

Pangu: 包括Pangu-α、Pangu-Coder和Pangu-Σ,針對(duì)中文語(yǔ)料庫(kù)和代碼生成進(jìn)行了優(yōu)化。

Switch Transformer: 利用LLM中的稀疏性來(lái)加速訓(xùn)練和推理,通過(guò)混合專(zhuān)家(MoE)和簡(jiǎn)化的稀疏路由來(lái)減少計(jì)算復(fù)雜性。

GLM: 引入了自動(dòng)回歸空白填充來(lái)改進(jìn)掩碼和填充技術(shù),并以其較小的參數(shù)數(shù)量在SuperGLUE基準(zhǔn)上優(yōu)于BERT。

ChatGLM和VisualGLM: 分別為BART和GLM的對(duì)話和視覺(jué)對(duì)話版本,展示了LLM在交互和多模態(tài)任務(wù)中的潛力。

VII. LLMS的預(yù)訓(xùn)練方法

預(yù)訓(xùn)練是LLM開(kāi)發(fā)的關(guān)鍵階段,涉及使用大量文本數(shù)據(jù)訓(xùn)練模型以學(xué)習(xí)語(yǔ)言模式、結(jié)構(gòu)和上下文細(xì)微差別。本文介紹了各種最先進(jìn)的預(yù)訓(xùn)練方法,包括訓(xùn)練數(shù)據(jù)減少、神經(jīng)架構(gòu)搜索、漸進(jìn)學(xué)習(xí)和混合精度訓(xùn)練。

VIII. LLMS的挑戰(zhàn)

LLM面臨著一些挑戰(zhàn),包括數(shù)據(jù)問(wèn)題、模型壓縮、分布式計(jì)算和多模態(tài)支持。

A. 數(shù)據(jù)問(wèn)題

數(shù)據(jù)質(zhì)量: 數(shù)據(jù)的相關(guān)性、豐富性和冗余性對(duì)LLM的性能至關(guān)重要。數(shù)據(jù)質(zhì)量問(wèn)題可能會(huì)導(dǎo)致模型學(xué)習(xí)到不準(zhǔn)確或不可靠的知識(shí)。

數(shù)據(jù)偏差: 訓(xùn)練數(shù)據(jù)中經(jīng)常存在人類(lèi)語(yǔ)言或其他數(shù)據(jù)輸入形式中的偏差,這可能會(huì)導(dǎo)致模型對(duì)特定主題的偏見(jiàn)理解。

數(shù)據(jù)規(guī)模: LLM需要大量數(shù)據(jù)來(lái)提高準(zhǔn)確性和對(duì)提示的理解,這給數(shù)據(jù)收集、處理和存儲(chǔ)帶來(lái)了挑戰(zhàn)。

B. 模型壓縮

模型壓縮技術(shù)旨在優(yōu)化模型的內(nèi)部結(jié)構(gòu)以提高效率,同時(shí)不顯著降低性能。三種主要技術(shù)包括剪枝、量化和知識(shí)蒸餾。

C. 分布式計(jì)算

由于LLM的規(guī)模巨大,傳統(tǒng)的單設(shè)備訓(xùn)練或部署方法不足以處理與這些模型相關(guān)的巨大數(shù)據(jù)集和參數(shù)規(guī)模。分布式計(jì)算已成為解決這些挑戰(zhàn)的關(guān)鍵解決方案。目前,三種主要的分布式計(jì)算方法被用于解決這些挑戰(zhàn):數(shù)據(jù)并行、張量并行和流水線并行。

D. 多模態(tài)支持

多模態(tài)支持是LLM面臨的一個(gè)重大挑戰(zhàn),特別是在視覺(jué)Transformer (ViT)的出現(xiàn)之后,它展示了變換器在視覺(jué)任務(wù)中的潛力。與傳統(tǒng)的LLM不同,訓(xùn)練具有多模態(tài)支持的模型更復(fù)雜,因?yàn)樾枰诓煌B(tài)之間對(duì)齊表示。這為這些多模態(tài)LLM引入了不同的訓(xùn)練任務(wù)。

E. 提示工程

提示工程是一種技術(shù),通過(guò)策略性地制定包含內(nèi)容和指令的輸入查詢(xún)來(lái)加快LLM在上下文中的理解速度。該技術(shù)比預(yù)訓(xùn)練和微調(diào)更簡(jiǎn)單,并允許用戶與LLM交互以控制標(biāo)記數(shù)據(jù)流。

IX. LLMS的應(yīng)用

LLM通過(guò)利用其理解和生成人類(lèi)語(yǔ)言的能力,改變了各個(gè)領(lǐng)域。它們的應(yīng)用范圍很廣,包括文本生成、代碼生成、視覺(jué)內(nèi)容理解和設(shè)計(jì)自動(dòng)化。

X. 結(jié)論

本文全面回顧了LLM及其在NLP領(lǐng)域的演變。它探索了LLM在各個(gè)NLP任務(wù)中的各種技能,包括文本

本文章轉(zhuǎn)載微信公眾號(hào)@AI方法與實(shí)踐

上一篇:

基于 InternLM 和LangChain搭建你的知識(shí)庫(kù)

下一篇:

如何從0開(kāi)始構(gòu)建一個(gè)通用AIAgent智能體架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)?
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)