youjizz韩国,中国一级特黄视频,欧美国产日韩一区二区三区

Transformer架構(gòu)由Vaswani等人于2017年提出，它通過(guò)并行處理標(biāo)記的能力，打破了傳統(tǒng)循環(huán)序列到序列模型（如LSTM網(wǎng)絡(luò)和RNN）的順序處理限制。Transformer的關(guān)鍵創(chuàng)新在于其多頭自注意力機(jī)制，它允許模型并行訓(xùn)練。概念上，Transformer架構(gòu)由編碼器和解碼器兩部分組成。編碼器將輸入序列映射到更高維的嵌入空間，而解碼器則從這些嵌入中生成輸出序列。通常，Transformer模型包含多個(gè)編碼器和解碼器層。圖2展示了Transformer模型的架構(gòu)。

與其他傳統(tǒng)模型不同，Transformer能夠通過(guò)同時(shí)處理輸入數(shù)據(jù)的所有部分，實(shí)現(xiàn)更快速和更高效的并行處理。為了解決在沒(méi)有內(nèi)在順序處理的情況下保持序列信息的問(wèn)題，Transformer使用了一種稱(chēng)為位置編碼的技術(shù)。該機(jī)制允許每個(gè)標(biāo)記（例如句子中的單詞）編碼其在序列中的相對(duì)位置。位置編碼至關(guān)重要；沒(méi)有它，Transformer會(huì)將句子視為一個(gè)詞袋，完全忽略了單詞的順序。

位置編碼使用涉及正弦和余弦函數(shù)的特定數(shù)學(xué)公式。該公式確保序列中的每個(gè)位置都獲得唯一的編碼。通過(guò)將此編碼附加到標(biāo)記的嵌入中，模型可以了解標(biāo)記在序列中的位置。精確的公式如下：

E(pos, 2i) = sin(pos / 10000^(2i/dim))

E(pos, 2i + 1) = cos(pos / 10000^(2i/dim))

其中pos表示序列中的標(biāo)記位置，i從0到dim/2，分別表示偶數(shù)和奇數(shù)位置。

正弦和余弦函數(shù)的選擇特別有利，因?yàn)樗鼈優(yōu)榍度肟臻g中的位置信息提供了獨(dú)特且一致的方式。這種設(shè)置不僅簡(jiǎn)化了模型根據(jù)相對(duì)位置進(jìn)行注意力的學(xué)習(xí)，而且還使模型能夠泛化到訓(xùn)練期間遇到的序列長(zhǎng)度之外的長(zhǎng)度。這種方法的美妙之處在于它賦予模型從數(shù)據(jù)中識(shí)別模式的能力，并增加了位置上下文。這種簡(jiǎn)單而深刻的方法對(duì)于Transformer模型在從文本生成和語(yǔ)言翻譯到圖像識(shí)別等語(yǔ)言之外的領(lǐng)域的成功至關(guān)重要。

B. 自編碼模型

自編碼模型，也稱(chēng)為“僅編碼器模型”，主要針對(duì)以理解為中心的自然語(yǔ)言處理任務(wù)，例如BERT、ERNIE和ALBERT。它們通過(guò)雙向?qū)W習(xí)和掩碼等訓(xùn)練技術(shù)，在上下文理解方面表現(xiàn)出色。然而，它們也存在一些局限性：

受限于固定長(zhǎng)度的輸入序列。
內(nèi)在的上下文依賴(lài)性可能會(huì)阻礙文本生成。
由于其組成缺乏解碼器，下游任務(wù)適應(yīng)性需要微調(diào)。

C. 自回歸模型

這些模型，包括GPT和LLaMA系列，近年來(lái)備受關(guān)注。它們的自回歸設(shè)計(jì)意味著標(biāo)記生成依賴(lài)于先前標(biāo)記，這使得它們非常適合生成任務(wù)。這些模型提供了：

接受不同輸入長(zhǎng)度的靈活性，使其擅長(zhǎng)擴(kuò)展數(shù)據(jù)生成。
在少樣本或零樣本任務(wù)中的熟練程度，避免了特定微調(diào)的需求。
然而，它們無(wú)法捕獲整體上下文，因此在生成過(guò)程中只能從前置標(biāo)記中獲取洞察。

D. 序列到序列模型

T5和GLM等模型結(jié)合了前兩種類(lèi)型的優(yōu)勢(shì)，擅長(zhǎng)將輸入序列映射到固定長(zhǎng)度的嵌入，使解碼器能夠生成上下文相關(guān)的輸出。這使得它們特別適用于條件生成任務(wù)，例如摘要、翻譯和問(wèn)答，其中輸出緊密依賴(lài)于提供的輸入。

編碼器和解碼器組件的集成使Seq2Seq模型能夠處理復(fù)雜的輸入，但也帶來(lái)了以下缺點(diǎn)：

組合增加了參數(shù)數(shù)量，可能影響效率。

訓(xùn)練此類(lèi)模型需要大量的計(jì)算資源，因?yàn)閷?duì)齊輸入和輸出序列很復(fù)雜。

E. 變分自編碼器（Variational auto-encoder）

變分自編碼器（VAE）是一種復(fù)雜的生成模型，它通過(guò)整合概率建模來(lái)發(fā)展一個(gè)有意義且通用的潛在空間，從而從傳統(tǒng)的自編碼器（AE）中演變而來(lái)。與標(biāo)準(zhǔn)的AE不同，VAE的編碼器產(chǎn)生由均值和方差定義的概率分布，而不是單個(gè)確定性點(diǎn)。

VAE使用概率編碼來(lái)創(chuàng)建一個(gè)動(dòng)態(tài)和可適應(yīng)的潛在空間，不僅允許數(shù)據(jù)重建，而且還允許通過(guò)從學(xué)習(xí)的概率分布中采樣來(lái)生成新數(shù)據(jù)。這增強(qiáng)了模型的泛化能力，并確保潛在空間中的平滑過(guò)渡，這對(duì)于數(shù)據(jù)生成和增強(qiáng)等任務(wù)至關(guān)重要。它利用重參數(shù)化技巧，在反向傳播過(guò)程中保持梯度流動(dòng)，使?jié)撛谧兞勘３挚晌⑿裕瑥亩鴮?shí)現(xiàn)傳統(tǒng)的訓(xùn)練。VAE的目標(biāo)函數(shù)在重建損失和Kullback-Leibler（KL）散度之間進(jìn)行權(quán)衡，重建損失評(píng)估解碼器樣本與原始輸入的準(zhǔn)確性，而KL散度通過(guò)鼓勵(lì)后驗(yàn)接近標(biāo)準(zhǔn)高斯分布來(lái)促進(jìn)潛在分布的逼近。這種雙重關(guān)注確保了精確的輸入重建和平滑、連續(xù)的潛在空間，使VAE成為圖像生成、數(shù)據(jù)增強(qiáng)和異常檢測(cè)等應(yīng)用的強(qiáng)大工具。

F. 生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network）

生成對(duì)抗網(wǎng)絡(luò)（GAN）是Goodfellow等人于2014年提出的一類(lèi)深度學(xué)習(xí)框架。GAN由兩個(gè)神經(jīng)網(wǎng)絡(luò)組成，即生成器和判別器，它們通過(guò)對(duì)抗過(guò)程同時(shí)進(jìn)行訓(xùn)練。生成器的目標(biāo)是創(chuàng)建類(lèi)似于真實(shí)數(shù)據(jù)的合成數(shù)據(jù)，而判別器的角色是區(qū)分真實(shí)和合成數(shù)據(jù)。隨著時(shí)間的推移，隨著訓(xùn)練的進(jìn)行，生成器越來(lái)越擅長(zhǎng)創(chuàng)建真實(shí)數(shù)據(jù)，而判別器越來(lái)越擅長(zhǎng)區(qū)分真實(shí)和假數(shù)據(jù)，如圖所示。

III. 以前基于領(lǐng)域的LLM綜述（Previous Domain-based LLM Surveys）

本節(jié)對(duì)現(xiàn)有的大語(yǔ)言模型（LLM）調(diào)查進(jìn)行綜合分析。我們根據(jù)這些調(diào)查論文所涉及的主題對(duì)它們進(jìn)行比較評(píng)估。調(diào)查按時(shí)間順序排列，使讀者能夠跟蹤研究重點(diǎn)隨時(shí)間的演變。通過(guò)檢查這些調(diào)查中的內(nèi)容，讀者可以深入了解高級(jí)LLM開(kāi)發(fā)所取得的進(jìn)展。類(lèi)別包括：

架構(gòu)：討論的LLM的架構(gòu)設(shè)計(jì)細(xì)節(jié)，包括模型類(lèi)型和配置，包括僅解碼器、僅編碼器和解碼器-編碼器模型。
數(shù)據(jù)集：用于訓(xùn)練和評(píng)估LLM的數(shù)據(jù)集信息。
預(yù)訓(xùn)練：用于訓(xùn)練基礎(chǔ)LLM的方法和技術(shù)。
微調(diào)：將預(yù)訓(xùn)練LLM適應(yīng)特定任務(wù)或領(lǐng)域的策略，以提高特定領(lǐng)域的性能。
基準(zhǔn)：評(píng)估LLM/MLLM性能的評(píng)估指標(biāo)和基準(zhǔn)數(shù)據(jù)集。
挑戰(zhàn)：識(shí)別挑戰(zhàn)和優(yōu)化LLM開(kāi)發(fā)和部署的技術(shù)。
MLLM：討論多語(yǔ)言語(yǔ)言模型及其特定考慮因素。
應(yīng)用：最先進(jìn)LLM的現(xiàn)實(shí)世界應(yīng)用和用例。

IV. LLMS的比較分析

本節(jié)使用各種基準(zhǔn)對(duì)主要語(yǔ)言模型進(jìn)行比較分析，這些基準(zhǔn)評(píng)估了模型在語(yǔ)言理解、推理和多模態(tài)任務(wù)中的能力。這些基準(zhǔn)旨在評(píng)估語(yǔ)言理解和認(rèn)知能力的各個(gè)方面。

A. 主要基準(zhǔn)

MMLU（大量多任務(wù)語(yǔ)言理解）：包含57個(gè)任務(wù)，涵蓋從人類(lèi)概念到高中考試的各種主題，評(píng)估語(yǔ)言模型在廣泛主題上的全面理解和泛化能力。

SuperGLUE：設(shè)計(jì)為高級(jí)基準(zhǔn)，用于評(píng)估和促進(jìn)AI模型在推理和預(yù)測(cè)能力方面的改進(jìn)，這些能力超越了GLUE基準(zhǔn)。

HellaSwag：設(shè)計(jì)用于測(cè)試模型的一般知識(shí)和使用日常知識(shí)完成場(chǎng)景的能力。

ARC（AI2推理挑戰(zhàn)）：提供小學(xué)水平的多項(xiàng)選擇題，測(cè)試模型理解和應(yīng)用推理技能的能力。

WinoGrande：包含大量winograd方案，用于測(cè)試AI模型的常識(shí)推理能力

B. 多模態(tài)LLM基準(zhǔn)

NLVR2（真實(shí)世界視覺(jué)推理）：評(píng)估AI模型使用自然語(yǔ)言進(jìn)行視覺(jué)推理的能力。它要求模型確定給定的自然語(yǔ)言陳述是否準(zhǔn)確地描述了圖像對(duì)。

視覺(jué)問(wèn)答（VQA）基準(zhǔn)：評(píng)估AI系統(tǒng)回答與給定圖像相關(guān)問(wèn)題的能力。該多模態(tài)基準(zhǔn)結(jié)合了自然語(yǔ)言處理和圖像識(shí)別，以測(cè)試模型對(duì)視覺(jué)內(nèi)容的全面理解，以及與概念和事實(shí)查詢(xún)相關(guān)聯(lián)的能力。

V. LLMS的微調(diào)技術(shù)

LLM的微調(diào)方法在各種應(yīng)用中使用，包括領(lǐng)域?qū)I(yè)化、性能改進(jìn)和偏差緩解。本文詳細(xì)介紹了兩種關(guān)鍵的微調(diào)方法：低秩適應(yīng)（LoRA）和持續(xù)學(xué)習(xí)（CL）。

A. LLMS中的低秩適應(yīng)（LOW-RANK ADAPTATION IN LLMS）

LoRA提供了一種有效的方法來(lái)微調(diào)基于Transformer的語(yǔ)言模型。該技術(shù)通過(guò)將原始權(quán)重矩陣分解為低秩更新來(lái)減少可訓(xùn)練參數(shù)的數(shù)量，從而顯著降低計(jì)算開(kāi)銷(xiāo)。它還推廣了全微調(diào)，理論上允許模型通過(guò)選擇合適的r來(lái)逼近全秩權(quán)重矩陣的表示能力。

B. 持續(xù)學(xué)習(xí)

CL是一種方法，它專(zhuān)注于隨著時(shí)間的推移使模型適應(yīng)新任務(wù)，同時(shí)避免先前學(xué)習(xí)信息的災(zāi)難性遺忘。它利用PEFT方法引入最小的、任務(wù)特定的更新到模型的參數(shù)中。這些策略通過(guò)包含基于熵的分類(lèi)器用于適配器選擇和確保任務(wù)之間知識(shí)轉(zhuǎn)移的策略，幫助模型在一系列任務(wù)中保持性能。

C. 上下文窗口擴(kuò)展（CONTEXT WINDOW EXTENSION）

上下文窗口擴(kuò)展是指將LLM適應(yīng)處理超過(guò)其最初定義的上下文長(zhǎng)度的輸入序列。通過(guò)PEFT，例如LongLoRA，LLM可以高效地微調(diào)以擴(kuò)展其上下文窗口，使其能夠處理更長(zhǎng)的輸入序列而不會(huì)顯著增加計(jì)算需求。

D. 視覺(jué)指令微調(diào)（VISUAL INSTRUCTION TUNING）

一種引人注目的PEFT技術(shù)是視覺(jué)指令微調(diào)，其中LLM（傳統(tǒng)上基于文本）被適應(yīng)以處理視覺(jué)輸入，使其能夠執(zhí)行圖像字幕和視覺(jué)問(wèn)答等任務(wù)。通過(guò)視覺(jué)指令微調(diào)將視覺(jué)和語(yǔ)言處理集成到LLM中，代表了多模態(tài)AI能力的重大飛躍。該過(guò)程涉及使用LLM（如GPT-4）生成語(yǔ)言-圖像指令遵循數(shù)據(jù)，然后使用這些數(shù)據(jù)微調(diào)一個(gè)能夠理解和交互文本和視覺(jué)輸入的模型。生成的模型被稱(chēng)為L(zhǎng)LaVA（大型語(yǔ)言和視覺(jué)助手），展示了令人印象深刻的跨模態(tài)對(duì)話能力，并在科學(xué)問(wèn)答等任務(wù)上設(shè)置了新的準(zhǔn)確率基準(zhǔn)。

VI. 最先進(jìn)的LLM

本節(jié)概述了基于其架構(gòu)和所屬系列的大語(yǔ)言模型（LLM）。這將提供對(duì)各種LLM及其各自設(shè)計(jì)框架的全面理解。

A. 自編碼模型

BERT： 2018年發(fā)布的先驅(qū)模型，利用僅編碼器架構(gòu)，顯著提高了自然語(yǔ)言理解模型的能力。

BERT變體：包括BERT-wwm、BERT-wwm-ext、SpanBERT、DistillBERT、TinyBERT、VisualBERT和MacBERT等，針對(duì)不同任務(wù)和效率進(jìn)行了改進(jìn)。

RoBERTa：通過(guò)動(dòng)態(tài)掩碼策略增強(qiáng)了BERT的訓(xùn)練過(guò)程的魯棒性，并采用更大的批量大小、更大的訓(xùn)練語(yǔ)料庫(kù)和更深的訓(xùn)練迭代來(lái)優(yōu)化性能。

ERNIE：采用多級(jí)掩碼策略來(lái)優(yōu)化中文語(yǔ)言的性能，并引入了對(duì)話語(yǔ)言模型（DLM）技術(shù)。

ALBERT：通過(guò)因式分解嵌入?yún)?shù)化來(lái)優(yōu)化訓(xùn)練，并引入了句子順序預(yù)測(cè)（SOP）任務(wù)來(lái)替代BERT中的NSP任務(wù)。

ELECTRA：采用生成對(duì)抗網(wǎng)絡(luò)（GAN）技術(shù)，通過(guò)預(yù)測(cè)所有單詞而不是僅預(yù)測(cè)掩碼的單詞來(lái)提高效率。

DeBERTa：引入了解耦注意力機(jī)制，以解決傳統(tǒng)自編碼模型中掩碼語(yǔ)言模型（MLM）的局限性。

Transformer-XL：通過(guò)引入段級(jí)遞歸和狀態(tài)重用以解決處理長(zhǎng)序列的挑戰(zhàn)。

B. 自回歸模型

GPT： 2018年發(fā)布的先驅(qū)模型，引入了自回歸技術(shù)，并采用了無(wú)監(jiān)督學(xué)習(xí)和上下文學(xué)習(xí)訓(xùn)練策略。

Pathways和PaLM：基于Pathways架構(gòu)，PaLM是第一個(gè)使用該架構(gòu)訓(xùn)練的語(yǔ)言模型，擁有高達(dá)540B的參數(shù)。PaLM-E是PaLM的擴(kuò)展，集成了語(yǔ)言路徑和視覺(jué)路徑，使其能夠理解和處理文本和圖像。

Microsoft KOSMOS-1：基于magneto transformer架構(gòu)，KOSMOS-1使用CLIP ViT-L/14模型來(lái)捕獲圖像特征，并采用XPOS技術(shù)來(lái)協(xié)調(diào)訓(xùn)練標(biāo)記和預(yù)測(cè)標(biāo)記之間的長(zhǎng)度差異。

Megatron： Nvidia提出的框架，用于解決LLM訓(xùn)練中的并行計(jì)算問(wèn)題，通過(guò)層內(nèi)并行、層間并行和數(shù)據(jù)并行來(lái)加速模型訓(xùn)練。

LLaMA： Meta開(kāi)發(fā)的模型，旨在提高模型能力的同時(shí)保持較小的尺寸，適用于本地部署。LLaMA系列包括LLaMA、Alpaca、Guanaco、Vicuna、Dolly、LLaMA 2和Video-LLaMA等，針對(duì)不同參數(shù)大小和模態(tài)支持進(jìn)行了改進(jìn)。

Gopher和DeepMind： Gopher是DeepMind開(kāi)發(fā)的模型，擁有從44M到280B不等的參數(shù)。Chinchilla是Gopher的繼任者，目標(biāo)是提高模型大小和訓(xùn)練數(shù)據(jù)之間的比例。DeepMind還開(kāi)發(fā)了視覺(jué)模型Flamingo，用于少樣本學(xué)習(xí)。

其他自回歸模型：包括Jurassic系列、Claude系列、Falcon、DALL-E、Whisper和Codex等，涵蓋了圖像生成、音頻到文本轉(zhuǎn)換和代碼生成等領(lǐng)域。

Google模型：包括Meena、LaMDA、ALIGN、GaLM和Gemini等，針對(duì)特定領(lǐng)域和任務(wù)進(jìn)行了優(yōu)化。

Microsoft模型：包括Phi系列和mPLUG系列，Phi系列專(zhuān)注于小模型和高精度，mPLUG系列專(zhuān)注于多模態(tài)支持。

其他模型：包括AlexaTM、PLATO系列、WuDao系列、Cogview、Lawformer、OPT、YaLM、BLOOM和Galactica等，展示了LLM在各個(gè)領(lǐng)域的應(yīng)用潛力。

C. 序列到序列模型

BART：結(jié)合了BERT的雙向編碼器特征和GPT的自回歸解碼器特征，在序列生成任務(wù)中表現(xiàn)出色。

基于T5：包括T5、mT5和T0等，提供了一種通用的預(yù)訓(xùn)練模型框架，并針對(duì)機(jī)器翻譯和提示工程進(jìn)行了改進(jìn)。

Pangu：包括Pangu-α、Pangu-Coder和Pangu-Σ，針對(duì)中文語(yǔ)料庫(kù)和代碼生成進(jìn)行了優(yōu)化。

Switch Transformer：利用LLM中的稀疏性來(lái)加速訓(xùn)練和推理，通過(guò)混合專(zhuān)家（MoE）和簡(jiǎn)化的稀疏路由來(lái)減少計(jì)算復(fù)雜性。

GLM：引入了自動(dòng)回歸空白填充來(lái)改進(jìn)掩碼和填充技術(shù)，并以其較小的參數(shù)數(shù)量在SuperGLUE基準(zhǔn)上優(yōu)于BERT。

ChatGLM和VisualGLM：分別為BART和GLM的對(duì)話和視覺(jué)對(duì)話版本，展示了LLM在交互和多模態(tài)任務(wù)中的潛力。

VII. LLMS的預(yù)訓(xùn)練方法

預(yù)訓(xùn)練是LLM開(kāi)發(fā)的關(guān)鍵階段，涉及使用大量文本數(shù)據(jù)訓(xùn)練模型以學(xué)習(xí)語(yǔ)言模式、結(jié)構(gòu)和上下文細(xì)微差別。本文介紹了各種最先進(jìn)的預(yù)訓(xùn)練方法，包括訓(xùn)練數(shù)據(jù)減少、神經(jīng)架構(gòu)搜索、漸進(jìn)學(xué)習(xí)和混合精度訓(xùn)練。

VIII. LLMS的挑戰(zhàn)

LLM面臨著一些挑戰(zhàn)，包括數(shù)據(jù)問(wèn)題、模型壓縮、分布式計(jì)算和多模態(tài)支持。

A. 數(shù)據(jù)問(wèn)題

數(shù)據(jù)質(zhì)量：數(shù)據(jù)的相關(guān)性、豐富性和冗余性對(duì)LLM的性能至關(guān)重要。數(shù)據(jù)質(zhì)量問(wèn)題可能會(huì)導(dǎo)致模型學(xué)習(xí)到不準(zhǔn)確或不可靠的知識(shí)。

數(shù)據(jù)偏差：訓(xùn)練數(shù)據(jù)中經(jīng)常存在人類(lèi)語(yǔ)言或其他數(shù)據(jù)輸入形式中的偏差，這可能會(huì)導(dǎo)致模型對(duì)特定主題的偏見(jiàn)理解。

數(shù)據(jù)規(guī)模： LLM需要大量數(shù)據(jù)來(lái)提高準(zhǔn)確性和對(duì)提示的理解，這給數(shù)據(jù)收集、處理和存儲(chǔ)帶來(lái)了挑戰(zhàn)。

B. 模型壓縮

模型壓縮技術(shù)旨在優(yōu)化模型的內(nèi)部結(jié)構(gòu)以提高效率，同時(shí)不顯著降低性能。三種主要技術(shù)包括剪枝、量化和知識(shí)蒸餾。

C. 分布式計(jì)算

由于LLM的規(guī)模巨大，傳統(tǒng)的單設(shè)備訓(xùn)練或部署方法不足以處理與這些模型相關(guān)的巨大數(shù)據(jù)集和參數(shù)規(guī)模。分布式計(jì)算已成為解決這些挑戰(zhàn)的關(guān)鍵解決方案。目前，三種主要的分布式計(jì)算方法被用于解決這些挑戰(zhàn)：數(shù)據(jù)并行、張量并行和流水線并行。

D. 多模態(tài)支持

多模態(tài)支持是LLM面臨的一個(gè)重大挑戰(zhàn)，特別是在視覺(jué)Transformer (ViT)的出現(xiàn)之后，它展示了變換器在視覺(jué)任務(wù)中的潛力。與傳統(tǒng)的LLM不同，訓(xùn)練具有多模態(tài)支持的模型更復(fù)雜，因?yàn)樾枰诓煌B(tài)之間對(duì)齊表示。這為這些多模態(tài)LLM引入了不同的訓(xùn)練任務(wù)。