2、以 GPT 為代表的預訓練大模型階段
2020 年,OpenAI 公司推出了GPT-3,模型參數規模達到了 1750 億,成為當時最大的語言模型,并且在零樣本學習任務上實現了巨大性能提升。隨后,更多策略如基于人類反饋的強化學習(RHLF)、代碼預訓練、指令微調等開始出現, 被用于進一步提高推理能力和任務泛化。隨之大語言模型百花齊放,商用與開源頻出。
· 2022 年 11 月,搭載了GPT3.5的 ChatGPT橫空出世,憑借逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網。
· 2023 年 3 月,最新發布的超大規模多模態預訓練大模型——GPT-4,具備了多模態理解與多類型內容生成能力。在迅猛發展期,大數據、大算力和大算法完美結合,大幅提升了大模型的預訓練和生成能力以及多模態多場景應用能力。如 ChatGPT 的巨大成功,就是在微軟Azure強大的算力以及 wiki 等海量數據支持下,在 Transformer 架構基礎上,堅持 GPT 模型及人類反饋的強化學習(RLHF)進行精調的策略下取得的。
三、大模型的分類
按照輸入數據類型的不同,大模型主要可以分為以下三大類:
- 語言大模型(NLP):也即常說的大語言模型,是指在自然語言處理(Natural Language Processing,NLP)領域中的一類大模型,通常用于處理文本數據和理解自然語言。這類大模型的主要特點是它們在大規模語料庫上進行了訓練,以學習自然語言的各種語法、語義和語境規則。例如:ChatGPT 系列(OpenAI)、Bard(Google)、文心一言(百度);開源大模型中有Meta 開源的 LLaMA、ChatGLM – 6B、Yi-34B-Chat等。
- · 視覺大模型(CV):也即常說的智能識別,是指在計算機視覺(Computer Vision,CV)領域中使用的大模型,通常用于圖像處理和分析。這類模型通過在大規模圖像數據上進行訓練,可以實現各種視覺任務,如圖像分類、目標檢測、圖像分割、姿態估計、人臉識別等。例如:VIT 系列(Google)、文心UFO、華為盤古 CV、INTERN(商湯)。
- · 多模態大模型:是指能夠處理多種不同類型數據的大模型,例如文本、圖像、音頻等多模態數據。這類模型結合了 NLP 和 CV 的能力,以實現對多模態信息的綜合理解和分析,從而能夠更全面地理解和處理復雜的數據。例如:谷歌Gemini、DALL-E(OpenAI)、Midjourney。
## 四、大模型的特點
- 巨大的規模: 大模型包含數十億個參數,模型大小可以達到數百 GB 甚至更大。巨大的模型規模使大模型具有強大的表達能力和學習能力。
- 涌現能力:涌現(英語:emergence)或稱創發、突現、呈展、演生,是一種現象,為許多小實體相互作用后產生了大實體,而這個大實體展現了組成它的小實體所不具有的特性。引申到模型層面,涌現能力指的是當模型的訓練數據突破一定規模,模型突然涌現出之前小模型所沒有的、意料之外的、能夠綜合分析和解決更深層次問題的復雜能力和特性,展現出類似人類的思維和智能。涌現能力也是大模型最顯著的特點之一。
- 更好的性能和泛化能力: 大模型通常具有更強大的學習能力和泛化能力,能夠在各種任務上表現出色,包括自然語言處理、圖像識別、語音識別等。
- 多任務學習: 大模型通常會一起學習多種不同的 NLP 任務,如機器翻譯、文本摘要、問答系統等。這可以使模型學習到更廣泛和泛化的語言理解能力。
- 大數據訓練: 大模型需要海量的數據來訓練,通常在 TB 以上甚至 PB 級別的數據集。只有大量的數據才能發揮大模型的參數規模優勢。
- 強大的計算資源: 訓練大模型通常需要數百甚至上千個 GPU,以及大量的時間,通常在幾周到幾個月。
- 遷移學習和預訓練: 大模型可以通過在大規模數據上進行預訓練,然后在特定任務上進行微調,從而提高模型在新任務上的性能。
- 自監督學習: 大模型可以通過自監督學習在大規模未標記數據上進行訓練,從而減少對標記數據的依賴,提高模型的效能。
- 領域知識融合: 大模型可以從多個領域的數據中學習知識,并在不同領域中進行應用,促進跨領域的創新。
- 自動化和效率:大模型可以自動化許多復雜的任務,提高工作效率,如自動編程、自動翻譯、自動摘要等。
五、大模型的應用
從產品形態上看,分為AIGC(內容生成)、Copilot(智能助手)、Insight(知識洞察)和Agent(數字代理)等重要方向。
從客戶方向可以分為,ToB、ToG、ToC。
- ToB場景:由于企業之間的業務差異較大,需要定制化的模型和算法,因此落地難度較大。此外,在企業內部,不同的部門之間也需要進行協調和溝通,以便更好地利用大模型提供的數據和服務。
- ToG場景:政府在制定政策時需要依賴大量的數據和信息,因此大模型在政府領域的應用較為廣泛。由于政府擁有較為完善的信息化基礎設施,因此大模型的落地難度相對較低。
- ToC場景:消費者對產品和服務的需求較為多樣化,因此大模型在消費市場中的應用難度較大。此外,由于消費市場的競爭較為激烈,企業需要不斷地優化產品和服務,以滿足消費者的需求,這也需要大模型提供更加精準的數據分析和預測。
從商業模式上看,分為永續微調(行業化大模型)與 MaaS。
- 在技術層面,微調(Fine-tuning)會是應用發展的關鍵。它是從傳統的人工智能邁向新時代的一個標志性進步。微調的價值在于,它能夠將一個通用模型轉變為針對特定任務高效的專用模型。這種方法在行業應用、企業應用以及垂直領域均顯示出巨大的潛力。值得注意的是,自 2023 年下半年以來,微調的成本已大幅降低,為其廣泛應用鋪平了道路。
- 模型即服務(MaaS)的概念在行業內得到迅速發展,許多大型企業已在其發布會上提及這一概念。它涉及將云資源與 AI 部署相結合,使模型能夠直接提供服務,這被認為是具有顛覆性的,有望重構眾多應用領域。
六、大模型的生態
1、開源生態:在當前的技術生態中,開源模式的重要性愈加凸顯。開源不再是學術界和小范圍開發者社區的專利,而是成為了 AIGC 全球性發展的核心動力。國際開源大模型的釋出,顯著加速了國內 AI 模型的開發、追隨與創新步伐。
2、商業生態 國外,GPT4之后,OpenAI并未甚囂塵上地推出GPT5,而是緊鑼密鼓地拿出Assistant API、GPTs,做生態的決心昭然若揭。 國內,百度、阿里都在建設自己的大模型生態。
七、大模型的天生難題與重重挑戰
在人工智能的發展潮流中,特別是以 Transformer、Diffusion 等為基礎的生成類模型展現出巨大的潛力的同時,即將面臨更嚴苛的難題與挑戰。
1、嚴肅正視大模型的幻覺問題
在人工智能的語境中,“幻覺”一詞被核心技術成員首次創意提出,用以表示模型可能出現的非預期輸出問題。這種精心選擇的用詞嘗試去緩解對人們和行業可能產生的負面影響,表明即使是最先進的機器學習模型,也難免會出現“類似人類”、“可以理解的”、“認知誤差”等現象。
然而幻覺問題遠非小事,它凸顯了當前模型在發散性與準確性之間的彈性。業界正致力于通過各種技術路徑應對,包括但不限于創造事后補丁或預防機制,掛載額外的模塊或系統,以及在模型出現偏差時及時介入的控制策略等等。這些嘗試盡管很有價值,但至今尚未找到徹底解決問題的答案。
2、算力需求及其帶來的挑戰
循環神經網絡、Transformer 模型等對算力的饑渴程度呈指數級增長。以 OpenAI 的新計劃為例,行業內有企業高管曾表示 OpenAI 的需求量級可能達到令人恐怖的“千萬級”GPU 算力集群——這個數字甚至遠遠超出了英偉達的年產量。
3、能源消耗與環境影響
能源消耗與環境影響是另一前沿議題。例如,GPT-3 模型訓練耗電量達 1.28 吉瓦時,相當于 120 個美國家庭年用電總和,伴隨而來的是 550 噸二氧化碳的排放量。
八、大模型訓練與治理
使用Transformer模型的大模型通常會進行自監督學習,包括無監督預訓練和監督微調。由于監督微調時使用的帶標簽訓練數據一般比較有限,預訓練通常會在比微調時所用的更大的數據集上完成。預訓練和微調的任務通常包括:
- 語言建模
- 下一句預測
- 問答系統
- 閱讀理解
- 文本情感分析
- 文本改寫
AI 已融入到我們的日常生活、商務、政府、醫療等領域。只有將倫理原則嵌入到 AI 應用和流程中,我們才能構建基于信任的AI系統。有以下幾個原則可供參考:
- 可解釋性,好的設計不會為了創造無縫體驗而犧牲透明度。
- 公平性,經適當校準,AI 可以幫助人類做出更公平的選擇。
- 穩健性,當系統被用于制定關鍵決策時,AI 必須安全穩健。
- 透明度,透明度可以增強信任,提高透明度的最佳途徑是信息披露。
- 隱私,AI 系統必須優先考慮和保障使用者的隱私和數據權利。
大模型 VS 大語言模型
大語言模型只是大模型的一個分類。
大語言模型和大模型在實現目標上有一定的區別: 1)大模型關注于捕捉大規模 數據集 的內在結構,通過大量參數來表示文本數據; 2)大語言模型關注于捕捉自然語言的語義結構,通過抽象表示方法來表示文本數據。
大模型 VS AIGC
大模型是指具有大量參數的機器學習模型,通常指深度學習模型。 AIGC(生成式人工智能)是指基于生成對抗網絡、大型預訓練模型等人工智能的技術方法,它是大模型的一種應用方式。
## 九、大模型適用場景有哪些?
- 自然語言處理(NLP):
大模型在自然語言處理領域應用廣泛,例如,GPT系列模型由OpenAI開發,具備理解問題、完成各種NLP任務的能力,如文本摘要、機器翻譯、自動文摘等。在實際應用中,大模型可以作為一個內容創作助手,幫助用戶生成文章、報告或者創意文案。例如,用戶可以提供大綱或者幾個關鍵詞,大模型就能生成一篇流暢的文章草稿,大大提高寫作效率。
- 計算機視覺(CV):
在計算機視覺領域,大模型可以應用于圖像識別、視頻分析、自動駕駛等場景。例如,華為發布的大模型混合云在推動AI應用落地新紀元中,可以用于智能監控、醫療影像分析等,通過圖像識別技術提高診斷的準確性和效率。
- 科研:
大模型在科研領域的應用包括基因序列分析、蛋白質結構預測等。例如,DeepMind的AlphaFold利用大模型預測蛋白質結構,為生物學研究提供了新的工具,加速了科學發現的進程。
- 制造業:
在制造業中,大模型可以用于質量控制、預測性維護、供應鏈優化等。例如,通過分析生產線上的圖像數據,大模型能夠識別產品缺陷,提高產品質量和生產效率。
- 金融服務:
大模型在金融服務行業中的應用包括信貸評估、風險管理、算法交易等。例如,通過分析大量的交易數據,大模型可以幫助銀行識別潛在的欺詐行為,提高金融交易的安全性。
- 醫療健康:
在醫療健康領域,大模型可以輔助醫生進行疾病診斷、治療計劃設計、藥物發現等。例如,大模型可以通過分析患者的醫療記錄和影像資料,輔助醫生制定個性化的治療方案。
- 教育:
在教育領域,大模型可以提供個性化學習體驗、自動化評分、學習分析等服務。例如,通過分析學生的學習行為和成績數據,大模型可以為學生推薦適合的學習資源和練習,幫助學生提高學習效率。
- 內容創作:
大模型在內容創作領域的應用包括創意寫作、音樂創作、藝術設計等。例如,大模型可以根據用戶給出的創意提示,生成詩歌、故事、歌詞等文本內容,激發創作者的靈感。
- 客戶服務:
在客戶服務領域,大模型可以通過聊天機器人和虛擬助手提供24/7的客戶支持。例如,大模型可以理解客戶的咨詢問題,并提供準確的答案和解決方案,提高客戶滿意度。
- 廣告和營銷:
大模型在廣告和營銷領域的應用包括廣告創意生成、個性化推薦、市場分析等。例如,大模型可以根據用戶的行為和偏好,生成個性化的廣告內容,提高廣告的點擊率和轉化率。
十、大模型有哪些常見問題?
- 大模型與傳統模型有什么區別?
大模型與傳統模型的主要區別在于規模:大模型擁有更多的參數和更復雜的結構,從而能夠處理更復雜、更廣泛的任務。此外,大模型通常需要更多的數據和計算資源進行訓練和推理。
- 大模型有哪些常見的應用場景?
大模型在多個領域展現出廣泛的應用潛力,包括自然語言處理、計算機視覺、語音識別、推薦系統等。它們可以用于機器翻譯、情感分析、文本摘要、問答系統、圖像識別、視頻分析、自動駕駛、醫療影像分析等。
- 大模型的訓練過程是怎樣的?
大型語言模型通常經歷預訓練和微調兩個過程。預訓練階段,模型接觸到來自多個來源的大量文本數據,從而擴展其知識庫并廣泛掌握語言。微調階段,為了提高性能,在特定任務或領域上對預訓練的模型進行再訓練。
- 大模型面臨的主要挑戰是什么?
當前AI大模型面臨的主要挑戰包括計算資源的需求、數據偏見、可解釋性和模型效率。大模型需要大量的計算資源進行訓練和推理,訓練數據中的偏見可能導致模型產生不公平或歧視性的結果,而且大模型通常缺乏可解釋性,使得人們難以理解其決策過程。
- 如何評估大模型的性能?
評估大模型性能時,通常會考慮準確率、召回率、F1值等指標。對于生成式任務,如文本生成,還會關注流暢性、多樣性和相關性等指標。此外,模型的效率、穩定性和可解釋性也是重要的評估方面。
- 大模型如何優化以提高性能和效率?
優化大模型以提高其性能和效率可以通過多種方式實現,包括使用分布式訓練、混合精度訓練等技術來加速訓練過程,以及通過剪枝、量化等手段進行模型壓縮,降低模型大小和推理時間。
- 大模型的未來發展會是怎樣的?
大模型的未來發展可能會包括更高效的自注意力機制、更輕量級的模型結構以及更多跨領域的應用。同時,隨著對模型可解釋性和公平性的關注增加,大模型也將在這方面取得更多進展。
參考資料
一文讀懂大模型的基本概念 一文搞懂AI相關概念和區別:GPT、大模型、AIGC、LLM、Transformer 大模型LLM知識整理
一站搜索、試用、比較全球API!
試用API,一次比較多個渠道