2、以 GPT 為代表的預訓練大模型階段

2020 年,OpenAI 公司推出了GPT-3,模型參數規模達到了 1750 億,成為當時最大的語言模型,并且在零樣本學習任務上實現了巨大性能提升。隨后,更多策略如基于人類反饋的強化學習(RHLF)、代碼預訓練、指令微調等開始出現, 被用于進一步提高推理能力和任務泛化。隨之大語言模型百花齊放,商用與開源頻出。

· 2022 年 11 月,搭載了GPT3.5的 ChatGPT橫空出世,憑借逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網。

· 2023 年 3 月,最新發布的超大規模多模態預訓練大模型——GPT-4,具備了多模態理解與多類型內容生成能力。在迅猛發展期,大數據、大算力和大算法完美結合,大幅提升了大模型的預訓練和生成能力以及多模態多場景應用能力。如 ChatGPT 的巨大成功,就是在微軟Azure強大的算力以及 wiki 等海量數據支持下,在 Transformer 架構基礎上,堅持 GPT 模型及人類反饋的強化學習(RLHF)進行精調的策略下取得的。

三、大模型的分類

按照輸入數據類型的不同,大模型主要可以分為以下三大類:

## 四、大模型的特點

五、大模型的應用

從產品形態上看,分為AIGC(內容生成)、Copilot(智能助手)、Insight(知識洞察)和Agent(數字代理)等重要方向。

從客戶方向可以分為,ToB、ToG、ToC。

商業模式上看,分為永續微調(行業化大模型)與 MaaS。

六、大模型的生態

1、開源生態:在當前的技術生態中,開源模式的重要性愈加凸顯。開源不再是學術界和小范圍開發者社區的專利,而是成為了 AIGC 全球性發展的核心動力。國際開源大模型的釋出,顯著加速了國內 AI 模型的開發、追隨與創新步伐。

2、商業生態 國外,GPT4之后,OpenAI并未甚囂塵上地推出GPT5,而是緊鑼密鼓地拿出Assistant API、GPTs,做生態的決心昭然若揭。 國內,百度、阿里都在建設自己的大模型生態。

七、大模型的天生難題與重重挑戰

人工智能的發展潮流中,特別是以 Transformer、Diffusion 等為基礎的生成類模型展現出巨大的潛力的同時,即將面臨更嚴苛的難題與挑戰。

1、嚴肅正視大模型的幻覺問題

在人工智能的語境中,“幻覺”一詞被核心技術成員首次創意提出,用以表示模型可能出現的非預期輸出問題。這種精心選擇的用詞嘗試去緩解對人們和行業可能產生的負面影響,表明即使是最先進的機器學習模型,也難免會出現“類似人類”、“可以理解的”、“認知誤差”等現象。

然而幻覺問題遠非小事,它凸顯了當前模型在發散性與準確性之間的彈性。業界正致力于通過各種技術路徑應對,包括但不限于創造事后補丁或預防機制,掛載額外的模塊或系統,以及在模型出現偏差時及時介入的控制策略等等。這些嘗試盡管很有價值,但至今尚未找到徹底解決問題的答案。

2、算力需求及其帶來的挑戰

循環神經網絡Transformer 模型等對算力的饑渴程度呈指數級增長。以 OpenAI 的新計劃為例,行業內有企業高管曾表示 OpenAI 的需求量級可能達到令人恐怖的“千萬級”GPU 算力集群——這個數字甚至遠遠超出了英偉達的年產量。

3、能源消耗與環境影響

能源消耗與環境影響是另一前沿議題。例如,GPT-3 模型訓練耗電量達 1.28 吉瓦時,相當于 120 個美國家庭年用電總和,伴隨而來的是 550 噸二氧化碳的排放量。

八、大模型訓練與治理

使用Transformer模型的大模型通常會進行自監督學習,包括無監督預訓練和監督微調。由于監督微調時使用的帶標簽訓練數據一般比較有限,預訓練通常會在比微調時所用的更大的數據集上完成。預訓練和微調的任務通常包括:

AI 已融入到我們的日常生活、商務、政府、醫療等領域。只有將倫理原則嵌入到 AI 應用和流程中,我們才能構建基于信任的AI系統。有以下幾個原則可供參考:

大模型 VS 大語言模型

語言模型只是大模型的一個分類。

大語言模型和大模型在實現目標上有一定的區別: 1)大模型關注于捕捉大規模 數據集 的內在結構,通過大量參數來表示文本數據; 2)大語言模型關注于捕捉自然語言的語義結構,通過抽象表示方法來表示文本數據。

大模型 VS AIGC

大模型是指具有大量參數的機器學習模型,通常指深度學習模型。 AIGC(生成式人工智能)是指基于生成對抗網絡、大型預訓練模型等人工智能的技術方法,它是大模型的一種應用方式。

## 九、大模型適用場景有哪些?

  1. 自然語言處理(NLP)
    大模型在自然語言處理領域應用廣泛,例如,GPT系列模型由OpenAI開發,具備理解問題、完成各種NLP任務的能力,如文本摘要、機器翻譯、自動文摘等。在實際應用中,大模型可以作為一個內容創作助手,幫助用戶生成文章、報告或者創意文案。例如,用戶可以提供大綱或者幾個關鍵詞,大模型就能生成一篇流暢的文章草稿,大大提高寫作效率。
  2. 計算機視覺(CV)
    計算機視覺領域,大模型可以應用于圖像識別、視頻分析、自動駕駛等場景。例如,華為發布的大模型混合云在推動AI應用落地新紀元中,可以用于智能監控、醫療影像分析等,通過圖像識別技術提高診斷的準確性和效率。
  3. 科研
    大模型在科研領域的應用包括基因序列分析、蛋白質結構預測等。例如,DeepMind的AlphaFold利用大模型預測蛋白質結構,為生物學研究提供了新的工具,加速了科學發現的進程。
  4. 制造業
    在制造業中,大模型可以用于質量控制、預測性維護、供應鏈優化等。例如,通過分析生產線上的圖像數據,大模型能夠識別產品缺陷,提高產品質量和生產效率。
  5. 金融服務
    大模型在金融服務行業中的應用包括信貸評估、風險管理、算法交易等。例如,通過分析大量的交易數據,大模型可以幫助銀行識別潛在的欺詐行為,提高金融交易的安全性。
  6. 醫療健康
    在醫療健康領域,大模型可以輔助醫生進行疾病診斷、治療計劃設計、藥物發現等。例如,大模型可以通過分析患者的醫療記錄和影像資料,輔助醫生制定個性化的治療方案。
  7. 教育
    在教育領域,大模型可以提供個性化學習體驗、自動化評分、學習分析等服務。例如,通過分析學生的學習行為和成績數據,大模型可以為學生推薦適合的學習資源和練習,幫助學生提高學習效率。
  8. 內容創作
    大模型在內容創作領域的應用包括創意寫作、音樂創作、藝術設計等。例如,大模型可以根據用戶給出的創意提示,生成詩歌、故事、歌詞等文本內容,激發創作者的靈感。
  9. 客戶服務
    在客戶服務領域,大模型可以通過聊天機器人和虛擬助手提供24/7的客戶支持。例如,大模型可以理解客戶的咨詢問題,并提供準確的答案和解決方案,提高客戶滿意度。
  10. 廣告和營銷
    大模型在廣告和營銷領域的應用包括廣告創意生成、個性化推薦、市場分析等。例如,大模型可以根據用戶的行為和偏好,生成個性化的廣告內容,提高廣告的點擊率和轉化率。

十、大模型有哪些常見問題?

  1. 大模型與傳統模型有什么區別?
    大模型與傳統模型的主要區別在于規模:大模型擁有更多的參數和更復雜的結構,從而能夠處理更復雜、更廣泛的任務。此外,大模型通常需要更多的數據和計算資源進行訓練和推理。
  2. 大模型有哪些常見的應用場景?
    大模型在多個領域展現出廣泛的應用潛力,包括自然語言處理、計算機視覺、語音識別、推薦系統等。它們可以用于機器翻譯、情感分析、文本摘要、問答系統、圖像識別、視頻分析、自動駕駛、醫療影像分析等。
  3. 大模型的訓練過程是怎樣的?
    大型語言模型通常經歷預訓練和微調兩個過程。預訓練階段,模型接觸到來自多個來源的大量文本數據,從而擴展其知識庫并廣泛掌握語言。微調階段,為了提高性能,在特定任務或領域上對預訓練的模型進行再訓練。
  4. 大模型面臨的主要挑戰是什么?
    當前AI大模型面臨的主要挑戰包括計算資源的需求、數據偏見、可解釋性和模型效率。大模型需要大量的計算資源進行訓練和推理,訓練數據中的偏見可能導致模型產生不公平或歧視性的結果,而且大模型通常缺乏可解釋性,使得人們難以理解其決策過程。
  5. 如何評估大模型的性能?
    評估大模型性能時,通常會考慮準確率、召回率、F1值等指標。對于生成式任務,如文本生成,還會關注流暢性、多樣性和相關性等指標。此外,模型的效率、穩定性和可解釋性也是重要的評估方面。
  6. 大模型如何優化以提高性能和效率?
    優化大模型以提高其性能和效率可以通過多種方式實現,包括使用分布式訓練、混合精度訓練等技術來加速訓練過程,以及通過剪枝、量化等手段進行模型壓縮,降低模型大小和推理時間。
  7. 大模型的未來發展會是怎樣的?
    大模型的未來發展可能會包括更高效的自注意力機制、更輕量級的模型結構以及更多跨領域的應用。同時,隨著對模型可解釋性和公平性的關注增加,大模型也將在這方面取得更多進展。

參考資料

一文讀懂大模型的基本概念 一文搞懂AI相關概念和區別:GPT、大模型、AIGC、LLM、Transformer 大模型LLM知識整理

一站搜索、試用、比較全球API!
冪簡集成已收錄 4968種API!
試用API,一次比較多個渠道