
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
與此同時,還有一個 400B 的超大杯模型還在路上,估計很快就會放出來,到時候就真的碾壓了,某些聲稱閉源遙遙領先的哥們就等著哭吧?
雖然才過去短短幾日,Huggingface 上已經涌現了非常多的 Llama3 中文微調版,令人眼花繚亂:
想不想自己也部署一個 Llama3 中文版?
對于沒有 GPU 的同學,我們可以使用微調的量化模型來使用 CPU 運行。不同的量化方法會帶來不同的性能損失:
綜合來說,如果追求無任何性能損失,8B 模型用 8bit 量化,70B 模型用 4bit 量化。
如果能接受 2-3%損失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。
目前效果最好的中文微調版是 HuggingFace 社區的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型[1],該模型采用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(沒錯,就是那個弱智吧~)數據集,使模型能夠使用中文回答用戶的提問。
下面我們來看看如何在三分鐘內快速部署這個模型吧。
直接在瀏覽器中打開以下鏈接:
然后點擊右上角的「去 Sealos 部署」。
?
如果您是第一次使用 Sealos,則需要注冊登錄 Sealos 公有云賬號,登錄之后會立即跳轉到模板的部署頁面。
跳轉進來之后,點擊右上角的「部署應用」開始部署,部署完成后,直接點擊應用的「詳情」進入該應用的詳情頁面。
等待實例狀態變成 running 之后,Llama3 中文版模型就部署好了,默認會提供一個與 OpenAI 官方接口對齊的 API,你可以打開終端直接通過 API 來測試。我框出來的部分就是該模型 API 在 Sealos 集群的內網地址,你可以點擊它直接復制。
為了更直觀地使用,我們可以選擇再部署一個 WebUI,Lobe Chat、ChatGPT Next Web 這些都可以使用,本文以 Lobe Chat 為例,直接在瀏覽器打開以下鏈接:
需要填寫三個變量的值,如下圖所示:
OPENAI_PROXY_URL
的值就是我們剛剛復制的內網 API 接口地址,記得要在末尾加上 /v1
。OPENAI_MODEL_LIST
的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF
。OPENAI_API_KEY
的值隨便瞎寫一個就行。然后點擊右上角的「部署應用」,部署完成后,直接點擊應用的「詳情」進入該應用的詳情頁面,等待實例狀態變成 running 之后,點擊外網地址即可打開 Lobe Chat 的可視化界面。
進來之后,先點擊頂部的 gpt-3.5-turbo:
在彈出來的下拉框中點擊「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」,切換到該模型。
現在就可以和模型愉快地對話了,先來個弱智吧的問題嘗嘗咸淡:
再來試試 GPT-4 專用測試問題:
數學能力測試:
文章轉載自:一分鐘部署 Llama3 中文大模型,沒別的,就是快