## 四、大語言模型核心問題:偏差和局限性
大語言模型偏差和局限性是自然語言處理(NLP)領(lǐng)域正在進(jìn)行的研究。雖然大語言模型在生成類人文本方面表現(xiàn)出了卓越的能力,但他們很容易繼承和放大訓(xùn)練數(shù)據(jù)中存在的偏見。這可能表現(xiàn)為對不同人口統(tǒng)計數(shù)據(jù)的不公平待遇,例如基于種族、性別、語言和文化群體的統(tǒng)計數(shù)據(jù)。此外,這些模型通常面臨事實(shí)準(zhǔn)確性的限制。研究和緩解這些偏見和限制對于人工智能在不同社會和專業(yè)領(lǐng)域的道德發(fā)展和應(yīng)用至關(guān)重要。
以ChatGLM、LLaMA等平民玩家都能跑起來的較小規(guī)模的LLM開源之后,業(yè)界涌現(xiàn)了非常多基于LLM的二次微調(diào)或應(yīng)用的案例,常見底座模型細(xì)節(jié)概覽:
底座 | 包含模型 | 模型參數(shù)大小 | 訓(xùn)練token數(shù) | 訓(xùn)練最大長度 | 是否可商用 |
---|---|---|---|---|---|
ChatGLM | ChatGLM/2/3 Base&Chat | 6B | 1T/1.4 | 2K/32K | 可商用 |
LLaMA | LLaMA/2/3 Base&Chat | 7B/8B/13B/33B/70B | 1T/2T | 2k/4k | 部分可商用 |
Baichuan | Baichuan/2 Base&Chat | 7B/13B | 1.2T/1.4T | 4k | 可商用 |
Qwen | Qwen/1.5 Base&Chat | 7B/14B/72B/110B | 2.2T/3T | 8k/32k | 可商用 |
BLOOM | BLOOM | 1B/7B/176B-MT | 1.5T | 2k | 可商用 |
Aquila | Aquila/2 Base/Chat | 7B/34B | – | 2k | 可商用 |
InternLM | InternLM/2 Base/Chat/Code | 7B/20B | – | 200k | 可商用 |
Mixtral | Base&Chat | 8x7B | – | 32k | 可商用 |
Yi | Base&Chat | 6B/9B/34B | 3T | 200k | 可商用 |
DeepSeek | Base&Chat | 1.3B/7B/33B/67B | – | 4k | 可商用 |