圖1. LLM推理的預(yù)測概率示意

因此,這個依概率采樣的推理過程決定了LLM不可能100%按要求輸出JSON格式。錯誤的JSON輸出導(dǎo)致了我們在工程鏈路上無法作后續(xù)的解析,因此,能100%嚴(yán)格限制JSON格式輸出的方法非常重要。

1.3 友商方案

推出于2023年12月份,基于提示詞優(yōu)化,用戶仍需要在提示詞中給出JSON示例,不能保證嚴(yán)格100%輸出JSON。

近期推出。類似OpenAI的 JSON Mode,用戶仍需要在提示詞中給出JSON示例,不能保證嚴(yán)格100%輸出JSON。

推出于2024年8月份,根據(jù)用戶給出的JSON示例,嚴(yán)格保證100%輸出JSON格式。

https://openai.com/index/introducing-structured-outputs-in-the-api/

圖2. OpenAI輸出JSON格式的方法,橙、黃、綠分別代表提示詞優(yōu)化、微調(diào)、動態(tài)限制解碼法的JSON輸出準(zhǔn)確率

(動態(tài)限制解碼法準(zhǔn)確率為100%)

二、前中后三階段的優(yōu)化策略 

Motivation: 在一個基于通義千問的AI教評項目場景中,JSON格式輸出對客戶十分重要。因此,我們在該項目實踐中由淺入深,從LLM推理的前、中、后三個階段探索了限制輸出JSON格式的方法。其中,“推理前”和“推理后”這兩個階段的方法用在了項目實踐中,大大提高了AI教評任務(wù)中JSON格式的輸出概率。為了進一步研究如何100%輸出JSON格式,我們借他山之石,研究了OpenAI的Structured Outputs方法,在“推理中”這一階段探索并驗證了基于動態(tài)限制解碼的100%輸出JSON格式方法。

在分析相關(guān)工作基礎(chǔ)上,我們將深入討論每階段的方法、優(yōu)劣及其實現(xiàn)方式,以期幫助讀者掌握提升JSON輸出概率的辦法,并應(yīng)用在實踐中。

2.1 推理“前”:Prompt Engineering

(以下提示詞來自大量項目實踐驗證)

在提示詞中加入這句話“The JSON object:json”可提高JSON輸出概率。(別問,問就是大量實踐總結(jié)的經(jīng)驗~)

在提示詞中給出”##輸出格式規(guī)范”,并給出JSON示例“json ...

## 輸出格式規(guī)范:
```json
[{
"name":"<評價維度>",
"mentions":"< 提及次數(shù) >",
"references":[{
"time":"<發(fā)言時間>",
"text":"<原文內(nèi)容>"}]}]
```

The JSON object:json

【實踐】

在利用Qwen-long作AI教評的一個項目中,我們需要從教師的課堂錄音文本中提取結(jié)構(gòu)化的教學(xué)維度信息。采用本節(jié)中的prompt加上2.3中的JSON后處理方法后,輸出樣本基本是符合預(yù)期的結(jié)構(gòu)化JSON。JSON正確概率從50%左右上升到了95%。可見僅靠prompt和后處理,已經(jīng)能以很高的概率使得大模型按照J(rèn)SON格式輸出。然而,在一些需要嚴(yán)謹(jǐn)輸出JSON格式的場景,100%嚴(yán)格輸出JSON格式的方法仍值得研究。

【優(yōu)勢】

實施簡便,無需模型架構(gòu)調(diào)整,可以大幅提高輸出JSON的概率。

【不足】

高度依賴于人工設(shè)計的prompt,靈活性受限。不能100%輸出JSON

2.2 推理“中”:基于動態(tài)限制解碼實現(xiàn)100%輸出JSON

【原理】

LLM依據(jù)已輸出的詞,從詞匯表中預(yù)測下一個詞,可以在詞匯表中將不符合JSON規(guī)范的詞概率置零,從而防止輸出不符合JSON規(guī)范。(原理偏復(fù)雜,可跳過本節(jié)直接看結(jié)論)。假設(shè)我們想讓LLM的輸出為一個城市的如下信息:

city_info_schema=[{
"name":"城市名",
"country":"城市所屬國家",
"latitude":"城市緯度",
"population":"城市人口(千萬)",
"top 3 landmarks":["知名景點1","知名景點2","知名景點3"]
}]

如上代碼塊所示,在內(nèi)存中定義JSON輸出的模式city_info_schema。LLM每輪逐個單詞輸出”response”,對于JSON的”key”值,如”name”,我們直接從內(nèi)存拼接到輸出字符串”response_str”中;對于JSON的”value”,則讓LLM通過推理產(chǎn)生。當(dāng)用戶提出問題“請?zhí)顚懞贾莸某鞘行畔ⅰ焙螅瑒討B(tài)限制解碼流程如下:

圖3. 動態(tài)限制解碼法示意圖。其中只有綠色詞是LLM的推理產(chǎn)生。

上圖展示了動態(tài)限制解碼的工作流程,每一輪推理過程我們給定了JSON的“鍵”,僅讓模型推理“值”。可以進一步用正則式(Python re庫)限制我們想要的輸出格式:

city_regex = (
r"""\{\n"""
+ r""" "name": "[\w\d\s]{1,16}",\n"""
+ r""" "country": "[\w\d\s]{1,16}",\n"""
+ r""" "latitude": [-+]?[0-9]*\.?[0-9]{0,2},\n"""
+ r""" "population": [-+]?[0-9]{1,9},\n"""
+ r""" "top 3 landmarks": \["[\w\d\s]{1,16}", "[\w\d\s]{1,16}", "[\w\d\s]{1,16}"\]\n"""
+ r"""\}"""
)

在推理過程中,根據(jù)正則式限制輸出格式的流程如下:

圖4. 動態(tài)限制解碼法的”推理-限制-采樣-拼接”流程

如第一個鍵”key”對應(yīng)的”name”,我們用正則式限制其必須輸出16個字以內(nèi)的英文,則”杭”的概率由于不符合正則式要求,預(yù)測概率置零,模型一定會按照我們的要求輸出。

由于動態(tài)限制解碼技術(shù)需要我們有凍結(jié)模型解碼過程、改變詞匯表采樣概率、改變模型輸入的權(quán)限,目前在線的API接口。

不支持編寫動態(tài)限制解碼算法。但是可以在本地部署模型以實現(xiàn)動態(tài)限制解碼。

【實踐】

在PAI平臺的免費體驗DSW(NVIDIA A10)上本地部署Qwen2-7B-Instruct實現(xiàn)動態(tài)限制解碼。基于開源的sglang庫,可快速部署動態(tài)限制解碼算法。

pip install --upgrade pip
pip install "sglang[all]"
# Install FlashInfer CUDA kernels
wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flashinfer-0.1.2%2Bcu121torch2.3-cp310-cp310-linux_x86_64.whl"
pip install flashinfer-0.1.2+cu121torch2.3-cp310-cp310-linux_x86_64.whl
modelscope download --model=qwen/Qwen2-7B-Instruct --local_dir ./Qwen2-7B-Instruct
python3 -m sglang.launch_server --model-path Qwen2-7B-Instruct --port 30000

圖5. sglang框架下的千問模型本地部署成功示意圖

顯示上圖即部署成功。

###導(dǎo)入庫
import json
import time
from sglang import set_default_backend, RuntimeEndpoint
import sglang as sgl
from sglang.test.test_utils import (
add_common_sglang_args_and_parse,
select_sglang_backend,
)
from sglang.utils import dump_state_text, read_jsonl
##定義“限制模型輸出的正則式”
city_regex = (
r"""\{\n"""
+ r""" "name": "[\w\d\s]{1,16}",\n"""
+ r""" "country": "[\w\d\s]{1,16}",\n"""
+ r""" "latitude": [-+]?[0-9]*\.?[0-9]{0,2},\n"""
+ r""" "population": [-+]?[0-9]{1,9},\n"""
+ r""" "top 3 landmarks": \["[\w\d\s]{1,16}", "[\w\d\s]{1,16}", "[\w\d\s]{1,16}"\]\n"""
+ r"""\}"""
)
## 將正則式應(yīng)用在輸出范式中
@sgl.function
def chat_example(s,question):
s += sgl.system("You are a helpful assistant.")
# Same as: s += s.system("You are a helpful assistant.")

with s.user():
s += question

s += sgl.assistant_begin()
s += "Answer: " + sgl.gen("json_output", max_tokens=256, regex=city_regex)
s += sgl.assistant_end()
## 設(shè)置Qwen2的本地通信端口,上圖設(shè)置為port30000
set_default_backend(RuntimeEndpoint("http://localhost:30000"))
## 捕捉用戶輸入
state = chat_example.run(
question=input("請輸入城市名:"),
# temperature=0.1,
stream=True
)
## 打印必然的JSON輸出結(jié)果
for out in state.text_iter():
print(out, end="", flush=True)

運行效果:試輸入“杭州”和“紐約”兩個城市。輸出嚴(yán)格按照了正則式的限制。

圖6. 基于動態(tài)限制解碼的JSON格式輸出結(jié)果。

【優(yōu)勢】

【不足】

2.3 推理“后”:JSON數(shù)據(jù)后處理

在模型返回response后,也可以利用后處理的技術(shù),校正JSON結(jié)構(gòu)以提高JSON輸出的概率。

Python 的json_repair庫,可以解決一部分模型輸出JSON格式不規(guī)范的問題。

from json_repair import loads #pip install json_repair
import json

if __name__ == '__main__':

bad_string= '''
[
{
"foo": "Foo bar baz",
"tag": "foo-bar-baz"
},
{
"中文": "foo bar foobar foo bar baz.",
"標(biāo)簽": "foo-bar-foobar"
}
]
'''

parsed_json = loads(bad_string)
json_str = json.dumps(parsed_json,ensure_ascii=False)
print(json_str)

經(jīng)實踐驗證,json_repair可以解決輸出的JSON中缺少”},],”的問題。

三、總結(jié)與展望

以上介紹的三種類型的方法,可以同時使用,但需要注意不同的場景限制:

【前、中、后三階段方法總結(jié)】

文章轉(zhuǎn)自微信公眾號@阿里云開發(fā)者

上一篇:

AnalyticDB(ADB)+LLM:構(gòu)建AIGC時代下企業(yè)專屬Chatbot

下一篇:

多模態(tài)大模型微調(diào)實踐!PAI+LLaMA Factory搭建AI導(dǎo)游
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費