国产在线精品一区二区三区,日韩欧美国产八点影院,亚洲视频一区在线

圖1. LLM推理的預(yù)測概率示意

因此，這個依概率采樣的推理過程決定了LLM不可能100%按要求輸出JSON格式。錯誤的JSON輸出導(dǎo)致了我們在工程鏈路上無法作后續(xù)的解析，因此，能100%嚴(yán)格限制JSON格式輸出的方法非常重要。

1.3 友商方案

OpenAI JSON Mode

推出于2023年12月份，基于提示詞優(yōu)化，用戶仍需要在提示詞中給出JSON示例，不能保證嚴(yán)格100%輸出JSON。

Kimi JSON Mode

近期推出。類似OpenAI的 JSON Mode，用戶仍需要在提示詞中給出JSON示例，不能保證嚴(yán)格100%輸出JSON。

OpenAI Structured Outputs

推出于2024年8月份，根據(jù)用戶給出的JSON示例，嚴(yán)格保證100%輸出JSON格式。

https://openai.com/index/introducing-structured-outputs-in-the-api/

圖2. OpenAI輸出JSON格式的方法，橙、黃、綠分別代表提示詞優(yōu)化、微調(diào)、動態(tài)限制解碼法的JSON輸出準(zhǔn)確率

(動態(tài)限制解碼法準(zhǔn)確率為100%)

二、前中后三階段的優(yōu)化策略

Motivation: 在一個基于通義千問的AI教評項目場景中，JSON格式輸出對客戶十分重要。因此，我們在該項目實踐中由淺入深，從LLM推理的前、中、后三個階段探索了限制輸出JSON格式的方法。其中，“推理前”和“推理后”這兩個階段的方法用在了項目實踐中，大大提高了AI教評任務(wù)中JSON格式的輸出概率。為了進一步研究如何100%輸出JSON格式，我們借他山之石，研究了OpenAI的Structured Outputs方法，在“推理中”這一階段探索并驗證了基于動態(tài)限制解碼的100%輸出JSON格式方法。

在分析相關(guān)工作基礎(chǔ)上，我們將深入討論每階段的方法、優(yōu)劣及其實現(xiàn)方式，以期幫助讀者掌握提升JSON輸出概率的辦法，并應(yīng)用在實踐中。

2.1 推理“前”：Prompt Engineering

(以下提示詞來自大量項目實踐驗證)

在提示詞中加入這句話“The JSON object：json”可提高JSON輸出概率。（別問，問就是大量實踐總結(jié)的經(jīng)驗~）

在提示詞中給出”##輸出格式規(guī)范”，并給出JSON示例“json ... “

## 輸出格式規(guī)范：

```json

[{

  "name":"<評價維度>",

  "mentions":"< 提及次數(shù) >",

  "references":[{

    "time":"<發(fā)言時間>",

    "text":"<原文內(nèi)容>"}]}]

```



The JSON object：json

【實踐】

在利用Qwen-long作AI教評的一個項目中，我們需要從教師的課堂錄音文本中提取結(jié)構(gòu)化的教學(xué)維度信息。采用本節(jié)中的prompt加上2.3中的JSON后處理方法后，輸出樣本基本是符合預(yù)期的結(jié)構(gòu)化JSON。JSON正確概率從50%左右上升到了95%。可見僅靠prompt和后處理，已經(jīng)能以很高的概率使得大模型按照J(rèn)SON格式輸出。然而，在一些需要嚴(yán)謹(jǐn)輸出JSON格式的場景，100%嚴(yán)格輸出JSON格式的方法仍值得研究。

【優(yōu)勢】

實施簡便，無需模型架構(gòu)調(diào)整，可以大幅提高輸出JSON的概率。

【不足】

高度依賴于人工設(shè)計的prompt，靈活性受限。不能100%輸出JSON

2.2 推理“中”：基于動態(tài)限制解碼實現(xiàn)100%輸出JSON

【原理】

LLM依據(jù)已輸出的詞，從詞匯表中預(yù)測下一個詞，可以在詞匯表中將不符合JSON規(guī)范的詞概率置零，從而防止輸出不符合JSON規(guī)范。（原理偏復(fù)雜，可跳過本節(jié)直接看結(jié)論）。假設(shè)我們想讓LLM的輸出為一個城市的如下信息：

city_info_schema=[{

  "name":"城市名",

  "country":"城市所屬國家",

  "latitude":"城市緯度",

  "population":"城市人口(千萬)",

  "top 3 landmarks":["知名景點1","知名景點2","知名景點3"]

}]

如上代碼塊所示，在內(nèi)存中定義JSON輸出的模式city_info_schema。LLM每輪逐個單詞輸出”response”，對于JSON的”key”值，如”name”，我們直接從內(nèi)存拼接到輸出字符串”response_str”中；對于JSON的”value”，則讓LLM通過推理產(chǎn)生。當(dāng)用戶提出問題“請?zhí)顚懞贾莸某鞘行畔ⅰ焙螅瑒討B(tài)限制解碼流程如下：

圖3. 動態(tài)限制解碼法示意圖。其中只有綠色詞是LLM的推理產(chǎn)生。

上圖展示了動態(tài)限制解碼的工作流程，每一輪推理過程我們給定了JSON的“鍵”，僅讓模型推理“值”。可以進一步用正則式（Python re庫）限制我們想要的輸出格式：

city_regex = (

    r"""\{\n"""

    + r"""  "name": "[\w\d\s]{1,16}",\n"""

    + r"""  "country": "[\w\d\s]{1,16}",\n"""

    + r"""  "latitude": [-+]?[0-9]*\.?[0-9]{0,2},\n"""

    + r"""  "population": [-+]?[0-9]{1,9},\n"""

    + r"""  "top 3 landmarks": \["[\w\d\s]{1,16}", "[\w\d\s]{1,16}", "[\w\d\s]{1,16}"\]\n"""

    + r"""\}"""

)

在推理過程中，根據(jù)正則式限制輸出格式的流程如下：

圖4. 動態(tài)限制解碼法的”推理-限制-采樣-拼接”流程

如第一個鍵”key”對應(yīng)的”name”，我們用正則式限制其必須輸出16個字以內(nèi)的英文，則”杭”的概率由于不符合正則式要求，預(yù)測概率置零，模型一定會按照我們的要求輸出。

由于動態(tài)限制解碼技術(shù)需要我們有凍結(jié)模型解碼過程、改變詞匯表采樣概率、改變模型輸入的權(quán)限，目前在線的API接口。

不支持編寫動態(tài)限制解碼算法。但是可以在本地部署模型以實現(xiàn)動態(tài)限制解碼。

【實踐】

在PAI平臺的免費體驗DSW（NVIDIA A10）上本地部署Qwen2-7B-Instruct實現(xiàn)動態(tài)限制解碼。基于開源的sglang庫，可快速部署動態(tài)限制解碼算法。

pip install --upgrade pip

pip install "sglang[all]"

# Install FlashInfer CUDA kernels

wget "https://modelscope.oss-cn-beijing.aliyuncs.com/resource/flashinfer-0.1.2%2Bcu121torch2.3-cp310-cp310-linux_x86_64.whl"

pip install flashinfer-0.1.2+cu121torch2.3-cp310-cp310-linux_x86_64.whl

modelscope download --model=qwen/Qwen2-7B-Instruct --local_dir ./Qwen2-7B-Instruct

python3 -m sglang.launch_server --model-path Qwen2-7B-Instruct --port 30000

圖5. sglang框架下的千問模型本地部署成功示意圖

顯示上圖即部署成功。

###導(dǎo)入庫

import json

import time

from sglang import set_default_backend, RuntimeEndpoint

import sglang as sgl

from sglang.test.test_utils import (

    add_common_sglang_args_and_parse,

    select_sglang_backend,

)

from sglang.utils import dump_state_text, read_jsonl

##定義“限制模型輸出的正則式”

city_regex = (

    r"""\{\n"""

    + r"""  "name": "[\w\d\s]{1,16}",\n"""

    + r"""  "country": "[\w\d\s]{1,16}",\n"""

    + r"""  "latitude": [-+]?[0-9]*\.?[0-9]{0,2},\n"""

    + r"""  "population": [-+]?[0-9]{1,9},\n"""

    + r"""  "top 3 landmarks": \["[\w\d\s]{1,16}", "[\w\d\s]{1,16}", "[\w\d\s]{1,16}"\]\n"""

    + r"""\}"""

)

## 將正則式應(yīng)用在輸出范式中

@sgl.function

def chat_example(s,question):

    s += sgl.system("You are a helpful assistant.")

    # Same as: s += s.system("You are a helpful assistant.")



    with s.user():

        s += question



    s += sgl.assistant_begin()

    s += "Answer: " + sgl.gen("json_output", max_tokens=256, regex=city_regex)

    s += sgl.assistant_end()

## 設(shè)置Qwen2的本地通信端口，上圖設(shè)置為port30000

set_default_backend(RuntimeEndpoint("http://localhost:30000"))

## 捕捉用戶輸入

state = chat_example.run(

    question=input("請輸入城市名："),

    # temperature=0.1,

    stream=True

)

## 打印必然的JSON輸出結(jié)果

for out in state.text_iter():

    print(out, end="", flush=True)

運行效果：試輸入“杭州”和“紐約”兩個城市。輸出嚴(yán)格按照了正則式的限制。

圖6. 基于動態(tài)限制解碼的JSON格式輸出結(jié)果。

【優(yōu)勢】

100%嚴(yán)格輸出JSON格式，甚至是任意正則式可以定義的格式。
在輸出的JSON中，節(jié)省了輸出”key”值的token：因為”key”值是內(nèi)存中定義好的，不需要由LLM推理而得。因此，相對于prompt的方式讓模型輸出全JSON的方式，節(jié)省了輸出的token數(shù)量。（這也是為什么OpenAI的JSON 模式每token價格有30%的折扣的原因）

【不足】

必須本地部署LLM。

2.3 推理“后”：JSON數(shù)據(jù)后處理

在模型返回response后，也可以利用后處理的技術(shù)，校正JSON結(jié)構(gòu)以提高JSON輸出的概率。

JSON Repair庫

Python 的json_repair庫，可以解決一部分模型輸出JSON格式不規(guī)范的問題。

from json_repair import loads #pip install json_repair

import json



if __name__ == '__main__':



    bad_string= '''

[

            {

                "foo": "Foo bar baz",

                "tag": "foo-bar-baz"

            },

            {

                "中文": "foo bar foobar foo bar baz.",

                "標(biāo)簽": "foo-bar-foobar"

            }

        ]

'''



    parsed_json = loads(bad_string)

    json_str = json.dumps(parsed_json,ensure_ascii=False)

    print(json_str)