
使用Python語言調用零一萬物API實戰指南
GPT-4 Turbo 將作為第一位評委,根據我根據用例編寫的評估提示,對每個答案進行滿分 10 分的評分。
我自己擔任第二位評委。
每位評委將對答案進行滿分 10 分的評分
最終得分是 2 個分數的平均值。
在擴展每個用例的類別后,我必須仔細制作將提供給每個 LLM 的提示。不僅僅是創作提示,我知道如果我是唯一一個評估這些 LLM 答案的人,那將是非常有偏見和不可靠的,所以我與最好的 LLM gpt-04-turbo 聯手。
現在,將會有,
其中評估將由另一個 LLM 完成,我知道這聽起來很奇怪,但像 MT-Bench 這樣的基準(請注意,這次評估與 MT-Bench 相差甚遠)也使用強大的 LLM 作為評委來自動化評估過程。
為了策劃創作提示,我使用了提示工程技術,例如人員采用、清晰的說明、思考時間和分隔的參考文本。
例如,
社交媒體文案提示:假設你是一家精品咖啡店的社交媒體經理,這家咖啡店以使用公平貿易的有機咖啡豆而自豪。你的目標是吸引經常光顧咖啡店作為社交中心的年輕時尚受眾。制作一系列社交媒體帖子:— 用生動的視覺效果和誘人的描述介紹一種新的季節性混合咖啡。— 宣傳即將舉行的現場音樂晚會,突出舒適的氛圍和優質的咖啡。— 分享客戶對他們最喜歡的咖啡和學習場所的評價。確保每篇帖子都引人入勝,使用對話語氣,并包含可提高知名度和推動互動的主題標簽。
評估提示也使用了類似的技術和框架進行評估。我將每個評估標準分為 5 個部分,每個部分價值 2 分,部分滿足標準則進行部分評分。
示例:
社交媒體文案響應評估提示:你是專業的文案撰稿人和編輯。根據以下標準對以下社交媒體文案(下面用三重引號分隔)進行 10 分制評分,其中每個點有 2 分,如果大綱未能完全捕捉到該元素,則給 0 分,如果大綱部分涵蓋該元素,則給 1 分,如果大綱完全涵蓋該標準的所有本質,則給 2 分:評估社交媒體文案的以下元素:— 相關性:內容是否與當前趨勢、熱門標簽和受眾興趣一致?— 對話語氣:文案是否使用友好、隨意的語氣,引起社交媒體用戶的共鳴?— 視覺沖擊:文案是否提到使用引人入勝的視覺效果(例如圖像、視頻或 GIF)來提高參與度? — 簡潔性:文案是否簡短、簡潔,一目了然? — 可分享性:內容是否以鼓勵點贊、分享和評論的方式制作,以擴大影響力? “””{text}”””
所有 22 個類別都進行了此項測試。
現在是生成和評估響應的時候了。
為了進行評估,我使用了 chatgpt,默認情況下它使用 gpt-4-turbo。
以下是我按類別得到的結果:
GPT 的評估分數:
我的評估分數:
然后將以上兩個分數的平均數作為最終得分:
博客寫作評選 — Llama-3–70B
Llama-3–70b 得分 48.5,其大綱非常詳盡,能夠從參考文本中學習,并且具有高質量的文本生成能力,最終成為贏家。
Sonnet 和 Gemini 也給出了很好的回答,但 Llama 的回答具有人們在閱讀真實文本時所尋找的細微差別或對細節的更多關注。
這是一個有點令人失望的類別,部分原因是提示,我應該花更多精力來制作更詳細的電子郵件提示,但是,它們對所有人來說都是一樣的,所以讓我們看看結果:
GPT 分數:
我的分數:
最終分數:
電子郵件寫作的評價——Llama-3–70B
同樣,Llama-3–70b 以 41.5 分(滿分 50 分)的表現優于其競爭對手,但我對質量和現代電子郵件寫作實踐并不十分滿意,我們優先考慮簡潔和直接的回復,但考慮到提示,他們做得相當不錯。
在文案撰寫方面,所有模型都表現得相當不錯。
GPT 得分:
我的得分:
最終得分:
文案撰寫評價 — Llama-3–70B
llama-3 的質量和遵循指令的能力都很不錯。它抓住了提示中的每個小細節,因此不僅在 GPT 的評估中得分很高,而且我還發現文案更詳細、更有條理、更連貫、更有吸引力。
GPT 分數:
我的分數:
最終分數:
劇本寫作評價——Llama-3–70b
所有模型在制作初稿時都表現得相當不錯,但需要大量改進才能跟上另一位作者的寫作風格,這是我這次錯過的,但肯定會檢查的。
我們有 3 個獲勝者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。
這是我手頭上最重要的任務之一,結果如下:
GPT 分數:
我的分數:
最終分數:
內容摘要評價——Claude 和 Gemini 1.5 Pro
Claude 模型生成的摘要質量讓我感到驚訝。Claude Sonnet 和我也嘗試過 Claude 3 Opus(他們最好的模型,但非常昂貴),Opus 的摘要結構嚴謹、注重細節,盡可能地抓住了文檔的精髓。經過微調后,這些模型的表現絕對非常好。
獲勝者:Gemini 1.5 Pro 和 Claude 3 Sonnet
總分為 220 分,得分 199.5 分,Llama-3–70b 在內容創作方面總體表現優異。
原文鏈接:http://www.bimant.com/blog/llm-content-creation-capability-evaluation/