△評測結果展示,罰分越低代表模型越好

簡單看個實測例子。我命由我不由天,英文怎么說?子曰2.0:I’m the master of my destiny。Claude 3.5 Sonnet:My fate is in my own hands, not in heaven’s control.(Alternative translations could be: “I control my destiny, not the heavens” or “My destiny is determined by me, not by fate”)

image

對比一下,Claude哪怕給出了三個回答,也都沒有子曰的更自然簡潔有力。翻譯專業領域時子曰2.0也更準確。對照最新版本的Claude-3.7,子曰2.0準確譯出了醫學詞匯“透明細胞腎細胞癌”。

image

但是Claude-3.7卻翻譯成了“清細胞腎細胞癌”。

image

沒想到,在翻譯這類專業領域上,通用大模型的表現還是有待提高啊。(被AI取代的焦慮可以暫時緩解緩解了)所以,為啥垂直領域做個小模型,就能輕松打敗規模大10倍+的通用大模型呢?來看子曰2.0的進一步表現。

輕松拿捏論文財報專業翻譯簡單總結

子曰2.0在更為專業的翻譯場景下,表現更為突出。翻譯的基本要求是“信達雅”,即忠實原文、通順明白、選詞得體。越是專業的領域,翻譯難度越大。因此,我們設置了風格迥異的幾個方面來測試專業翻譯模型和通用大模型的表現:論文翻譯、財報翻譯、詩句翻譯。主要考量的維度包括:準確度、流暢度、不必要增減、優美/地道。

首先在語料庫的豐富度上,子曰2.0明顯更勝一籌。畢竟丟給它“Strawberry Shake-Shake”,它都知道譯為:草莓搖搖奶昔。

image

在古詩翻譯上,子曰2.0給出的譯文更加傳神、保留意境,同時還兼顧了押韻,進一步古詩詞的韻味傳遞到英文之中,還有點翻譯家許淵沖的味道在了。

image

這種時候,Claude 3.5 Sonnet相形見絀,只是完成了意思上的翻譯,卻沒能做到傳神。

image

學術論文翻譯場景中,對準確度要求更高,而且不同領域都有各自的專業詞匯,這要求AI翻譯不僅要掌握海量專有名詞,還能結合上下文分析出對應語境,才能給出正確的譯文。以翻譯CVPR2025這篇滿分論文為例,給它的翻譯任務是:翻譯這張圖片的圖注。(將圖注文字復制后輸入給模型,不涉及多模態輸入)

image

可以看到原文圖注中MSE、MMD都只提供了縮寫。子曰2.0準確將英文縮寫翻譯為了計算機領域的專有詞匯,給出了更完整且正確的翻譯(下文標粗部分)。子曰大模型2.0:圖 1.不同數據集蒸餾范式的比較。(a)均方誤差(MSE)方法在歐幾里得空間(記為 ZR)中比較點對點特征,而最大均值差異(MMD)則在希爾伯特空間(ZH)中評估矩差異。

image

對比Claude 3.5 Sonnet,并沒有做到這一點:圖1. 不同數據集蒸餾范式的比較。(a)?MSE方法在歐幾里得空間(記為ZR)中比較逐點特征,而MMD在希爾伯特空間(ZH)中評估矩分布差異。

image

而對于自己不了解的專有名詞,子曰2.0會選擇不翻譯而不是錯譯。相對于通用大模型,“幻覺”問題進一步減少。比如翻譯蜜雪冰城招股書的內容時,原文“according to CIC”部分里的CIC(圖中紅色框),由于提供的文本片段不完整,子曰2.0根據上下文無法得知它是什么名詞的縮寫,因此選擇不翻譯。

image

子曰2.0結果:

image

Claude 3.5 Sonnet將CIC翻譯成了中投顧問,參考招股書中文版原文,CIC應該指灼識咨詢,翻譯錯誤。

image

此外在譯文用詞方面(圖中綠色框),子曰2.0結合語境將expansive翻譯為“龐大的”,用來修飾供應鏈更貼切;Claude則直譯為了廣泛的,在中文語法上有語病。語句結構上(圖中粉色框),子曰2.0翻譯的版本也更簡潔、符合國人遣詞造句邏輯。在醫學論文中,對于大段翻譯,子曰2.0的結果更加自然通順、符合中文文法,也更利于被理解。比如翻譯論文《Prohormone cleavage prediction uncovers a non-incretin anti-obesity peptide》的討論部分。對于如下這句的翻譯,Claude 3.5 Sonnet只能做到直譯:使用基因敲除小鼠研究切割肽很困難,因為像BRP這樣的小肽片段的治療效果可能在缺乏親本蛋白(即BRINP2)的小鼠中無法體現。子曰2.0的翻譯更符合中文表達習慣,先說原因、再說結果,并讓翻譯結果更加流暢易懂:由于小肽片段(如 BRP)的治療效果可能不會在缺乏親本蛋白(即 BRINP2)的小鼠中體現出來,因此使用基因敲除小鼠來研究裂解肽頗具難度。

image

在更全面維度的評測中,子曰2.0的表現也值得關注。一方面,在國際權威翻譯測試集中,它較上一版本(子曰1.5)有全方位提升。WMT (Workshop on Machine Translation) 數據集是一系列用于機器翻譯的基準數據集。包含多種語言對的翻譯數據,這些數據通常來自于新聞文章、議會記錄、書籍以及其他公開可用的文本資源。這些數據集被廣泛用于訓練、評估和比較不同的機器翻譯系統。Flores-200 數據集是Meta構建的一個評估數據集,專門用于機器翻譯的高質量基準,涵蓋204種語言,并且允許評估模型在 40,000 種不同語言方向上的性能。

image

image

另一方面,通過嚴謹的人工采集流程,網易有道構建了涵蓋人文學科、商學、生活服務、醫療、科學等19大領域的數據樣本集,并制定了全面精細的MQM評測方案,從專業性、準確性、語言慣例和風格等維度打分。和國內外主流通用大模型的評估結果如下(英譯中):

image

所以,子曰2.0如何做到?沒有被取代,反而變更強

以子曰2.0為底座,網易有道翻譯完成了底層技術的迭代,在算法、數據、評估多個維度都帶來創新。在技術層面,子曰2.0在數據、算法以及評估上都進一步升級。首先,翻譯模型作為一個“文科生”,更高質量、更大規模、更豐富領域的訓練語料會直接影響模型的翻譯質量。子曰2.0吸納了由人工清洗的數千萬高質量翻譯數據,其中包含海量學術論文、國際新聞、權威詞典,可以進一步提高模型在專業維度的翻譯水平,比通用大模型更懂不同垂直領域。更進一步讓專業翻譯人員為海量提示詞進行精細化標注,為模型提供更專業權威的參考,以此增強模型領域適應性、優化上下文理解、提升翻譯質量。其次來看核心算法層面,也是本次迭代的重點。第一,它以子曰教育大模型為基礎進行二次訓練,進一步提升了模型在翻譯任務的表現,使其更具專業性和針對性。第二,通過蒸餾(也是DeepSeek物美價廉背后的關竅)和大模型融合,子曰2.0在吸收兩個大模型知識的同時,還實現了參數精簡,能兼顧性能和運行效率、推理效率。大模型融合通常是將一個或多個“教師”模型的知識傳遞給“學生”模型,使得學生模型能夠在學習新任務同時保留舊知識,可以很好避免模型的災難性遺忘問題。第三,引入Online DPO。DPO是一種基于人類偏好數據進行優化的方法,它避免了傳統強化學習中復雜的獎勵模型訓練和策略優化過程,將偏好學習轉化為一個簡單的二分類問題,直接優化模型的輸出相對概率。Online DPO更進一步拓展了DPO的能力,在多領域對齊中能快速調整模型以符合特定領域偏好,并允許模型在實時反饋中動態調整,確保在不同偏好數據上的持續優化。

image

最后在評估維度,子曰2.0采用了自研翻譯評估模型,其準確率超越當前最先進的評估指標COMET,為翻譯大模型性能評估提供可靠的量化數據。在人工標注與評估上,子曰2.0采用了人工標注的開發集和盲測集。這些數據集覆蓋多個領域,由專業人員精細化標注,并且在評估過程中嚴格分離開發集和盲測集,確保結果的客觀和準確。

現在,打開網易有道詞典/翻譯,通過AI翻譯即可體驗到子曰2.0的能力。

image

這意味著,大模型浪潮下,原本被認為會被AI取代的翻譯App,通過向大模型借力,正在變得更強。場景為王趨勢下,垂直賽道玩家“拿釘找錘”,能更快速帶來落地成果。實際上,在大模型落地趨勢中,場景玩家成為第一批將大模型深度結合并產生深遠影響的“探險家”。比如辦公領域的WPS、飛書;設計領域的Adobe、美圖秀秀等。它們快速完成AI化升級,并帶來實際營收上的增長。這共同驗證了一條規律,大模型浪潮下,相比于一個大模型應用承接所有用戶需求,更可能發生的情況或許是大模型重塑不同垂直應用。大模型是一個全新的工具,來撬動更大的需求和價值。就以翻譯領域為例,盡管通用模型可以解決一些普通翻譯問題,但是大模型幻覺依舊存在,漏譯、錯譯、多譯的情況時有發生,對翻譯準確性敏感的用戶(比如科研人員),對大模型的翻譯結果依舊無法完全信任。這不是危言聳聽,而是許多人真實踩過的坑。尤其是在大篇幅翻譯的場景下,人工核對稍有不慎就可能給自己的論文、研究造成負面影響。

image

由此,在垂直領域內,專業的事或許還得交給專業的人。大模型時代,我們或許仍舊需要一個專業的翻譯工具。它可以由AI加持,但是翻譯出的內容卻絲毫不帶AI味兒。大模型東風一吹,不只吹來大模型本身,更吹來一眾AI+應用。新的趨勢和浪潮,由他們共同組成。所以,大模型 or AI翻譯軟件,你現在更常用哪一個?歡迎評論留言分享感受~— 完 —

一鍵關注 ?? 點亮星標科技前沿進展每日見一鍵三連「點贊」「轉發」「小心心」歡迎在評論區留下你的想法!

原文轉載自:https://mp.weixin.qq.com/s/woIWSackUDCqiAUDwt6dFQ

上一篇:

用了3小時從0訓練小GPT!

下一篇:

15種必知RAG框架,最新綜述
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費