
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
△評(píng)測結(jié)果展示,罰分越低代表模型越好
簡單看個(gè)實(shí)測例子。我命由我不由天,英文怎么說?子曰2.0:I’m the master of my destiny。Claude 3.5 Sonnet:My fate is in my own hands, not in heaven’s control.(Alternative translations could be: “I control my destiny, not the heavens” or “My destiny is determined by me, not by fate”)
對(duì)比一下,Claude哪怕給出了三個(gè)回答,也都沒有子曰的更自然簡潔有力。翻譯專業(yè)領(lǐng)域時(shí)子曰2.0也更準(zhǔn)確。對(duì)照最新版本的Claude-3.7,子曰2.0準(zhǔn)確譯出了醫(yī)學(xué)詞匯“透明細(xì)胞腎細(xì)胞癌”。
但是Claude-3.7卻翻譯成了“清細(xì)胞腎細(xì)胞癌”。
沒想到,在翻譯這類專業(yè)領(lǐng)域上,通用大模型的表現(xiàn)還是有待提高啊。(被AI取代的焦慮可以暫時(shí)緩解緩解了)所以,為啥垂直領(lǐng)域做個(gè)小模型,就能輕松打敗規(guī)模大10倍+的通用大模型呢?來看子曰2.0的進(jìn)一步表現(xiàn)。
子曰2.0在更為專業(yè)的翻譯場景下,表現(xiàn)更為突出。翻譯的基本要求是“信達(dá)雅”,即忠實(shí)原文、通順明白、選詞得體。越是專業(yè)的領(lǐng)域,翻譯難度越大。因此,我們?cè)O(shè)置了風(fēng)格迥異的幾個(gè)方面來測試專業(yè)翻譯模型和通用大模型的表現(xiàn):論文翻譯、財(cái)報(bào)翻譯、詩句翻譯。主要考量的維度包括:準(zhǔn)確度、流暢度、不必要增減、優(yōu)美/地道。
首先在語料庫的豐富度上,子曰2.0明顯更勝一籌。畢竟丟給它“Strawberry Shake-Shake”,它都知道譯為:草莓搖搖奶昔。
在古詩翻譯上,子曰2.0給出的譯文更加傳神、保留意境,同時(shí)還兼顧了押韻,進(jìn)一步古詩詞的韻味傳遞到英文之中,還有點(diǎn)翻譯家許淵沖的味道在了。
這種時(shí)候,Claude 3.5 Sonnet相形見絀,只是完成了意思上的翻譯,卻沒能做到傳神。
學(xué)術(shù)論文翻譯場景中,對(duì)準(zhǔn)確度要求更高,而且不同領(lǐng)域都有各自的專業(yè)詞匯,這要求AI翻譯不僅要掌握海量專有名詞,還能結(jié)合上下文分析出對(duì)應(yīng)語境,才能給出正確的譯文。以翻譯CVPR2025這篇滿分論文為例,給它的翻譯任務(wù)是:翻譯這張圖片的圖注。(將圖注文字復(fù)制后輸入給模型,不涉及多模態(tài)輸入)
可以看到原文圖注中MSE、MMD都只提供了縮寫。子曰2.0準(zhǔn)確將英文縮寫翻譯為了計(jì)算機(jī)領(lǐng)域的專有詞匯,給出了更完整且正確的翻譯(下文標(biāo)粗部分)。子曰大模型2.0:圖 1.不同數(shù)據(jù)集蒸餾范式的比較。(a)均方誤差(MSE)方法在歐幾里得空間(記為 ZR)中比較點(diǎn)對(duì)點(diǎn)特征,而最大均值差異(MMD)則在希爾伯特空間(ZH)中評(píng)估矩差異。
對(duì)比Claude 3.5 Sonnet,并沒有做到這一點(diǎn):圖1. 不同數(shù)據(jù)集蒸餾范式的比較。(a)?MSE方法在歐幾里得空間(記為ZR)中比較逐點(diǎn)特征,而MMD在希爾伯特空間(ZH)中評(píng)估矩分布差異。
而對(duì)于自己不了解的專有名詞,子曰2.0會(huì)選擇不翻譯而不是錯(cuò)譯。相對(duì)于通用大模型,“幻覺”問題進(jìn)一步減少。比如翻譯蜜雪冰城招股書的內(nèi)容時(shí),原文“according to CIC”部分里的CIC(圖中紅色框),由于提供的文本片段不完整,子曰2.0根據(jù)上下文無法得知它是什么名詞的縮寫,因此選擇不翻譯。
子曰2.0結(jié)果:
Claude 3.5 Sonnet將CIC翻譯成了中投顧問,參考招股書中文版原文,CIC應(yīng)該指灼識(shí)咨詢,翻譯錯(cuò)誤。
此外在譯文用詞方面(圖中綠色框),子曰2.0結(jié)合語境將expansive翻譯為“龐大的”,用來修飾供應(yīng)鏈更貼切;Claude則直譯為了廣泛的,在中文語法上有語病。語句結(jié)構(gòu)上(圖中粉色框),子曰2.0翻譯的版本也更簡潔、符合國人遣詞造句邏輯。在醫(yī)學(xué)論文中,對(duì)于大段翻譯,子曰2.0的結(jié)果更加自然通順、符合中文文法,也更利于被理解。比如翻譯論文《Prohormone cleavage prediction uncovers a non-incretin anti-obesity peptide》的討論部分。對(duì)于如下這句的翻譯,Claude 3.5 Sonnet只能做到直譯:使用基因敲除小鼠研究切割肽很困難,因?yàn)橄馚RP這樣的小肽片段的治療效果可能在缺乏親本蛋白(即BRINP2)的小鼠中無法體現(xiàn)。子曰2.0的翻譯更符合中文表達(dá)習(xí)慣,先說原因、再說結(jié)果,并讓翻譯結(jié)果更加流暢易懂:由于小肽片段(如 BRP)的治療效果可能不會(huì)在缺乏親本蛋白(即 BRINP2)的小鼠中體現(xiàn)出來,因此使用基因敲除小鼠來研究裂解肽頗具難度。
在更全面維度的評(píng)測中,子曰2.0的表現(xiàn)也值得關(guān)注。一方面,在國際權(quán)威翻譯測試集中,它較上一版本(子曰1.5)有全方位提升。WMT (Workshop on Machine Translation) 數(shù)據(jù)集是一系列用于機(jī)器翻譯的基準(zhǔn)數(shù)據(jù)集。包含多種語言對(duì)的翻譯數(shù)據(jù),這些數(shù)據(jù)通常來自于新聞文章、議會(huì)記錄、書籍以及其他公開可用的文本資源。這些數(shù)據(jù)集被廣泛用于訓(xùn)練、評(píng)估和比較不同的機(jī)器翻譯系統(tǒng)。Flores-200 數(shù)據(jù)集是Meta構(gòu)建的一個(gè)評(píng)估數(shù)據(jù)集,專門用于機(jī)器翻譯的高質(zhì)量基準(zhǔn),涵蓋204種語言,并且允許評(píng)估模型在 40,000 種不同語言方向上的性能。
另一方面,通過嚴(yán)謹(jǐn)?shù)娜斯げ杉鞒蹋W(wǎng)易有道構(gòu)建了涵蓋人文學(xué)科、商學(xué)、生活服務(wù)、醫(yī)療、科學(xué)等19大領(lǐng)域的數(shù)據(jù)樣本集,并制定了全面精細(xì)的MQM評(píng)測方案,從專業(yè)性、準(zhǔn)確性、語言慣例和風(fēng)格等維度打分。和國內(nèi)外主流通用大模型的評(píng)估結(jié)果如下(英譯中):
所以,子曰2.0如何做到?沒有被取代,反而變更強(qiáng)
以子曰2.0為底座,網(wǎng)易有道翻譯完成了底層技術(shù)的迭代,在算法、數(shù)據(jù)、評(píng)估多個(gè)維度都帶來創(chuàng)新。在技術(shù)層面,子曰2.0在數(shù)據(jù)、算法以及評(píng)估上都進(jìn)一步升級(jí)。首先,翻譯模型作為一個(gè)“文科生”,更高質(zhì)量、更大規(guī)模、更豐富領(lǐng)域的訓(xùn)練語料會(huì)直接影響模型的翻譯質(zhì)量。子曰2.0吸納了由人工清洗的數(shù)千萬高質(zhì)量翻譯數(shù)據(jù),其中包含海量學(xué)術(shù)論文、國際新聞、權(quán)威詞典,可以進(jìn)一步提高模型在專業(yè)維度的翻譯水平,比通用大模型更懂不同垂直領(lǐng)域。更進(jìn)一步讓專業(yè)翻譯人員為海量提示詞進(jìn)行精細(xì)化標(biāo)注,為模型提供更專業(yè)權(quán)威的參考,以此增強(qiáng)模型領(lǐng)域適應(yīng)性、優(yōu)化上下文理解、提升翻譯質(zhì)量。其次來看核心算法層面,也是本次迭代的重點(diǎn)。第一,它以子曰教育大模型為基礎(chǔ)進(jìn)行二次訓(xùn)練,進(jìn)一步提升了模型在翻譯任務(wù)的表現(xiàn),使其更具專業(yè)性和針對(duì)性。第二,通過蒸餾(也是DeepSeek物美價(jià)廉背后的關(guān)竅)和大模型融合,子曰2.0在吸收兩個(gè)大模型知識(shí)的同時(shí),還實(shí)現(xiàn)了參數(shù)精簡,能兼顧性能和運(yùn)行效率、推理效率。大模型融合通常是將一個(gè)或多個(gè)“教師”模型的知識(shí)傳遞給“學(xué)生”模型,使得學(xué)生模型能夠在學(xué)習(xí)新任務(wù)同時(shí)保留舊知識(shí),可以很好避免模型的災(zāi)難性遺忘問題。第三,引入Online DPO。DPO是一種基于人類偏好數(shù)據(jù)進(jìn)行優(yōu)化的方法,它避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)中復(fù)雜的獎(jiǎng)勵(lì)模型訓(xùn)練和策略優(yōu)化過程,將偏好學(xué)習(xí)轉(zhuǎn)化為一個(gè)簡單的二分類問題,直接優(yōu)化模型的輸出相對(duì)概率。Online DPO更進(jìn)一步拓展了DPO的能力,在多領(lǐng)域?qū)R中能快速調(diào)整模型以符合特定領(lǐng)域偏好,并允許模型在實(shí)時(shí)反饋中動(dòng)態(tài)調(diào)整,確保在不同偏好數(shù)據(jù)上的持續(xù)優(yōu)化。
最后在評(píng)估維度,子曰2.0采用了自研翻譯評(píng)估模型,其準(zhǔn)確率超越當(dāng)前最先進(jìn)的評(píng)估指標(biāo)COMET,為翻譯大模型性能評(píng)估提供可靠的量化數(shù)據(jù)。在人工標(biāo)注與評(píng)估上,子曰2.0采用了人工標(biāo)注的開發(fā)集和盲測集。這些數(shù)據(jù)集覆蓋多個(gè)領(lǐng)域,由專業(yè)人員精細(xì)化標(biāo)注,并且在評(píng)估過程中嚴(yán)格分離開發(fā)集和盲測集,確保結(jié)果的客觀和準(zhǔn)確。
現(xiàn)在,打開網(wǎng)易有道詞典/翻譯,通過AI翻譯即可體驗(yàn)到子曰2.0的能力。
這意味著,大模型浪潮下,原本被認(rèn)為會(huì)被AI取代的翻譯App,通過向大模型借力,正在變得更強(qiáng)。場景為王趨勢(shì)下,垂直賽道玩家“拿釘找錘”,能更快速帶來落地成果。實(shí)際上,在大模型落地趨勢(shì)中,場景玩家成為第一批將大模型深度結(jié)合并產(chǎn)生深遠(yuǎn)影響的“探險(xiǎn)家”。比如辦公領(lǐng)域的WPS、飛書;設(shè)計(jì)領(lǐng)域的Adobe、美圖秀秀等。它們快速完成AI化升級(jí),并帶來實(shí)際營收上的增長。這共同驗(yàn)證了一條規(guī)律,大模型浪潮下,相比于一個(gè)大模型應(yīng)用承接所有用戶需求,更可能發(fā)生的情況或許是大模型重塑不同垂直應(yīng)用。大模型是一個(gè)全新的工具,來撬動(dòng)更大的需求和價(jià)值。就以翻譯領(lǐng)域?yàn)槔M管通用模型可以解決一些普通翻譯問題,但是大模型幻覺依舊存在,漏譯、錯(cuò)譯、多譯的情況時(shí)有發(fā)生,對(duì)翻譯準(zhǔn)確性敏感的用戶(比如科研人員),對(duì)大模型的翻譯結(jié)果依舊無法完全信任。這不是危言聳聽,而是許多人真實(shí)踩過的坑。尤其是在大篇幅翻譯的場景下,人工核對(duì)稍有不慎就可能給自己的論文、研究造成負(fù)面影響。
由此,在垂直領(lǐng)域內(nèi),專業(yè)的事或許還得交給專業(yè)的人。大模型時(shí)代,我們或許仍舊需要一個(gè)專業(yè)的翻譯工具。它可以由AI加持,但是翻譯出的內(nèi)容卻絲毫不帶AI味兒。大模型東風(fēng)一吹,不只吹來大模型本身,更吹來一眾AI+應(yīng)用。新的趨勢(shì)和浪潮,由他們共同組成。所以,大模型 or AI翻譯軟件,你現(xiàn)在更常用哪一個(gè)?歡迎評(píng)論留言分享感受~— 完 —
一鍵關(guān)注 ?? 點(diǎn)亮星標(biāo)科技前沿進(jìn)展每日見一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」歡迎在評(píng)論區(qū)留下你的想法!
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/woIWSackUDCqiAUDwt6dFQ
一文講透 AI Agent 與 AI Workflow 的區(qū)別和深度解析:從自動(dòng)化到智能化的演進(jìn)
實(shí)測告訴你:DeepSeek-R1 7B、32B、671B差距有多大
6個(gè)大模型的核心技術(shù)介紹
太強(qiáng)了!各個(gè)行業(yè)的AI大模型!金融、教育、醫(yī)療、法律
在Sealos 平臺(tái)的幫助下一個(gè)人維護(hù)著 6000 個(gè)數(shù)據(jù)庫
通義萬相,開源!
使用Cursor 和 Devbox 一鍵搞定開發(fā)環(huán)境
DeepSeekMath:挑戰(zhàn)大語言模型的數(shù)學(xué)推理極限
新型脈沖神經(jīng)網(wǎng)絡(luò)+大模型研究進(jìn)展!
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)