
免費YAML格式校驗API的使用指南與集成教程
為了從這種方法中獲得最佳效果,我們需要訪問大量具有匹配源文本和目標文本的高質量訓練數(shù)據(jù)。如果您已經(jīng)建立了相當大的翻譯記憶庫,那么它很可能可以用于此目的。LanguageWire AI 團隊一直在努力確定 LoRA 調整的理想翻譯記憶庫大小。
現(xiàn)在讓我們討論第二種方法,即上下文學習或小樣本學習。
情境學習是一種讓模型根據(jù)專門設計的提示引入的少量示例進行動態(tài)學習的方法。這種方法也稱為小樣本學習。
在機器翻譯的背景下,小樣本學習的工作原理如下:
少樣本學習對機器翻譯的流暢性、語調和術語合規(guī)性有積極影響。它需要使用更少的示例,最多三到五個。事實上,樣本量越大效率越低,因此將所有翻譯記憶都包含在一個提示中對它沒有好處。實驗表明,LLM 不能很好地處理大型提示上下文,結果的質量甚至可能會下降!
通過結合 LoRA 和小樣本學習的優(yōu)勢,我們可以在大型語言模型中實現(xiàn)強大的優(yōu)化,最終實現(xiàn)超個性化、高質量的機器翻譯。
如果沒有大量高質量、最新的各種語言對雙語文本語料庫,這些技術都無法發(fā)揮作用。您的翻譯記憶庫是此數(shù)據(jù)集的理想來源。
然而,在使用它之前,您必須考慮幾個重要方面:
如果您使用 LanguageWire 平臺,自動化翻譯記憶庫管理模塊將為您處理這些方面,無需任何手動操作。
如果您有現(xiàn)有的外部翻譯記憶庫,并希望將其用于我們的平臺和機器翻譯服務,我們的工程師可以幫您實現(xiàn)這一目標。LanguageWire 工程師創(chuàng)建了導入 API、清理腳本和語言質量評估工具,以幫助您充分利用最寶貴的語言資產。
那么,我們如何將所有這些整合到一個典型的翻譯項目中呢?讓我們來看一個例子。
LanguageWire 提供的解決方案與我們的技術生態(tài)系統(tǒng)完全集成。下圖 1 中高級步驟對此進行了演示。
在此示例中,我們采用了一個簡單的工作流程,客戶想要翻譯 PDF 或辦公文件。用戶只需使用 LanguageWire 項目門戶上傳內容文件即可。從此,一切都自動安排好了:
圖 1:現(xiàn)有 LanguageWire 平臺結果中的簡單翻譯項目
在示例 2 中,我們重點關注使用基于 LLM 技術的機器翻譯的預翻譯步驟。如下圖 2 所示,客戶的語言數(shù)據(jù)起著核心作用。
圖 2:使用大型語言模型、混合 LoRA 定制和優(yōu)化的上下文學習提示的翻譯示例。
當我們專門設計的提示由 LLM 處理時,LoRA 模塊中的自定義權重將有助于獲得高質量的機器翻譯 輸出。完成后,此輸出將自動進入流程的下一步。通常,這將是一項后期編輯任務,由人類專家參與,以實現(xiàn)最高的最終質量。
簡而言之:我們的客戶可以期待更好的機器翻譯。機器翻譯可以自動適應不同的環(huán)境,例如不同的垂直行業(yè),并與該垂直行業(yè)的預期語氣和用詞選擇保持一致。
這不僅可以降低譯后編輯的成本,還可以提高翻譯的交付速度。它還將為直接使用機器翻譯輸出開辟更廣泛的空間,而無需人工專家參與。
正如我們之前提到的,大型語言模型非常靈活。LanguageWire AI 團隊正在研究許多其他可以從 LLM 技術中受益的領域。
我們目前正在研究:
自動語言質量評估。LLM 可以檢查人類專家的翻譯或另一個模型的機器翻譯輸出并給出質量評分。這可以大大降低校對成本。底層的機器翻譯質量評估 (MTQE) 技術也可以應用于其他用例。
內容創(chuàng)作助手。通過結合使用 PEFT 與 LoRA 和少樣本學習,我們可以個性化 LLM 模型,使其專注于內容創(chuàng)作任務。客戶可以提供關鍵字和元數(shù)據(jù),讓模型生成使用業(yè)務定制的語氣和詞匯選擇的文本。