美女网站视频在线,久草在线视频免费看,国产无套视频在线观看香蕉

為了從這種方法中獲得最佳效果，我們需要訪問大量具有匹配源文本和目標(biāo)文本的高質(zhì)量訓(xùn)練數(shù)據(jù)。如果您已經(jīng)建立了相當(dāng)大的翻譯記憶庫，那么它很可能可以用于此目的。LanguageWire AI 團(tuán)隊(duì)一直在努力確定 LoRA 調(diào)整的理想翻譯記憶庫大小。

現(xiàn)在讓我們討論第二種方法，即上下文學(xué)習(xí)或小樣本學(xué)習(xí)。

情境學(xué)習(xí)是一種讓模型根據(jù)專門設(shè)計(jì)的提示引入的少量示例進(jìn)行動(dòng)態(tài)學(xué)習(xí)的方法。這種方法也稱為小樣本學(xué)習(xí)。

在機(jī)器翻譯的背景下，小樣本學(xué)習(xí)的工作原理如下：

系統(tǒng)會(huì)分析傳入的源內(nèi)容。通常，源內(nèi)容由一個(gè)或多個(gè)句子或片段組成。
系統(tǒng)嘗試找到類似的源內(nèi)容片段及其各自的翻譯的例子。
系統(tǒng)創(chuàng)建一個(gè)提示，其中包括要翻譯的源內(nèi)容和以前翻譯的示例。
LLM 通過實(shí)例不斷學(xué)習(xí)，創(chuàng)建高質(zhì)量的原文翻譯。

少樣本學(xué)習(xí)對(duì)機(jī)器翻譯的流暢性、語調(diào)和術(shù)語合規(guī)性有積極影響。它需要使用更少的示例，最多三到五個(gè)。事實(shí)上，樣本量越大效率越低，因此將所有翻譯記憶都包含在一個(gè)提示中對(duì)它沒有好處。實(shí)驗(yàn)表明，LLM 不能很好地處理大型提示上下文，結(jié)果的質(zhì)量甚至可能會(huì)下降！

通過結(jié)合 LoRA 和小樣本學(xué)習(xí)的優(yōu)勢，我們可以在大型語言模型中實(shí)現(xiàn)強(qiáng)大的優(yōu)化，最終實(shí)現(xiàn)超個(gè)性化、高質(zhì)量的機(jī)器翻譯。

您的語言數(shù)據(jù)是關(guān)鍵！

如果沒有大量高質(zhì)量、最新的各種語言對(duì)雙語文本語料庫，這些技術(shù)都無法發(fā)揮作用。您的翻譯記憶庫是此數(shù)據(jù)集的理想來源。
然而，在使用它之前，您必須考慮幾個(gè)重要方面：

質(zhì)量。所有數(shù)據(jù)都應(yīng)是高質(zhì)量的，最好由合格的人工翻譯人員翻譯，并在四人工作流程中驗(yàn)證，即由兩個(gè)人批準(zhǔn)。
噪音。翻譯記憶庫中的數(shù)據(jù)可能并非全部相關(guān)。部分?jǐn)?shù)據(jù)可能較舊、不相關(guān)或涉及已丟棄的產(chǎn)品。定期清理翻譯記憶庫以刪除不相關(guān)的材料非常重要。
大小。您需要一定的數(shù)據(jù)量來確保微調(diào)效果良好。如果質(zhì)量保持不變，數(shù)據(jù)量越大越好。

如果您使用 LanguageWire 平臺(tái)，自動(dòng)化翻譯記憶庫管理模塊將為您處理這些方面，無需任何手動(dòng)操作。

如果您有現(xiàn)有的外部翻譯記憶庫，并希望將其用于我們的平臺(tái)和機(jī)器翻譯服務(wù)，我們的工程師可以幫您實(shí)現(xiàn)這一目標(biāo)。LanguageWire 工程師創(chuàng)建了導(dǎo)入 API、清理腳本和語言質(zhì)量評(píng)估工具，以幫助您充分利用最寶貴的語言資產(chǎn)。

LanguageWire 解決方案

那么，我們?nèi)绾螌⑺羞@些整合到一個(gè)典型的翻譯項(xiàng)目中呢？讓我們來看一個(gè)例子。

LanguageWire 提供的解決方案與我們的技術(shù)生態(tài)系統(tǒng)完全集成。下圖 1 中高級(jí)步驟對(duì)此進(jìn)行了演示。

在此示例中，我們采用了一個(gè)簡單的工作流程，客戶想要翻譯 PDF 或辦公文件。用戶只需使用 LanguageWire 項(xiàng)目門戶上傳內(nèi)容文件即可。從此，一切都自動(dòng)安排好了：

對(duì)傳入的數(shù)據(jù)進(jìn)行分析并將其轉(zhuǎn)換為 XLIFF 文件。
該系統(tǒng)根據(jù)翻譯記憶庫匹配和機(jī)器翻譯創(chuàng)建預(yù)翻譯。
我們的人工專家社區(qū)提供后期編輯和校對(duì)服務(wù)。
下一步，翻譯后的 XLIFF 將被重新組合成輸出文件，并保留布局。
最后，客戶可以從門戶網(wǎng)站下載翻譯后的文件。

圖 1：現(xiàn)有 LanguageWire 平臺(tái)結(jié)果中的簡單翻譯項(xiàng)目

在示例 2 中，我們重點(diǎn)關(guān)注使用基于 LLM 技術(shù)的機(jī)器翻譯的預(yù)翻譯步驟。如下圖 2 所示，客戶的語言數(shù)據(jù)起著核心作用。

對(duì)于每段文本，LanguageWire 系統(tǒng)都會(huì)在翻譯記憶庫中找到“K 個(gè)最近鄰” 。這些雙語結(jié)果被用作特殊小樣本學(xué)習(xí)提示的基礎(chǔ)，并傳遞給 LLM 的機(jī)器翻譯 API。
在模型層，我們加載了一個(gè) LoRA 模塊，該模塊可根據(jù)客戶的語調(diào)和詞匯量定制 LLM。同樣，這是基于從翻譯記憶庫編譯的數(shù)據(jù)集。我們將該數(shù)據(jù)集應(yīng)用于使用 LoRA 的 PEFT 調(diào)整，以創(chuàng)建加載到模型上下文中的新模型權(quán)重。這種調(diào)整可以定期進(jìn)行，例如每兩周一次，以反映 TM 中的新更新和內(nèi)容。

圖 2：使用大型語言模型、混合 LoRA 定制和優(yōu)化的上下文學(xué)習(xí)提示的翻譯示例。

當(dāng)我們專門設(shè)計(jì)的提示由 LLM 處理時(shí)，LoRA 模塊中的自定義權(quán)重將有助于獲得高質(zhì)量的機(jī)器翻譯輸出。完成后，此輸出將自動(dòng)進(jìn)入流程的下一步。通常，這將是一項(xiàng)后期編輯任務(wù)，由人類專家參與，以實(shí)現(xiàn)最高的最終質(zhì)量。

這對(duì)我們的客戶意味著什么？

簡而言之：我們的客戶可以期待更好的機(jī)器翻譯。機(jī)器翻譯可以自動(dòng)適應(yīng)不同的環(huán)境，例如不同的垂直行業(yè)，并與該垂直行業(yè)的預(yù)期語氣和用詞選擇保持一致。

這不僅可以降低譯后編輯的成本，還可以提高翻譯的交付速度。它還將為直接使用機(jī)器翻譯輸出開辟更廣泛的空間，而無需人工專家參與。

LanguageWire 還對(duì) LLM 做了什么？

正如我們之前提到的，大型語言模型非常靈活。LanguageWire AI 團(tuán)隊(duì)正在研究許多其他可以從 LLM 技術(shù)中受益的領(lǐng)域。

我們目前正在研究：

自動(dòng)語言質(zhì)量評(píng)估。LLM 可以檢查人類專家的翻譯或另一個(gè)模型的機(jī)器翻譯輸出并給出質(zhì)量評(píng)分。這可以大大降低校對(duì)成本。底層的機(jī)器翻譯質(zhì)量評(píng)估 (MTQE) 技術(shù)也可以應(yīng)用于其他用例。

內(nèi)容創(chuàng)作助手。通過結(jié)合使用 PEFT 與 LoRA 和少樣本學(xué)習(xí)，我們可以個(gè)性化 LLM 模型，使其專注于內(nèi)容創(chuàng)作任務(wù)。客戶可以提供關(guān)鍵字和元數(shù)據(jù)，讓模型生成使用業(yè)務(wù)定制的語氣和詞匯選擇的文本。