亚洲一区亚洲二区,欧美国产精品va在线观看,国产亚洲精品久久77777

2023年是迄今為止NLP發展最快的一年。這年，ChatGPT與許多其他大型語言模型層出不窮，包括開源的和閉源的。

? ? ? ?與此同時，各個行業對個性化和全面運營的RAG的需求也在飆升，每個客戶都渴望擁有自己的量身定制的解決方案。

本文將介紹9中提高RAG技術的方法：

1 — ??? 提高索引數據的質量

? ? ? ?由于我們索引的數據決定了RAG答案的質量，因此在建立索引之前，需要對數據做很多預處理操作來保證數據質量非常關鍵。

下面是數據清洗的一些Tips：

清除特殊字符、奇怪的編碼、不必要的HTML標記來消除文本噪聲（比如使用regex）；
找出與主要主題無關的文檔異常值并將其刪除（可以通過實現一些主題提取、降維技術和數據可視化來實現這一點）；
使用相似性度量刪除冗余文檔

2 — ??? 優化索引結構

? ? ? ?在構建RAG時，塊大小是一個關鍵參數，它決定了我們從矢量存儲中檢索的文檔的長度。小的塊大小可能會導致文檔錯過一些關鍵信息，而大的塊大小則會引入不相關的噪聲。

如何有效平衡塊大??？

可以通過在測試集上運行評估和計算度量來找到最佳塊大小。LlamaIndex有一些有趣的功能可以做到這一點，可以參考[2]：

3 — ??? 添加元數據

將元數據與索引向量結合有助于提高搜索相關性。以下是元數據有用的一些場景：

如果搜索項目并且以最近為標準，則可以對日期元數據進行排序；
如果你搜索科學論文，并且事先知道你要尋找的信息總是位于特定的部分，比如實驗部分，你可以將文章部分添加為每個區塊的元數據，并對其進行過濾，以僅匹配實驗。

4 — ?? 將輸入查詢與文檔對齊

? ? ? ?LLM和RAG功能強大，因為它們提供了用自然語言表達查詢的靈活性，從而降低了數據探索和更復雜任務的進入門檻。

然而，有時，用戶以幾個單詞或短句的形式制定的輸入查詢與索引文檔之間會出現錯位，索引文檔通常以長句甚至段落的形式編寫。

讓我們通過一個例子來理解這一點。

以下是一段關于發動機的內容（來源：ChatGPT）

The motor engine stands as an engineering marvel, propelling countless vehicles and machinery with its intricate design and mechanical prowess. At its core, a motor engine converts fuel into mechanical energy through a precisely orchestrated series

of combustion events. This process involves the synchronized movement of pistons, a crankshaft, and a complex network of valves, all carefully calibrated to optimize efficiency and power output. Modern motor engines come in various types, such as internal combustion engines and electric motors, each with its

unique set of advantages and applications. The relentless pursuit of innovation continues to enhance motor engine technology, pushing the boundaries of performance, fuel efficiency, and environmental sustainability. Whether powering a car on the open road or driving industrial machinery, the motor engine

remains a driving force behind the dynamic movement of our modern world.

如果你提出一個簡單的查詢，比如“Can you tell how the motor engine works in a nutshell?”并計算其與段落的余弦相似性，你就會得到0.72的值。

還不錯，但我們能做得更好嗎？

要做到這一點，我們將不再通過嵌入來索引段落，而是通過嵌入它所回答的問題來索引段落。

讓我們來考慮這段話所回答的三個問題。

What is the fundamental function of a motor engine?”,
How does a motor engine convert fuel into mechanical energy?”,
What are some key components involved in the operation of a motor engine, and how do they contribute to its efficiency?”

如果我們計算它們與輸入查詢的相似性，我們分別獲得這些值。

0.864

0.841

0.845

這些值越高，表示輸入查詢與問題匹配得越精確。

用他們回答的問題對塊進行索引會稍微改變問題，但有助于解決對齊問題并提高搜索相關性：我們不優化與文檔的相似性，而是優化與潛在問題的相似性。