久久99中文字幕久久,国产精品九九免费视频,免费一看一级毛片全播放

RAG通過引入非參數記憶訪問來增強LLM的參數記憶能力

RAG評估：超越表面實現

為了充分發揮RAG的潛力，使LLM的響應能夠切實地建立在可靠數據基礎之上，我們需要超越簡單的索引、檢索、增強和生成的實現方式。要實現這一目標，首先需要建立有效的性能度量標準。RAG評估為建立系統性能基準提供了重要依據，進而為后續的優化提供了方向。

構建RAG概念驗證（PoC）管道的復雜度相對較低。借助LangChain和LlamaIndex等工具，這一過程已經變得相對簡單。通過簡短的訓練和有限樣本的驗證即可實現初步功能。但是為了提高系統的魯棒性，在真實反映生產環境用例的數據集上進行全面測試至關重要。值得注意的是RAG管道本身也可能產生幻覺。從宏觀角度來看，RAG系統存在三個主要的失效點：

檢索器未能檢索到完整或相關的上下文
LLM雖然接收到上下文，但未能有效利用
LLM沒有針對查詢給出回答，而是從上下文中提取了不相關信息

本文將重點討論幾個專注于評估第一個失效點的指標 —— “檢索器未能檢索到完整或相關上下文”。換言之這些指標旨在評估檢索器的質量。

檢索指標概述

用于評估RAG系統的指標可以大致分為三類：

信息檢索任務中使用的檢索指標（本文的討論重點）
專注于評估生成內容流暢性、相關性和語義相似性的指標，如BLEU、ROUGE、METEOR等
隨RAG應用發展而演變的特定指標

RAG的檢索組件可以獨立評估確定檢索器滿足用戶查詢的能力。我們將詳細介紹七個廣泛應用于RAG、搜索引擎、推薦系統等信息檢索任務的重要指標。

注：在RAG中，知識庫是一個核心概念。它是一個非參數記憶存儲，用于存儲RAG系統將處理的所有文檔。

核心檢索指標詳解

1. 準確率（Accuracy）

準確率在信息檢索領域通常定義為正確預測（包括真陽性和真陰性）占總樣本的比例。這一概念源自監督學習中的分類問題，但在檢索和RAG語境下有其特定解釋：準確率檢索到的相關文檔數未檢索到的不相關文檔數知識庫中總文檔數

盡管準確率是一個直觀的指標，但它并不是評估檢索系統的最佳選擇。在大型知識庫中，對于任何給定查詢大多數文檔通常都是不相關的，這可能導致準確率呈現誤導性的高值。此外該指標并不考慮檢索結果的排序質量。

2. 精確率（Precision）

精確率聚焦于檢索結果的質量，衡量檢索到的文檔中與用戶查詢相關的比例。它回答了這樣一個問題：在所有被檢索到的文檔中，有多少是真正相關的？

精確率檢索到的相關文檔數檢索到的總文檔數

高精確率表明檢索器能夠有效地識別和提取相關文檔。

注：精確率在分類任務中也是一個常用指標，定義為模型預測為正例的樣本中實際為正例的比例，即真陽性 /（真陽性 + 假陽性）。

Precision@k

Precision@k是精確率的一個變體，它僅考慮檢索結果中排名前k的文檔。這一指標在RAG系統中尤為重要，因為通常只有排名靠前的結果會被用于增強。例如如果RAG系統僅使用前5個文檔進行增強，那么Precision@5就成為一個關鍵指標。

例如，Precision@5為0.8（或4/5）意味著在前5個檢索結果中，有4個是相關的。

Precision@k在比較不同系統的檢索性能時特別有用，尤其是當系統間檢索的總文檔數可能不同時。但是它的局限性在于k值的選擇可能帶有主觀性，且該指標不考慮k之外的結果。

3. 召回率（Recall）

召回率評估檢索系統的覆蓋范圍，衡量從知識庫中所有相關文檔中成功檢索到的比例。它回答了這樣一個問題：在所有相關文檔中，實際檢索到了多少？

與精確率不同召回率的計算需要預先知道知識庫中相關文檔的總數。在大規模系統中這可能是一個挑戰。召回率同樣不考慮檢索文檔的排序。理論上檢索所有文檔可以獲得完美的召回率，但這顯然不符合實際需求。

Recall@k

類似于Precision@k，Recall@k考慮了前k個檢索結果中的相關文檔比例：

Recall@k = 前k個結果中相關文檔的數量 / 知識庫中相關文檔總數

召回率和精確率的不同場景

4. F1分數

F1分數是精確率和召回率的調和平均值，提供了一個平衡檢索器質量和覆蓋范圍的單一指標。

F1分數的特點是當精確率或召回率任一指標較低時，分數會受到顯著影響。只有當兩個指標都較高時，F1分數才會較高。這種特性使得F1分數不會被單一指標的高值所誤導。

分數平衡了精確率和召回率。中等水平的精確率和召回率可能獲得比一個指標很高而另一個很低時更高的F1分數。

F1分數提供了一個綜合度量，便于比較不同系統的整體性能。但是它不考慮檢索結果的排序，且默認給予精確率和召回率相同的權重，這在某些應用場景中可能不夠理想。

重要說明：

文檔相關性判定：大多數討論的指標都涉及”相關”文檔的概念。確定文檔相關性的最直接方法是通過人工評估。通常由領域專家審查文檔并判定其相關性。為減少個人偏見，這種評估往往由專家小組而非個人完成。但是從規模和成本的角度考慮，人工評估存在局限性。因此任何能可靠建立相關性的數據都變得極為寶貴。在這一背景下，基準事實（Ground Truth）指的是已知真實或正確的信息。在RAG和生成式AI領域，基準事實通常表現為一組預先準備的提示-上下文-響應或問題-上下文-響應示例，類似于監督學習中的標記數據。為知識庫創建的基準事實數據可用于RAG系統的評估和優化。