3.1 為什么是兩階段檢索?

? ? ? ?知識庫數據量大的場景下兩階段優勢非常明顯,如果只用一階段embedding檢索,隨著數據量增大會出現檢索退化的問題,如下圖中綠線所示,二階段rerank重排后能實現準確率穩定增長,即數據越多,效果越好。

  QAnything使用的檢索組件BCEmbedding(https://github.com/netease-youdao/BCEmbedding)有非常強悍的雙語和跨語種能力,能消除語義檢索里面的中英語言之間的差異,從而實現:

一階段檢索(embedding)

模型名稱RetrievalSTSPairClassificationClassificationRerankingClustering平均
bge-base-en-v1.537.1455.0675.4559.7343.0537.7447.20
bge-base-zh-v1.547.6063.7277.4063.3854.8532.5653.60
bge-large-en-v1.537.1554.0975.0059.2442.6837.3246.82
bge-large-zh-v1.547.5464.7379.1464.1955.8833.2654.21
jina-embeddings-v2-base-en31.5854.2874.8458.4241.1634.6744.29
m3e-base46.2963.9371.8464.0852.3837.8453.54
m3e-large34.8559.7467.6960.0748.9931.6246.78
bce-embedding-base_v157.6065.7374.9669.0057.2938.9559.43

二階段檢索(rerank)

模型名稱Reranking平均
bge-reranker-base57.7857.78
bge-reranker-large59.6959.69
bce-reranker-base_v160.0660.06

3.2 基于LlamaIndex的RAG評測(embedding and rerank)

NOTE:

3.3 LLM

? ? ? ? 開源版本QAnything的大模型基于通義千問,并在大量專業問答數據集上進行微調;在千問的基礎上大大加強了問答的能力。如果需要商用請遵循千問的license,具體請參閱:通義千問(https://github.com/QwenLM/Qwen)

四、開始

?? 在線試用QAnything:https://qanything.ai/

4.1 必要條件

必要項最低要求備注
NVIDIA GPU Memory>= 16GB推薦NVIDIA 3090
NVIDIA Driver 版本>= 525.105.17
CUDA 版本>= 12.0
docker compose 版本>=1.27.4docker compose 安裝教程

4.2 下載安裝

git clone https://github.com/netease-youdao/QAnything.git
cd QAnything
git lfs install
git clone https://www.modelscope.cn/netease-youdao/qanything_models.git

unzip qanything_models/models.zip # in root directory of the current project

step3:更改配置

vim front_end/.env  # change 10.55.163.92 to your host
vim docker-compose.yaml # change CUDA_VISIBLE_DEVICES to your gpu device id
docker-compose up -d

安裝成功后,即可在瀏覽器輸入以下地址進行體驗。

詳細API文檔請移步QAnything API 文檔(https://github.com/netease-youdao/QAnything/blob/master/docs/API.md)

參考文獻:

[1]?https://github.com/netease-youdao/QAnything/blob/master/README_zh.md

文章轉自微信公眾號@ArronAI

上一篇:

大模型AI Agent在企業應用中的6種基礎類型

下一篇:

LLM漫談(一)| LLM可以取代數據分析師嗎?
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費