? ? ??LlamaIndex具有SemanticSplitterNodeParser類,該類允許使用塊之間的上下文關系將文檔拆分為塊,使用嵌入相似性自適應地選擇句子之間的斷點。

SemanticSplitterNodeParser超參數介紹:

第5級:代理分塊

       這種分塊策略探索了使用LLM來根據上下文確定塊中應包含多少文本以及哪些文本的可能性。

? ? ? ?為了生成初始塊,參考論文《Dense X Retrieval: What Retrieval Granularity Should We Use?》,從原始文本中提取獨立語句。Langchain提供了propositional-retrieval模板(https://templates.langchain.com/new?integration_name=propositional-retrieval)來實現這一點。

       在生成命題之后,這些命題輸入到基于LLM的代理。該代理確定命題是否應包括在現有塊中,或者是否應創建新塊。

參考文獻:

[1] https://medium.com/@anuragmishra_27746/five-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d

[2] https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/5_Levels_Of_Text_Splitting.ipynb

[3]?https://docs.llamaindex.ai/en/stable/examples/node_parsers/semantic_chunking.html

文章轉自微信公眾號@ArronAI

上一篇:

LLM之RAG實戰(十九)| 利用LangChain、OpenAI、ChromaDB和Streamlit構建RAG

下一篇:

這個Python庫讓API測試超簡單:Requests真好用
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費