
如何快速實現REST API集成以優化業務流程
? ? ??LlamaIndex具有SemanticSplitterNodeParser類,該類允許使用塊之間的上下文關系將文檔拆分為塊,使用嵌入相似性自適應地選擇句子之間的斷點。
SemanticSplitterNodeParser超參數介紹:
這種分塊策略探索了使用LLM來根據上下文確定塊中應包含多少文本以及哪些文本的可能性。
? ? ? ?為了生成初始塊,參考論文《Dense X Retrieval: What Retrieval Granularity Should We Use?》,從原始文本中提取獨立語句。Langchain提供了propositional-retrieval模板(https://templates.langchain.com/new?integration_name=propositional-retrieval)來實現這一點。
在生成命題之后,這些命題輸入到基于LLM的代理。該代理確定命題是否應包括在現有塊中,或者是否應創建新塊。
[1] https://medium.com/@anuragmishra_27746/five-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d
[2] https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/5_Levels_Of_Text_Splitting.ipynb
[3]?https://docs.llamaindex.ai/en/stable/examples/node_parsers/semantic_chunking.html
文章轉自微信公眾號@ArronAI