這種流程是極度依賴于基于相似度的向量檢索技術(shù),存在幾個核心問題:
- 知識結(jié)構(gòu)的空心化:人類專家的知識體系是立體建構(gòu)的,既有學科主干脈絡(luò),又能自由調(diào)用跨領(lǐng)域知識節(jié)點。而LLM的知識表征更接近平面化的概率分布,當處理需要深度領(lǐng)域知識交叉的問題時,容易暴露概念關(guān)聯(lián)的脆弱性。舉個例子,用戶詢問“哪些藥物可以治療高血壓?”,而知識庫中有一段描述“β受體阻滯劑可以降低心率,從而減輕心臟負擔”。盡管這段文本與高血壓治療相關(guān),但由于未明確提及“高血壓”,傳統(tǒng)RAG可能根本無法將其納入檢索結(jié)果。
- 邏輯推理鏈條的斷裂:LLM都是通過概率建模習得知識的表層特征,在面對需多步推演的任務(wù)(比如橋梁設(shè)計需同步整合地質(zhì)勘探報告、荷載計算模型與環(huán)保法規(guī)等等流程)時,模型容易陷入"知識拼貼"的陷阱,很多時候,其更像博聞強記的策展人,而非真正意義上的思考者。
- TopK截斷問題:在檢索過程中,系統(tǒng)通常只保留相似度最高的TopK個文檔片段。而對于全局性問題往往涉及到非常多的上下文文檔,這種截斷策略可能導(dǎo)致與查詢相關(guān)但相似度較低的文檔被忽略,生成答案時遺漏重要內(nèi)容。
對應(yīng)以上核心技術(shù)問題就會導(dǎo)致兩個很普遍的現(xiàn)象:
- 缺少事情之間關(guān)系的理解:當需要關(guān)聯(lián)不同信息以提供綜合見解時,傳統(tǒng) RAG 很難將這些點連接起來。
- 缺乏整體視角:當要求 RAG 全面理解大型知識庫甚至單個大型文檔的整體語義概念時,缺乏宏觀視角。
1.2 為什么要在RAG中引入知識圖譜?
知識圖譜是對現(xiàn)實世界實體及其關(guān)系的結(jié)構(gòu)化表示。它們由兩個主要部分組成:節(jié)點和邊。節(jié)點表示獨立的實體,例如人物、地點、物體或概念。而邊則表示節(jié)點之間的關(guān)系,表示它們?nèi)绾蜗嗷リP(guān)聯(lián)。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_2.jpg)
這種結(jié)構(gòu)使 LLM 能夠訪問精確且與上下文相關(guān)的數(shù)據(jù),從而極大地提高了其生成信息豐富答案的能力,其核心優(yōu)勢在于:
- 捕捉復(fù)雜關(guān)系:知識圖譜能夠表示實體間的多層次、多類型關(guān)系。例如,在醫(yī)療領(lǐng)域,知識圖譜可以表示“藥物-疾病-癥狀”之間的復(fù)雜關(guān)聯(lián)。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_3.jpg)
- 支持語義推理:基于圖結(jié)構(gòu)的遍歷和推理能力,知識圖譜能夠回答涉及多跳關(guān)系(Multi-hop Reasoning)的復(fù)雜查詢。例如在電影領(lǐng)域,知識圖譜可以表示“演員-電影-導(dǎo)演”之間的關(guān)系。當用戶查詢“湯姆·克魯斯主演的科幻電影有哪些?”時,系統(tǒng)可以通過圖譜快速找到相關(guān)電影,如《碟中諜》系列。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_4.jpg)
將知識圖譜(KG)引入 RAG 體系,就像為 AI 構(gòu)建了一張清晰的“知識地圖”。知識圖譜能夠表達實體之間的復(fù)雜關(guān)系,例如父子關(guān)系、朋友關(guān)系、因果關(guān)系等等,從而讓 AI 不僅能夠“查到”信息,更能夠“理解”信息之間的邏輯,給出更準確、更智能的答案。從依賴自身到檢索外部信息,再到利用知識圖譜進行深度理解。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_5.jpg)
1.3 圖譜+RAG需要考慮和關(guān)注的點
- 構(gòu)建知識圖譜:構(gòu)建圖譜是一項非常耗時的工作,通常需要人工完成。目前有方案通過大型模型來構(gòu)建圖譜,通過提示詞和文本,讓大模型提取文本中的實體和關(guān)系,構(gòu)建三元素,但基于LLM來建圖,會引入非常多的噪聲。如何在充分利用LLM知識的基礎(chǔ)上,在人為可控的方式下建圖?也是非常重要的一個問題。
- 內(nèi)容去重過濾:合并后的信息可能包含重復(fù)內(nèi)容,比如“特朗普、川普、Trump、唐納德·特朗普”都是一個人,通常需要對合并后的內(nèi)容進行過濾。
- 建模的合理性:圖模型能夠直觀地表示實體之間的復(fù)雜關(guān)系,但不代表圖這種方式就能對現(xiàn)實世界的信息進行全面的建模。對于一些特殊類型的數(shù)據(jù),如歷史數(shù)據(jù)、時間序列數(shù)據(jù),仍然面臨挑戰(zhàn)。
- 圖譜的規(guī)模:知識圖譜到底能支持多大規(guī)模,還是未經(jīng)驗證的問題。它能應(yīng)用到開放域,還是只能夠用于特定領(lǐng)域?另一方面,隨著數(shù)據(jù)規(guī)模的增大,建圖的成本也會急劇上升。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_6.jpg)
- 適合的應(yīng)用場景:通常來說,具備如下特征的數(shù)據(jù)和場景更適合使用圖譜+RAG。
- 第一類是有較多相互關(guān)聯(lián)實體與復(fù)雜關(guān)系,且結(jié)構(gòu)較明確的數(shù)據(jù)。
- 人物關(guān)系網(wǎng)絡(luò)數(shù)據(jù):社交網(wǎng)絡(luò)中的用戶關(guān)系、歷史人物關(guān)系、家族圖譜等。
- 企業(yè)級關(guān)系數(shù)據(jù):公司結(jié)構(gòu)、供應(yīng)鏈、客戶等之間的關(guān)系。
- 醫(yī)學類數(shù)據(jù):疾病、癥狀、治療、藥物、傳播、病例等之間復(fù)雜關(guān)系。
- 法律法規(guī)數(shù)據(jù):法律條款之間的引用關(guān)系、解釋、判例與適用法律條推薦系統(tǒng)數(shù)據(jù):產(chǎn)品、用戶、瀏覽內(nèi)容、產(chǎn)品之間的關(guān)聯(lián)、用戶之間的關(guān)系等。
- 第二類是涉及復(fù)雜關(guān)系、語義推理和多步邏輯關(guān)聯(lián)的查詢,比如:
- 多跳關(guān)系查詢:在華東區(qū)所有的門店中,哪個導(dǎo)購的消費者客單價最高?
- 知識推理查詢:根據(jù)患者的癥狀和病史,推斷可能的疾病并提供治療方案。
- 聚合統(tǒng)計查詢:在《三國演義》中,出場次數(shù)最多的人是誰?
- 時序關(guān)聯(lián)查詢:過去一年都有哪些AI大模型的投資與并購事件?
- 跨多文檔查詢:在《三體3》中,有哪些人物在《三體1》中出現(xiàn)?
二、RAGFlow + GraphRAG+ 知識圖譜 + Deepseek 初步探索實踐
RAGFlow的V0.16.0版本以后對內(nèi)置的GraphRAG做了重構(gòu),并且目前支持輕量級別的LightRAG和GraphRAG兩種框架。GraphRAG利用圖結(jié)構(gòu)增強上下文關(guān)聯(lián)性,適用于醫(yī)療、法律等復(fù)雜領(lǐng)域,LightRAG則強調(diào)輕量化和高效,能夠顯著降低延遲和計算成本。這里做一個實踐記錄與分享,實踐略過了RAGFlow在window或者linux的安裝步驟,需要的話可以留言,后面可以補充再出一篇安裝教程。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_7.jpg)
2.1 配置模型供應(yīng)商
RAGFlow 支持大多數(shù)主流 LLM平臺,還支持使用?Ollama、Xinference 或 LocalAI 在本地部署 LLM,這里首先要添加并配置 LLM,點擊頁面右上角的徽標> 模特提供商:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_8.jpg)
每個 RAGFlow 帳戶都可以免費使用通義千問的嵌入模型text-embedding-v2,這里單擊你所擁有的 LLM平臺并相應(yīng)地更新 API 密鑰,deepseek也有:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_9.jpg)
如果是采用本地部署的模型的話,可以找到Ollama,配置對應(yīng)的embedding和chat模型,Ollama的基礎(chǔ)URL為:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_10.jpg)
配置好后的模型列表,可以從“添加了的模型”這里看到:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_11.jpg)
配置好后,打開系統(tǒng)模型設(shè)置,其中img2txt模型就是OCR模型:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_12.jpg)
2.2 配置知識庫
正確配置知識庫對于 AI 智能助手至關(guān)重要,選擇錯誤的嵌入模型或塊方法很容易導(dǎo)致聊天中出現(xiàn)意外的語義丟失或答案不匹配。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_13.jpg)
在知識庫配置中,RAGFlow 通過嵌入模型、解析方法、頁面排名、自動關(guān)鍵詞、自動問題、召回增強及 RAPTOR 策略等技術(shù),提升檢索和生成效果,其中:
- 嵌入模型:將文本轉(zhuǎn)換為向量,捕捉語義信息,常用于文本相似度計算和檢索。RAGFlow 使用嵌入模型將文檔和查詢轉(zhuǎn)換為向量,以便在向量空間中進行相似度匹配。
- 解析方法:RAGFlow 提供多種分塊模板,方便對不同布局的文件進行分塊。通過不同的解析方法,其可以將原始文本(如 PDF、HTML)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),便于后續(xù)處理。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_14.jpg)
- 頁面排名:頁面排名用于評估文檔或段落的重要性,幫助系統(tǒng)優(yōu)先檢索更相關(guān)的內(nèi)容,優(yōu)先返回高質(zhì)量信息。
- 自動關(guān)鍵詞:用于在查詢此類關(guān)鍵詞時,為每個塊提取 N 個關(guān)鍵詞以提高其排名得分。
- 自動問題:自動問題生成從文本中生成相關(guān)問題,用于增強檢索和生成。
- 使用召回增強RAPTOR策略:結(jié)合召回增強和任務(wù)導(dǎo)向的排序,優(yōu)化檢索結(jié)果。RAGFlow 可能通過動態(tài)調(diào)整檢索范圍或重新排序,確保生成模型獲得最相關(guān)的信息。
2.3 配置知識圖譜方法
往下翻到知識圖譜部分,打開提取知識圖譜,實體類型可以就選默認的,然后方法選擇General,然后打開實體歸一化和社區(qū)報告生成,其中,實體類型是知識圖譜的重要組成部分。常見的實體類型包括:
- Organization(組織):如公司、機構(gòu)、政府等。例如,“阿里巴巴”、“聯(lián)合國”。
- Person(人物):如歷史人物、名人、科學家等。例如,“馬云”、“愛因斯坦”。
- Geo(地理):如國家、城市、地區(qū)等。例如,“中國”、“北京”。
- Event(事件):如歷史事件、會議、比賽等。例如,“第二次世界大戰(zhàn)”、“奧運會”。
- Category(類別):如產(chǎn)品、技術(shù)、學科等。例如,“人工智能”、“量子力學”。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_15.jpg)
實體歸一化是指將不同表達方式的實體統(tǒng)一為標準形式。例如,“馬云”可能在不同的文本中被表達為“Jack Ma”、“阿里巴巴創(chuàng)始人”等。實體歸一化的目的是確保知識圖譜中的實體具有唯一性和一致性,包括:
- 同義詞處理:將不同表達方式的實體映射到同一個標準實體。例如,“Jack Ma”和“馬云”都映射到“馬云”。
- 消歧:處理同名實體的歧義問題。例如,“蘋果”可能指“蘋果公司”或“水果”,需要通過上下文進行消歧。
社區(qū)報告生成是 RAGFlow 中的一個重要功能,在這一步,區(qū)塊被聚集成層次化的社區(qū),實體和關(guān)系通過更高抽象層次將每個部分連接起來,它通過分析知識圖譜中的實體和關(guān)系,生成結(jié)構(gòu)化的報告。具體步驟包括:
- 通過圖算法(如 Louvain 算法)發(fā)現(xiàn)知識圖譜中的社區(qū)結(jié)構(gòu)。社區(qū)是指一組緊密相連的實體,例如“科技公司社區(qū)”可能包括“阿里巴巴”、“騰訊”、“百度”等。
2.4 建立知識圖譜
配置完數(shù)據(jù)庫后,上傳一條文件,然后點擊開始解析:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_16.jpg)
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_17.jpg)
解析完后點擊刷新,左側(cè)會出現(xiàn)知識圖譜菜單,點擊進入查看建立好的知識圖譜,其中每個深色的圓圈代表一個實體,實體之間的連線代表實體之間存在的關(guān)系。
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_18.jpg)
外圍淡色的圓圈代表實體組成的社區(qū):
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_19.jpg)
2.5 基于圖譜+RAG的實踐效果測試
這里先來試一下檢索,這是沒有打開知識圖譜的檢索結(jié)果:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_20.jpg)
這是打開了知識圖譜的檢索結(jié)果:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_21.jpg)
然后,再測試一下,這個是沒有帶知識圖譜的回答效果:
用實戰(zhàn)_RAGFlow___知識圖譜___Dee/image_22.jpg)
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/NJgBjKLIvjblsUjDa2yxmQ
我們有何不同?
API服務(wù)商零注冊
多API并行試用
數(shù)據(jù)驅(qū)動選型,提升決策效率
查看全部API→
??
熱門場景實測,選對API
#AI文本生成大模型API
對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對比試用API
限時免費