試想一下場景,我們在使用數據地圖或指標查詢時,指標預存信息為“欠款金額”,而我們搜索的指標為“未還款金額”,雖然語義上很接近,但是ES的分詞詞典中并沒有“未還款”,匹配不上,會導致我們搜索不到指標信息。為了提升搜索效果,通常會給ES配置同義詞表,把預存的指標信息和開發、業務人員常使用的指標名稱做同義詞配置,提高查詢效果。

基于Embedding進行語義檢索的過程大致如下:


1.?對預存指標信息生成語義向量(Embedding),存入向量數據庫作為基準;2.?將用戶搜索指標信息向量化后,檢索向量數據庫;3.?計算兩者之間的向量距離(如余弦相似度距離),找出與用戶搜索詞最近的幾個向量。那最近的幾個向量,其實就是語義和搜索詞相似的,而并不一定需要相同的關鍵詞。

2. 搭建領域知識庫,提供私域問答

通常我們遇到以下場景會考慮搭建本地知識庫:1.?我們所需的行業知識比較專業,大模型不能確保準確、高效的提供;2.?在利用大模型能力的過程中,我們內部的數據跟環境不能對外暴露,需完全可控,避免任何的數據隱私泄露以及安全風險。該需求比較普遍,通常采用Embedding + 向量檢索引擎 + LLM?的方式,處理過程流程如下:

處理的過程包括:

1. 先將原始文檔中的文本內容全部提取出來。然后根據語義切塊,切成多個chunk,可以理解為可以完整表達一段意思的文本段落。在這個過程中還可以額外做一些元數據抽取,敏感信息檢測等行為。

2. 將這些Chunk都丟給embedding模型,來求取這些chunk的embedding。

3. 將embedding和原始chunk一起存入到向量數據庫中。

問題提煉:這個部分是可選的,之所以存在是因為有些問題是需要依賴于上下文的。因為用戶問的新問題可能沒辦法讓LLM理解這個用戶的意圖。

向量檢索:獨立問題求取embedding這個功能會在text2vec模型中進行。在獲得embedding之后就可以通過這個embedding來搜索已經事先存儲在向量數據庫中的數據。推理求解:在獲得最相關的知識之后,我們就可以讓LLM基于最相關的知識和獨立問題來進行求解推理,得到最終的答案。? ?

3. Text2SQL代碼生成,結果可視化

大模型可以根據自然語言輸入快速生成SQL代碼片段,并通過可視化的方式展示結果,從而協助數據人員的日常工作。這減少了編寫復雜查詢所花費的時間,因此可以投入更多時間來理解業務和分析查詢結果,以此從數據結果中獲取決策支持。

可以通過大模型創建一個 SQL 查詢來獲取一組特定的數據,例如:“顯示 2022 年每月的平均收入。”

大模型可以將其轉換為 SQL 查詢,如下:

SELECT AVG(revenue) AS average_revenue, MONTH(date) AS month
FROM sales
WHERE YEAR(date) = 2022
GROUP BY MONTH(date);

集成可視化功能后的效果圖如下:

4. 數據集探索性數據分析

EDA數據分析師在分析之前往往需要花費大量時間準備和清理數據。利用大模型可以提供數據預處理技術,如處理缺失值、處理異常值、變量相關性分析以及解決用戶數據質量問題的建議。通過數據預處理建議,有助于簡化數據準備過程,并確保分析質量。該能力屬于大模型的通用基礎能力。

總結

本文簡要介紹了大模型LLM在數據領域應用的思路,具體方案會在后續專題中逐步展開。大模型的快速發展為企業數據體系帶來了新機遇,企業思考在數據治理、數據安全、數據整合、數據分析與挖掘以及業務應用等方面,通過大模型應用來提高生產力。隨著OpenAI開發者大會召開,ChatGPT使用成本也逐步降低,并且國產大模型百花齊放,模型效果逐漸提高,將助力大模型應用在各行各業中大放異彩。

原文轉自 微信公眾號@數據思考筆記

上一篇:

一文說盡大模型技術之一:LLM的架構

下一篇:

人工智能(AI) VS 商業智能(BI) 區別與聯系是什么?
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費