精品久久久久一区二区国产,国产一区二区三区国产,91免费视频网站

試想一下場景，我們在使用數(shù)據(jù)地圖或指標(biāo)查詢時(shí)，指標(biāo)預(yù)存信息為“欠款金額”，而我們搜索的指標(biāo)為“未還款金額”，雖然語義上很接近，但是ES的分詞詞典中并沒有“未還款”，匹配不上，會(huì)導(dǎo)致我們搜索不到指標(biāo)信息。為了提升搜索效果，通常會(huì)給ES配置同義詞表，把預(yù)存的指標(biāo)信息和開發(fā)、業(yè)務(wù)人員常使用的指標(biāo)名稱做同義詞配置，提高查詢效果。

1.?對(duì)預(yù)存指標(biāo)信息生成語義向量（Embedding），存入向量數(shù)據(jù)庫作為基準(zhǔn)；2.?將用戶搜索指標(biāo)信息向量化后，檢索向量數(shù)據(jù)庫；3.?計(jì)算兩者之間的向量距離（如余弦相似度距離），找出與用戶搜索詞最近的幾個(gè)向量。那最近的幾個(gè)向量，其實(shí)就是語義和搜索詞相似的，而并不一定需要相同的關(guān)鍵詞。

2. 搭建領(lǐng)域知識(shí)庫，提供私域問答

通常我們遇到以下場景會(huì)考慮搭建本地知識(shí)庫：1.?我們所需的行業(yè)知識(shí)比較專業(yè)，大模型不能確保準(zhǔn)確、高效的提供；2.?在利用大模型能力的過程中，我們內(nèi)部的數(shù)據(jù)跟環(huán)境不能對(duì)外暴露，需完全可控，避免任何的數(shù)據(jù)隱私泄露以及安全風(fēng)險(xiǎn)。該需求比較普遍，通常采用Embedding + 向量檢索引擎 + LLM?的方式，處理過程流程如下：

1. 先將原始文檔中的文本內(nèi)容全部提取出來。然后根據(jù)語義切塊，切成多個(gè)chunk，可以理解為可以完整表達(dá)一段意思的文本段落。在這個(gè)過程中還可以額外做一些元數(shù)據(jù)抽取，敏感信息檢測等行為。

2. 將這些Chunk都丟給embedding模型，來求取這些chunk的embedding。

3. 將embedding和原始chunk一起存入到向量數(shù)據(jù)庫中。

問題提煉：這個(gè)部分是可選的，之所以存在是因?yàn)橛行﹩栴}是需要依賴于上下文的。因?yàn)橛脩魡柕男聠栴}可能沒辦法讓LLM理解這個(gè)用戶的意圖。

向量檢索：獨(dú)立問題求取embedding這個(gè)功能會(huì)在text2vec模型中進(jìn)行。在獲得embedding之后就可以通過這個(gè)embedding來搜索已經(jīng)事先存儲(chǔ)在向量數(shù)據(jù)庫中的數(shù)據(jù)。推理求解：在獲得最相關(guān)的知識(shí)之后，我們就可以讓LLM基于最相關(guān)的知識(shí)和獨(dú)立問題來進(jìn)行求解推理，得到最終的答案。? ?

3. Text2SQL代碼生成，結(jié)果可視化

大模型可以根據(jù)自然語言輸入快速生成SQL代碼片段，并通過可視化的方式展示結(jié)果，從而協(xié)助數(shù)據(jù)人員的日常工作。這減少了編寫復(fù)雜查詢所花費(fèi)的時(shí)間，因此可以投入更多時(shí)間來理解業(yè)務(wù)和分析查詢結(jié)果，以此從數(shù)據(jù)結(jié)果中獲取決策支持。

可以通過大模型創(chuàng)建一個(gè) SQL 查詢來獲取一組特定的數(shù)據(jù)，例如：“顯示 2022 年每月的平均收入。”

4. 數(shù)據(jù)集探索性數(shù)據(jù)分析

EDA數(shù)據(jù)分析師在分析之前往往需要花費(fèi)大量時(shí)間準(zhǔn)備和清理數(shù)據(jù)。利用大模型可以提供數(shù)據(jù)預(yù)處理技術(shù)，如處理缺失值、處理異常值、變量相關(guān)性分析以及解決用戶數(shù)據(jù)質(zhì)量問題的建議。通過數(shù)據(jù)預(yù)處理建議，有助于簡化數(shù)據(jù)準(zhǔn)備過程，并確保分析質(zhì)量。該能力屬于大模型的通用基礎(chǔ)能力。

總結(jié)

本文簡要介紹了大模型LLM在數(shù)據(jù)領(lǐng)域應(yīng)用的思路，具體方案會(huì)在后續(xù)專題中逐步展開。大模型的快速發(fā)展為企業(yè)數(shù)據(jù)體系帶來了新機(jī)遇，企業(yè)思考在數(shù)據(jù)治理、數(shù)據(jù)安全、數(shù)據(jù)整合、數(shù)據(jù)分析與挖掘以及業(yè)務(wù)應(yīng)用等方面，通過大模型應(yīng)用來提高生產(chǎn)力。隨著OpenAI開發(fā)者大會(huì)召開，ChatGPT使用成本也逐步降低，并且國產(chǎn)大模型百花齊放，模型效果逐漸提高，將助力大模型應(yīng)用在各行各業(yè)中大放異彩。

2. 搭建領(lǐng)域知識(shí)庫，提供私域問答

3. Text2SQL代碼生成，結(jié)果可視化

4. 數(shù)據(jù)集探索性數(shù)據(jù)分析

總結(jié)

最新文章