
如何通過IP欺詐檢測API識別代理IP和VPN連接
BI工具通常包括數據倉庫、數據挖掘、報告、在線分析處理(OLAP)等功能,幫助企業理解市場趨勢、評估業務流程的效率,并識別新的增長機會。
隨著人工智能技術的不斷進步,AI+BI成為了一個新興領域,它指的是將人工智能,尤其是機器學習和自然語言處理技術,集成到商業智能系統中,以自動化和增強數據分析和決策過程。
特別地,結合AIGC技術,可以支持用戶通過對話來完成數據探索、報表制作等工作,進一步提升數據分析效率,重構 BI 產品的人機交互方式。
就我目前所在公司的業務情況,AI+BI也是我認為有落地場景和價值的一個方向(當然從可用資源和投入產出比的角度來看,在我司還不適合推進),因此對這個領域多有關注,是以有本文。
需要強調的是,本文接下來所提到的AI,特指以大語言模型(LLMs)為基礎的自然語言能力——即對話式的系統交互支持(畢竟在BI領域還有其他的AI技術可以使用,例如機器學習可用于銷售預測)。
從產品經理的角度看,大模型結合數據分析進行應用具有以下優勢:
作為產品經理,理解這些優勢不僅有助于我們更好地利用大模型技術來優化現有產品,也為我們提供了新產品開發的靈感。我們可以探索如何將這些優勢整合到BI產品中,以滿足用戶的具體需求。
接下來就請隨我一起探索一番。
LLM在BI產品領域,適合作為現有數據分析手段的有效補充,特別是在即席數據查詢、傳統BI工具能力提升、簡單數據挖掘與洞察等方面。
就目前來看,在自然語言的對話式BI數據分析有3種可行的實現模式:
當然這些模式并不全面。比如說還有text-to-JSON等。
每種模式都有其適用場景和限制,作為AI產品經理,選擇最合適的模式需要綜合考慮您的具體需求、現有的技術棧、以及預期的用戶體驗。
根據我對大語言模型(LLMs)和BI系統的粗淺了解,個人的一點看法:
簡言之,如果一個組織已經有成熟的BI工具和APIs,那么text-to-API可能是一個較為直接的選擇。對于需要高度靈活性和定制化分析的場景,text-to-Code可能提供了更多的可能性。而text-to-SQL則在很多標準化的數據庫查詢場景中提供了一種高效且通用的解決方案。
當然啦,在LLMs已經提取到對應的分析數據后,我們還需要進一步支持對話式的BI數據呈現,理論上來說也存在3種模式:
這3種模式對比如下:
需要強調的是,這些模式并不是互斥的,在某些情況下可以結合使用效果更佳(當然對于實現的復雜性要求也提高了)。選擇哪種模式應根據我們的實際業務需求、目標用戶群體的特點、以及所擁有&可投入的技術資源和能力來決定。
雖然將LLM與BI系統結合可以極大地提升數據分析和報告的智能化程度,對用戶體驗有著不言而喻的好處。但是,就當前的技術進展和結合情況來看,可能會遇到以下挑戰:
數據理解的準確性
由于LLM主要通過訓練數據學習,如果訓練數據不包含足夠的行業特定知識或上下文信息,模型可能難以準確理解復雜的業務數據。因此,LLM可能在理解復雜數據集、特定行業術語或上下文中的細微差別方面存在挑戰。這可能導致數據分析結果的誤解或錯誤解釋。
幻覺問題(Hallucination)LLM在生成文本時可能會產生“幻覺”,即創造出與實際數據不符的信息。在BI報告中,這可能導致不準確或虛假的數據洞察和結論。因為LLM在生成文本時,可能會基于其訓練數據中的模式進行推斷,而這些模式不一定總是反映實際情況。
數據隱私和安全性使用LLM處理敏感或私密數據時,需要確保數據不被非法訪問或泄露。LLM的云基礎設施和API調用可能成為數據安全的薄弱環節,尤其是在處理敏感信息時。
模型的通用性與定制化需求雖然LLM具有強大的通用性,但在特定行業或復雜的數據分析任務中可能難以滿足所有定制化需求。原因在于LLM的訓練是基于廣泛的數據集進行的,可能無法完全覆蓋某些特定領域或復雜場景的細節和特性。
用戶交互體驗
我們需要確保LLM能夠提供自然、流暢的交互體驗,同時能準確理解用戶的查詢意圖和需求,這可能存在挑戰。因為不同用戶的查詢方式和習慣多樣性,對應地表現為自然語言理解的復雜性,可能會影響交互的準確性和用戶滿意度。
實時性和性能
在需要快速響應的BI應用中,確保LLM提供的解決方案能夠滿足性能和實時性要求可能是一個挑戰。原因在于大型模型可能需要顯著的計算資源和處理時間,特別是在處理大型數據集或復雜查詢時。(不過就我個人目前的體驗而言,這個問題不大,反而是BI系統本身可能存在這個瓶頸需要解決)
在不斷地妥協之后,我們感覺在 AI 應用落地中存在一個不可能三角,效率-準確-智能的不可能三角。希望能夠快速且準確地解決問題,就會對復雜問題束手無策;需要準確地解決復雜問題,就會需要漫長的時間來思考、拆解、處理;希望能夠快速地解決復雜問題,就會無可避免地面臨幻覺的產生。
騰訊技術工程團隊,benze
網易有數ChatBI
網易數帆團隊于2023年推出了基于網易自研大模型的對話式數據智能助手——有數ChatBI,它融合了前沿的AIGC技術,通過自然語言理解與專業數據分析能力,用戶只需通過日常對話的方式即可獲得可信的數據,極大降低數據消費門檻。
網易有數ChatBI在結合大模型技術進行數據分析時,面對當前技術無法實現100%準確性的挑戰,采取了一系列創新措施來提高產品的可信度和實用性,使之適用于生產環境。
(1)檢索增強技術
網易有數ChatBI通過引入檢索增強技術,改善了大模型對數據表的理解能力。傳統的基于LLM的NL2SQL方案僅將建表語句作為上下文注入,限制了模型對數據表的全面認知。通過將更多相關的表格元數據融入prompt,大模型能夠獲得更寬廣的“視野”,提升其自適應能力,從而減少選錯字段或字段值格式不匹配的問題。
(2)個性化知識配置
為了適應特定業務領域的定制化需求,網易有數ChatBI支持個性化知識配置功能。這允許客戶根據自己的業務特點和行業術語進行個性化設置,如將特定的行業“黑話”映射為模型可以理解的詞匯,從而提高大模型在處理定制化問題上的準確性和適應性。
(3)模型自學習機制
網易有數ChatBI采用了模型自學習機制,模仿ChatGPT等LLM通過對話形式進行自我修正的特性。管理員可以指正模型的錯誤,使其記錄并在下次遇到類似問題時參考修正過的內容生成正確的SQL。這種機制使得ChatBI隨著使用而變得更加智能,提升了用戶體驗和產品的整體性能。
從AI+BI產品經理的角度看,網易有數ChatBI通過上述技術創新,解決了大模型在數據分析領域應用的一些核心問題,如準確性、定制化需求適應性及自學習能力,使其成為一款可靠且高效的數據分析工具。回顧我們前面所提到的“模式”,我認為它主要使用了【text-to-SQL+交互式數據探索助手】。
在網易內部,有數ChatBI在網易云音樂等業務落地,已經覆蓋了產品、運營、市場、財務等非技術人員。而借助網易內部的成功落地,有數ChatBI產品發布后,也吸引了甄云科技等外部客戶的使用。
京東ChatBI
京東數據產品團隊推出的ChatBI產品是一個基于GPT大模型的“AI數據分析師”,旨在通過對話方式簡化BI工作,目前還只是一個內部產品。
它結合了大語言模型、公/私域知識庫和數據分析應用擴展,通過自然語言的交互形式,降低了使用門檻,并通過沉淀的業務知識和數據資產提供準確的分析結果,針對的主要用戶痛點包括數據理解、獲取和分析的復雜性。
在ChatBI項目中,京東團隊采用了Langchain來開發大語言模型,形成了一個包含兩大類資產的綜合性知識庫。首先是數據中臺資產,涵蓋元數據、指標SQL以及產品指南等,為模型提供了豐富的數據支持。其次是業務資產部分,包括專門針對特定業務場景構建的模型和累積的業務知識。這部分尤其關注于分析師的分析思路,這些通常難以標準化和復用。通過大語言模型,它現在能夠將分析師的專業思路轉化為可供機器學習和自動化使用的形式,極大地提升了業務分析的效率和廣度。
在用戶與ChatBI的互動過程中,系統首先通過意圖識別來理解用戶的查詢目的,是希望獲得特定知識、進行數據分析,還是簡單的對話交流。接著,通過實體識別技術,我們能夠從用戶的提問中提取出關鍵信息,如時間、指標和維度等,并結合用戶的背景信息如權限和部門來進行更準確的解析。對于知識查詢類問題,系統會與知識庫進行交互,通過優化算法提高回答的效率。而在數據分析場景下,ChatBI會調用相應的接口,將問題傳遞給大模型進行深入分析,并最終生成直觀的可視化結果。回顧我們前面所提到的“模式”,這里使用的是【text-to-API】,至于自然語言文本報告、動態可視化模板報告、交互式數據探索助手則看起來都有使用到。
ChatBI的引入顯著提升了工作效率。以往,用戶在遇到數據問題時可能需要跨平臺搜索指標定義,涉及繁瑣的數據分析流程,耗時數小時甚至數天。而現在,用戶僅需通過與ChatBI的自然語言對話,即可迅速獲得問題的解答和可視化分析結果。這種以對話形式進行的高效數據交互和分析,極大地簡化了數據分析流程,讓決策支持更加迅速和精準。
百度SugarBI
SugarBI是百度智能云推出的敏捷BI和數據可視化平臺,解決報表和大屏的數據BI分析和可視化問題,通過不斷將AI能力融合進自身產品中,推出「文心問數Sugar Bot」功能,大幅度提升用戶的數據分析效率。
根據官方介紹,SugarBI基于百度AI能力,提供自動分析、AI問答、波動分析等智能化功能,其優勢在于:
對應地,智能問數適用的場景分別是:
基于 NL-to-JSON 等能力,文心問數 Sugar Bot 幫助用戶基于對話來直接完成數據探索,并完成一部分報表制作功能。同時,該團隊還在進一步研發意圖理解、指令拆解、圖像生成等 AIGC 能力,基于對話直接滿足用戶對報表、大屏的生成需求,其愿景是實現大部分內容的直接生成,也就是 NL-to-X 。這樣,可以通過生成式 AI 直接滿足更多用戶業務目標,逐步實現業務與技術重構。
(1)AI問數
在SugarBI平臺上,用戶有多種方式表達對數據的需求,包括通過報表、大屏以及探索頁等多端入口。用戶可以采用語音、自然語言輸入或是直觀的字段拖拽等多種交互形式來提出問題。對于語音輸入,SugarBI利用ASR技術將語音轉換為文本,進一步通過NLP技術轉化為具體的數據查詢需求,展現了平臺對用戶需求表達方式的全面適應性。
SugarBI的核心之一是其表格問答模型,該模型能夠理解用戶的自然語言查詢,并將其轉化為對數據的具體需求。這一過程得益于SugarBI背后的數據模型,它將數據寬表的結構(Schema)及同義詞等配置進行了高效抽象,以便進行深入的模型訓練和部署。這種智能化處理不僅提高了數據查詢的準確性,也為用戶提供了更加直觀和靈活的數據分析體驗。
用戶的查詢需求經過智能處理后,SugarBI會自動轉換成圖表配置,并生成相應的SQL語句進行數據查詢。這一過程展示了從需求捕捉到數據檢索的無縫鏈接,極大地提升了數據處理的效率。拉取到的數據根據其特征,將被SugarBI的智能圖表功能自動匹配到最合適的圖表類型,從而生成直觀且信息豐富的數據可視化結果。(text-to-SQL+動態可視化模板報告模式)
(2)自動分析
數據預處理與分析準備:SugarBI在啟動自動分析前,首先確定分析的數據范圍,即選定特定的數據字段集合。然后,SugarBI會詳細審查這些字段的配置和數據細節,確保分析的準確性。值得注意的是,SugarBI在這一階段會遵循設定的用戶權限規則,確保數據訪問的合規性(例如對于表格分析來說,表格會根據報表所設置的用戶權限進行權限和數據的過濾,防止發生越權)。
分析模型的運作:收集完必要的信息后,SugarBI會將這些數據輸入自動分析模型。這個模型是基于SugarBI內部大量報表數據經過訓練得來的,因此具有較強的分析能力。模型會輸出兩類關鍵信息:一是數據過濾條件的優先級排名,二是圖表展示字段組合的推薦排名。
圖表生成與優化:根據模型的推薦,SugarBI會自動生成相應的數據過濾條件和圖表展示字段組合。這一過程中,智能圖表功能會被用來推薦最合適的圖表類型,以最直觀地展示數據。生成的圖表和過濾條件將被相互關聯,提供給用戶靈活的數據探索能力,如下鉆和篩選等。
報表的自動排版:最后,SugarBI會對選定的過濾條件和圖表進行自動排版,形成最終的報表。這意味著從數據選擇到報表生成的整個分析流程,都由SugarBI的自動分析功能智能完成,極大地提升了分析效率和用戶體驗。
騰訊DataBrain chatBI
騰訊的DataBrain團隊在GPT4發布之后,嘗試結合其能力構建了一個服務于 DataBrain 系統的統一語言智能助手Demo——chatBI,能夠讓用戶在統一的語言交互界面完成數據分析的全過程。和京東的chatBI一樣,該產品目前僅供內部使用。
經過多輪嘗試,目前了解到其Demo版本是參考了AutoGPT這樣的智能體設計思路(把 Prompt 和具體可執行的 Prompt 做了魔改,把 Prompt 中的資源、限制、可執行指令做處理,就能夠讓 AutoGPT 以數據分析的形狀開始跑動):
整個流程由用戶提問開始,GPT 接收到提問后,將任務完成拆解成選表、讀取數據信息、拼接 SQL、生成圖表、完成分析等。
SQL 的生成能力是調用的之前 DataLab 的 SQL 接口,能夠基于需要指標、維度、篩選來給出符合具體場景的 SQL。類似的生成圖表、簡單數據分析的能力均是通過 Command 的方式來確保輸入輸出的可解釋性和透明性。
不過其團隊也表示,目前的ChatBI 版本還有很大的提升空間,存在速度慢、可解決的數據問題很初級、復雜指標計算失敗、圖表不夠豐富等問題。
觀遠數據BI Copilot
BI Copilot 是觀遠BI利用大語言模型的能力構建的最新模塊,接入了微軟Azure OpenAI 商用服務權限(大家理解為就是ChatGPT背后的技術即可):
Chat2Answer利用知識庫構建,可以幫助業務用戶理解數據的含義,并提供智能解讀。當用戶提出數據相關的問題時,Chat2Answer會解釋數據背后的原因,并給出針對性的建議和可操作的方案。
這個功能早期的時候叫“chat2SQL”(也就是我們前面提到的text-to-SQL模式),通過自然語言交互協助生成 SQL 查詢語句。以實際工作流程為例:
1. 接收用戶的自然語言查詢請求,例如“每個品牌的退款額是多少”;
2. 將用戶的查詢請求轉化為機器可理解的 SQL,
例如“SELECT 商品名稱
, SUM(退款金額
) AS 退款額
FROM input1
GROUP BY 商品名稱
”,
將生成的 SQL 查詢語句返回給用戶;
3. 進一步交互式的追問,例如“再加上渠道維度”;
4. 再次轉換為 SQL,
例如“SELECT 商品名稱
, 渠道
, SUM(退款金額
) AS 退款額
FROM input1
GROUP BY 商品名稱
, 渠道
”,并返回給用戶。
用戶在遇到問題時可以直接向Chat2Help尋求幫助。當遇到報錯或問題時,只需將報錯信息復制粘貼到對話框中與Chat2Help進行問答,它將直接告訴用戶報錯的含義,并指導一步步排除報錯、提供解決方案。
神策數據Copilot
神策數據的產品主要是CDP(客戶數據平臺)領域的,和我們前面所提及的“BI”不是一個概念。不過在研習過程中發現它也利用大模型技術推出了神策分析 Copilot(另外還支持用于運營Copilot),同樣支持自然語言的交互,自助式地進行數據分析與查詢,因此還是納入本文中。
從目前的Demo介紹來看,其支持的一些場景如下:
(1)智能分析:應用大模型技術理解用戶問題,自動配置分析模型
以事件分析場景為例,在輸入框中用自然語言輸入要獲取的數據指標,比如最近7天搜索點擊的用戶數,GPT 模型將自然語言轉化為請求查詢JSON 并發起查詢,并進行圖形化展示。
在這里,神策團隊采用了text-to-json而不是 text-to-SQL的模式,其考慮有二:一方面更容易理解,便于業務人員判斷查詢;另一方面更容易進行人為干預,比如生成的査詢 JSON 不對,想換種計算方式或查詢條件看看指標怎么樣,可快速調整。
其實現過程大致為:
值得一提的是,神策分析 Copilot 具備可理解、可信任、可干預的特點,能有效規避大模型固有的幻覺問題。在生成分析結果的同時,Copilot 將展示分析模型和指標的應用來源,便于用戶理解、校驗分析邏輯和指標用法,以確保用戶選擇正確的指標。若分析結果不符合預期,用戶可以手動調整幫助系統持續學習、優化結果(即顯式反饋)。
(2)指標搜索:自然語言查詢例行指標
應用大模型技術構建指標搜索能力,幫助業務人員快速定位到當下關注的指標和經營概覽,或深入探索特定業務的相關指標。支持用戶口語化輸入,業務人員無需輸入專業術語或確切的指標名稱,也能獲得相關的數據指標。
例如在零售行業中,若用戶想知道近期的商品銷售數據,直接對Copilot 提問“賣得最好的商品”,它便會推送“當天 Top 商品”“熱門訪問商品”“商品銷售數量”等指標查詢結果,無需依賴分析師進行查詢。
(3)數據門戶融合:數倉對話插件
神策分析Copilot 也可以接入企業數倉,例如在某保險公司的實際應用中,它就作為一個智能問答組件融合至企業自身的數據門戶,用戶點擊“智能問答”即可開啟直接對話,對數倉數據進行自助式分析和查詢、生成數據結果和報表。
當然啦,除了這些產品,其實還有很多其他的AI+BI實踐,但時間和精力有限,我們就不繼續拓展了。
就我本人所掌握的情況來看,包括但不限于以上提及的經過大模型加持的AI+BI產品,大多都還處于Demo、內部測試或小范圍試用的階段,部分進行了推廣但基本上都尚未大規模商用。
相信隨著用戶反饋+持續優化完善,再加上大模型能力的進化,更加成熟、穩定、可用的新版本產品將在今年內到來。
上面所提到的產品大多沒有機會上手(例如內部產品或仍在測試階段)體驗,但總算在2月初申請到了百度SugarBI文心問數的體驗權限。
參照官方指引,基于示例數據,我進行了簡單的探索:
(1)數據模型準備
在數據模型的設置頁面,可以選擇對應的數據表并建立關系:
在編輯頁面可以將字段名稱設置為可讀性較高的中文別名:
對于原子指標(度量),我們可以設置AI問答的同義詞(也就是幫助大模型理解專業術語,可能用戶會有不同的問法)作為其“知識庫”:
我們也可以新建度量(指標加工),這就是常規的BI功能了:
對于AI問答功能,需要開啟并等待模型訓練完成才能使用(不過我沒有權限):
我們還可以配置AI問答的推薦問題,這個如果在ChatGPT中自定義過自己的GPTs的小伙伴應該很熟悉:
然后我們就可以通過智能問數Sugar Bot和系統進行交互了:
當我點擊上圖中的“需要結論”時,系統會自動總結如下:
并且還能發現數據的不合理之處(確實如此):
整體上來說還是蠻有意思的,確實是一種全新的體驗、并且是已經實際落地到現有產品中了。感興趣的小伙伴可以自行申請體驗。
值得注意的是,SugarBI有以下限制:
在前面的研習內容中,我們主要關注支持自然語言交互模式下的BI數據查詢、分析和可視化呈現。實際上,在從問題定義、數據接入、處理、可視化展示、交互分析到決策行動的BI數據分析全鏈路中,AI大語言模型都有結合的機會。
在前面的研習內容中,我們主要關注支持自然語言交互模式下的BI數據查詢、分析和可視化呈現。實際上,在從問題定義、數據接入、處理、可視化展示、交互分析到決策行動的BI數據分析全鏈路中,AI大語言模型都有結合的機會。讓我們從產品經理的視角來粗略地考慮:
支付寶團隊在基于螞蟻集團基礎大模型開發研制數據分析智能助理 Deepinsight copilot的過程中,比較系統化地梳理了結合大模型的數據分析智能助理功能需求,劃分了不同的智能化等級,非常值得我們參考和學習:
注:
AI+BI的融合為商業智能領域帶來了前所未有的機遇,通過大語言模型的應用,可以極大地提升數據分析的效率、深度和準確性,同時改善用戶體驗。
作為AI產品經理,理解并把握AI技術在BI產品中的應用,不僅需要技術和業務的深入理解,還需要持續的創新和優化。通過有效地結合AI和BI,我們可以更好地解鎖數據的潛力,支持數據驅動的決策,推動企業的智能化轉型。
參考資料:
文章來源:微信公眾號@AI產品經理研習與實踐,作者:AIMatrixLing