Table-GPT模型是微軟針對(duì)大型語(yǔ)言模型(LLM)在表格任務(wù)中的表現(xiàn)進(jìn)行優(yōu)化的結(jié)果。該模型通過(guò)更好地理解輸入中的表格數(shù)據(jù),提高了對(duì)表格相關(guān)問題的響應(yīng)準(zhǔn)確性。這對(duì)于需要處理大量表格數(shù)據(jù)的用戶來(lái)說(shuō)是一個(gè)巨大的進(jìn)步,因?yàn)樗馕吨梢愿鼫?zhǔn)確地從表格中提取信息,并生成準(zhǔn)確的響應(yīng)。

當(dāng)前LLM對(duì)表格的理解能力

表格數(shù)據(jù)的挑戰(zhàn)

大型語(yǔ)言模型大多是在自然語(yǔ)言文本和代碼上進(jìn)行預(yù)訓(xùn)練的,這些數(shù)據(jù)與表格數(shù)據(jù)有著本質(zhì)的不同。表格數(shù)據(jù)的二維特性使其在理解和回答相關(guān)問題時(shí),需要模型具備垂直閱讀的能力。然而,目前的LLM在處理表格數(shù)據(jù)時(shí),往往更擅長(zhǎng)水平推理而不是垂直推理。

缺失值識(shí)別

缺失值識(shí)別示例
在缺失值識(shí)別任務(wù)中,模型需要識(shí)別并準(zhǔn)確地指出表格中缺失值所在的行和列。從示例中可以看出,盡管模型能夠識(shí)別出行,但在列的識(shí)別上卻存在錯(cuò)誤。

針對(duì)列的過(guò)濾

列過(guò)濾示例
在列過(guò)濾任務(wù)中,模型需要根據(jù)給定的值找到對(duì)應(yīng)的列。從示例中可以看出,模型的回答并不準(zhǔn)確,這表明模型在處理表格數(shù)據(jù)時(shí)存在一定的局限性。

表格問題解答

表格問題解答示例
在更復(fù)雜的表格問答任務(wù)中,模型需要根據(jù)表格數(shù)據(jù)回答問題。從示例中可以看出,模型在回答有關(guān)二年級(jí)學(xué)生美術(shù)成績(jī)的問題時(shí),給出了錯(cuò)誤的結(jié)果。

表調(diào)優(yōu):Table-Tuning的創(chuàng)新方法

表調(diào)優(yōu)的基本概念

表調(diào)優(yōu)(Table-Tuning)是一種新方法,它受到指令調(diào)優(yōu)的啟發(fā),并在大型語(yǔ)言模型中被證明是成功的。通過(guò)在表指令數(shù)據(jù)集上微調(diào)模型,可以創(chuàng)建出在表格任務(wù)上表現(xiàn)更好的模型版本。

表調(diào)優(yōu)的數(shù)據(jù)集創(chuàng)建

數(shù)據(jù)集創(chuàng)建流程
用于表調(diào)優(yōu)的數(shù)據(jù)集是通過(guò)合成增強(qiáng)的方法創(chuàng)建的。這種方法從大量真實(shí)的表格開始,通過(guò)自動(dòng)生成帶有指令、表格和響應(yīng)的三元組樣本,從而創(chuàng)建出一個(gè)多樣化的標(biāo)記數(shù)據(jù)集。

合成增強(qiáng)的步驟

合成步驟

在合成步驟中,從一組支持的任務(wù)中采樣一個(gè)真實(shí)的表格和一個(gè)任務(wù),創(chuàng)建新的樣本。生成的示例中的表不一定與輸入表相同,這為模型提供了更多的訓(xùn)練樣本。

增強(qiáng)步驟

在合成步驟之后,為了創(chuàng)建更多樣化的數(shù)據(jù)集,論文使用了三種類型的增強(qiáng):指令級(jí)增強(qiáng)、表級(jí)增強(qiáng)和標(biāo)簽級(jí)/響應(yīng)級(jí)增強(qiáng)。這些增強(qiáng)方法有助于提高模型的泛化能力,并確保數(shù)據(jù)的多樣性。

TableLLM:性能超越GPT-4的表格13B大語(yǔ)言模型

TableLLM的介紹

TableLLM是一款具備130億參數(shù)的大型語(yǔ)言模型,專為處理表格數(shù)據(jù)任務(wù)而生。它采用了一種創(chuàng)新的遠(yuǎn)程監(jiān)督訓(xùn)練法,結(jié)合推理擴(kuò)展策略,讓模型能更好地把握推理模式,并通過(guò)交叉驗(yàn)證確保數(shù)據(jù)生成的質(zhì)量。

TableLLM的架構(gòu)

TableLLM架構(gòu)圖
TableLLM的整體架構(gòu)包括構(gòu)建遠(yuǎn)程監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)和模型訓(xùn)練兩個(gè)部分。模型訓(xùn)練針對(duì)文檔嵌入的和電子表格嵌入的表格數(shù)據(jù)使用不同的提示,以適應(yīng)不同的應(yīng)用場(chǎng)景。

TableLLM的性能評(píng)估

性能評(píng)估結(jié)果
TableLLM在電子表格嵌入場(chǎng)景中普遍超越其他方法,在文檔嵌入場(chǎng)景中與GPT-3.5持平。這表明TableLLM在處理表格數(shù)據(jù)方面具有顯著優(yōu)勢(shì),尤其是在電子表格數(shù)據(jù)的應(yīng)用場(chǎng)景中。

FAQ

問:Table-GPT模型如何提高表格數(shù)據(jù)的理解能力?

答:Table-GPT模型通過(guò)表調(diào)優(yōu)(Table-Tuning)的方法,在表指令數(shù)據(jù)集上微調(diào)模型,使模型能夠更好地理解輸入中的表格數(shù)據(jù),并提高對(duì)表格相關(guān)問題的響應(yīng)準(zhǔn)確性。

問:表調(diào)優(yōu)的數(shù)據(jù)集是如何創(chuàng)建的?

答:表調(diào)優(yōu)的數(shù)據(jù)集是通過(guò)合成增強(qiáng)的方法創(chuàng)建的。首先從大量真實(shí)的表格開始,通過(guò)自動(dòng)生成帶有指令、表格和響應(yīng)的三元組樣本,從而創(chuàng)建出一個(gè)多樣化的標(biāo)記數(shù)據(jù)集。

問:TableLLM模型的主要優(yōu)勢(shì)是什么?

答:TableLLM模型的主要優(yōu)勢(shì)在于其專門針對(duì)表格數(shù)據(jù)任務(wù)設(shè)計(jì),能夠適應(yīng)各種實(shí)際辦公需求。它采用了遠(yuǎn)程監(jiān)督訓(xùn)練法和推理擴(kuò)展策略,通過(guò)交叉驗(yàn)證確保數(shù)據(jù)生成的質(zhì)量,從而在處理表格數(shù)據(jù)方面展現(xiàn)出顯著優(yōu)勢(shì)。

問:TableLLM模型在哪些場(chǎng)景中表現(xiàn)突出?

答:TableLLM模型在電子表格嵌入場(chǎng)景中普遍超越其他方法,在文檔嵌入場(chǎng)景中與GPT-3.5持平。這表明TableLLM在處理電子表格和文檔中的表格數(shù)據(jù)方面具有強(qiáng)大的性能。

結(jié)論

從數(shù)據(jù)整理到表格應(yīng)用,選擇合適的GPT模型對(duì)于提高工作效率和準(zhǔn)確性至關(guān)重要。Table-GPT模型和TableLLM模型的出現(xiàn),為處理表格數(shù)據(jù)提供了新的解決方案。它們通過(guò)優(yōu)化模型對(duì)表格數(shù)據(jù)的理解能力,使得從數(shù)據(jù)整理到表格應(yīng)用變得更加高效和準(zhǔn)確。隨著技術(shù)的不斷進(jìn)步,我們可以期待未來(lái)會(huì)有更多創(chuàng)新的模型和方法出現(xiàn),進(jìn)一步推動(dòng)表格數(shù)據(jù)處理的發(fā)展。

上一篇:

CIFAR-10數(shù)據(jù)集介紹

下一篇:

Pandas中的DataFrame中位數(shù)計(jì)算及應(yīng)用
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)