鍵.png)
使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API
Data-centric Artificial Intelligence(DCAI)可以概括為數(shù)據(jù)工程,主要探索如何高效地構(gòu)建高質(zhì)量、大規(guī)模的數(shù)據(jù)集。顯而易見,數(shù)據(jù)工程并不是一個(gè)新概念,而是一個(gè)“被冷落”的舊概念。傳統(tǒng)的機(jī)器學(xué)習(xí)開發(fā)流程可以歸為下圖的流程:
我們可以簡單將機(jī)器學(xué)習(xí)開發(fā)劃為3個(gè)方面的主要工作:
現(xiàn)在普遍的,AI以模型為中心(Model-centric),對于機(jī)器學(xué)習(xí)的開發(fā)者,數(shù)據(jù)樣本很經(jīng)常是固定的,特征工程及模型優(yōu)化是重中之重,從見效、技術(shù)亮點(diǎn)都是妥妥的主角。而數(shù)據(jù)工程(或稱為Data-centric)的工作經(jīng)常是臟活累活,對模型的重要性經(jīng)常被忽視,相關(guān)的技術(shù)發(fā)展也比較少。
可能是隨著深度學(xué)習(xí)端對端學(xué)習(xí)弱化了對特征工程的依賴,以及越來崇尚的大模型的暴力美學(xué),數(shù)據(jù)對模型效果也得到更多的重視了,畢竟Garbage in, garbage out!
過去,人工智能主要關(guān)注設(shè)計(jì)模型,但這種方法過度依賴固定數(shù)據(jù)集,難以實(shí)現(xiàn)更好的模型行為。現(xiàn)在,人們更加注重提高數(shù)據(jù)的質(zhì)量和數(shù)量,同時(shí)保持模型的相對固定。這種轉(zhuǎn)變已經(jīng)取得了一些成功,例如大型語言模型的進(jìn)步和ChatGPT等應(yīng)用。以數(shù)據(jù)為中心的方法具有許多優(yōu)點(diǎn),包括提高準(zhǔn)確性、縮短開發(fā)時(shí)間、增強(qiáng)方法和一致性以及提高可擴(kuò)展性。此外,以數(shù)據(jù)為中心的人工智能并沒有降低以模型為中心的人工智能的價(jià)值,這兩種范式是互補(bǔ)交織的,可以相互促進(jìn)發(fā)展。在生產(chǎn)環(huán)境中,數(shù)據(jù)和模型往往在一個(gè)不斷變化的環(huán)境中交替發(fā)展。
我們將以數(shù)據(jù)為中心的人工智能分為三個(gè)目標(biāo):訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護(hù)。
訓(xùn)練數(shù)據(jù)為機(jī)器學(xué)習(xí)模型提供了基礎(chǔ),因?yàn)槟P托阅茉诤艽蟪潭壬鲜芷滟|(zhì)量和數(shù)量的影響。訓(xùn)練數(shù)據(jù)開發(fā)的目的是收集和生成豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)來支持機(jī)器學(xué)習(xí)模型的訓(xùn)練,包括五個(gè)子目標(biāo),分別為:1)數(shù)據(jù)收集,2)數(shù)據(jù)標(biāo)注,3)數(shù)據(jù)準(zhǔn)備,4)數(shù)據(jù)縮減,5)數(shù)據(jù)增強(qiáng)。最后我們將討論管道搜索,這是一種新興趨勢,旨在連接這些步驟并搜索最有效的端到端解決方案。
創(chuàng)建和處理訓(xùn)練數(shù)據(jù)的基本步驟,如圖4所示。
圖4 訓(xùn)練數(shù)據(jù)開發(fā)通用流程概覽
表2總結(jié)了訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法。
表2 訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法
3.1.1 數(shù)據(jù)收集
數(shù)據(jù)收集是從各種來源收集和獲取數(shù)據(jù)的過程,從根本上決定了數(shù)據(jù)的質(zhì)量和數(shù)量。這個(gè)過程嚴(yán)重依賴于領(lǐng)域知識。隨著數(shù)據(jù)可用性的增加,高效利用現(xiàn)有數(shù)據(jù)集的策略的發(fā)展出現(xiàn)了激增。
領(lǐng)域知識的作用。深入了解應(yīng)用領(lǐng)域或行業(yè)對于收集相關(guān)和代表性數(shù)據(jù)至關(guān)重要。在構(gòu)建推薦系統(tǒng)時(shí),需要根據(jù)應(yīng)用領(lǐng)域決定收集哪些用戶/項(xiàng)目特征。領(lǐng)域知識有助于使數(shù)據(jù)與利益相關(guān)者的意圖保持一致,并確保數(shù)據(jù)的相關(guān)性和代表性。
高效的數(shù)據(jù)收集策略。高效數(shù)據(jù)收集策略包括利用現(xiàn)有數(shù)據(jù),通過發(fā)現(xiàn)、集成和合成的方法,提高數(shù)據(jù)收集效率。與傳統(tǒng)的手動(dòng)收集方法相比,這些方法更省時(shí)。數(shù)據(jù)集發(fā)現(xiàn)通過匯集現(xiàn)有數(shù)據(jù)集,根據(jù)人類查詢識別相關(guān)和有用的數(shù)據(jù)集。數(shù)據(jù)集成將不同來源的數(shù)據(jù)集整合成一個(gè)統(tǒng)一的數(shù)據(jù)集。原始數(shù)據(jù)合成通過合成包含所需模式的數(shù)據(jù)集,例如在異常檢測場景中,合成異常模式以提高數(shù)據(jù)收集效率。這些策略有助于提高數(shù)據(jù)收集效率,減少人工工作量。
挑戰(zhàn)。數(shù)據(jù)收集工作面臨著諸多嚴(yán)峻的挑戰(zhàn),包括數(shù)據(jù)集的多樣性、對齊的困難、合成數(shù)據(jù)所需的領(lǐng)域知識,以及法律、倫理和物流方面的限制。從零開始收集數(shù)據(jù)可能會遇到知情同意、數(shù)據(jù)隱私和數(shù)據(jù)安全等問題所帶來的阻礙。因此,研究人員和實(shí)踐者必須充分了解并認(rèn)真對待這些挑戰(zhàn)。
3.1.2 數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是將一個(gè)或多個(gè)描述性標(biāo)簽或標(biāo)記分配給數(shù)據(jù)集的過程,使算法能夠從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測。傳統(tǒng)上,這是一個(gè)耗時(shí)且資源密集的手動(dòng)過程,特別是對于大型數(shù)據(jù)集。最近,提出了更有效的標(biāo)注方法來減少人力。
數(shù)據(jù)標(biāo)注的必要性。數(shù)據(jù)標(biāo)注在訓(xùn)練模型以準(zhǔn)確反映人類意圖方面至關(guān)重要。無監(jiān)督學(xué)習(xí)技術(shù)在部分領(lǐng)域取得了成功,但為了獲得更好的性能,通常仍需使用人類標(biāo)簽來微調(diào)大型語言模型和異常檢測器。因此,標(biāo)注數(shù)據(jù)對于教導(dǎo)模型與人類對齊和表現(xiàn)至關(guān)重要。
高效的標(biāo)注策略。高效標(biāo)注策略包括眾包標(biāo)注、半監(jiān)督標(biāo)注、主動(dòng)學(xué)習(xí)、數(shù)據(jù)編程和遠(yuǎn)程監(jiān)督。眾包標(biāo)注將任務(wù)分解給大量非專業(yè)注釋者,通過迭代完善任務(wù)設(shè)計(jì)、要求多個(gè)工作人員注釋相同樣本并推斷共識標(biāo)簽、或利用算法提高標(biāo)簽質(zhì)量來提高效率。半監(jiān)督學(xué)習(xí)利用少量帶標(biāo)簽的數(shù)據(jù)來推斷未標(biāo)注數(shù)據(jù)的標(biāo)簽,如自訓(xùn)練、訓(xùn)練多個(gè)分類器并找到共識標(biāo)簽、基于圖的半監(jiān)督學(xué)習(xí)標(biāo)注技術(shù)或基于人類反饋的強(qiáng)化學(xué)習(xí)過程。主動(dòng)學(xué)習(xí)是一種迭代式標(biāo)注過程,需要人類不斷提供信息以自適應(yīng)地選擇查詢。數(shù)據(jù)編程是一種基于人類設(shè)計(jì)標(biāo)注函數(shù)的弱監(jiān)督方法,通常需要最少的人類參與。遠(yuǎn)程監(jiān)管通過利用外部資源來分配標(biāo)簽,如關(guān)系提取。這些策略可以組合為混合策略,以提高標(biāo)注效率。
挑戰(zhàn)。數(shù)據(jù)標(biāo)注面臨的主要挑戰(zhàn)包括如何在標(biāo)注質(zhì)量、數(shù)量和經(jīng)濟(jì)成本之間找到平衡,以及如何應(yīng)對標(biāo)注的主觀性和倫理問題。當(dāng)預(yù)算緊張時(shí),需要采取更高效的標(biāo)注策略,并利用領(lǐng)域知識來平衡人力和標(biāo)注質(zhì)量/數(shù)量。此外,設(shè)計(jì)者需要確保指示清晰,以避免注釋者誤解,導(dǎo)致標(biāo)注噪音。最后,數(shù)據(jù)隱私和偏見等倫理問題在標(biāo)注任務(wù)分發(fā)給大量人群時(shí)尤為突出。
3.1.3 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備涉及清理和轉(zhuǎn)換原始數(shù)據(jù),以適應(yīng)模型訓(xùn)練的格式。通常,這個(gè)過程需要大量的工程工作,需要繁瑣的試錯(cuò)。為了實(shí)現(xiàn)這個(gè)過程的自動(dòng)化,最先進(jìn)的方法通常采用搜索算法來發(fā)現(xiàn)最有效的策略。
數(shù)據(jù)準(zhǔn)備的必要性。原始數(shù)據(jù)通常不適合模型訓(xùn)練,需要清理和轉(zhuǎn)換。數(shù)據(jù)準(zhǔn)備占數(shù)據(jù)科學(xué)家工作的約80%,因?yàn)樵紨?shù)據(jù)可能存在噪聲、不一致性和無關(guān)信息,導(dǎo)致模型結(jié)果不準(zhǔn)確和有偏。此外,敏感信息可能引入偏見,原始特征值也可能影響模型性能。
代表性方法。數(shù)據(jù)清理、特征提取和特征轉(zhuǎn)換。數(shù)據(jù)清理包括識別和糾正數(shù)據(jù)集中的錯(cuò)誤、不一致和不準(zhǔn)確,包括傳統(tǒng)編程方法和基于學(xué)習(xí)的方法。傳統(tǒng)方法使用編程自動(dòng)化,但基于學(xué)習(xí)的方法如訓(xùn)練回歸模型預(yù)測缺失值、通過抽樣估計(jì)重復(fù)項(xiàng)和糾正標(biāo)簽錯(cuò)誤,提高了準(zhǔn)確性和效率。當(dāng)代數(shù)據(jù)清理方法關(guān)注提高最終模型性能,例如采用搜索算法自動(dòng)識別最佳清理策略。特征提取是從原始數(shù)據(jù)中提取相關(guān)特征的重要步驟,包括深度學(xué)習(xí)和傳統(tǒng)方法。深度學(xué)習(xí)通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重來自動(dòng)提取特征,需要較少的領(lǐng)域知識。特征變換是指將原始特征轉(zhuǎn)換為新特征集的過程,通常可以提高模型性能,如歸一化、標(biāo)準(zhǔn)化、對數(shù)變換和多項(xiàng)式變換等。這些方法可以以不同的方式組合以改善模型性能。
挑戰(zhàn)。清洗和轉(zhuǎn)換數(shù)據(jù)是一項(xiàng)挑戰(zhàn),因?yàn)椴煌瑪?shù)據(jù)集的特性各異。即使數(shù)據(jù)類型相同,特征值和潛在問題也可能非常多樣化。研究人員和數(shù)據(jù)科學(xué)家需要投入大量時(shí)間和精力來清洗數(shù)據(jù)。雖然基于學(xué)習(xí)的方法可以自動(dòng)搜索最佳準(zhǔn)備策略,但設(shè)計(jì)適當(dāng)?shù)乃阉骺臻g仍然困難,且搜索過程耗時(shí)。
3.1.4 數(shù)據(jù)縮減
數(shù)據(jù)縮減的目標(biāo)是在保留其基本信息的同時(shí)降低給定數(shù)據(jù)集的復(fù)雜性。這通常可以通過降低特征大小或樣本大小來實(shí)現(xiàn)。
數(shù)據(jù)縮減的必要性。數(shù)據(jù)縮減在提高訓(xùn)練效率方面至關(guān)重要,可減少樣本數(shù)量和特征大小,緩解內(nèi)存和計(jì)算約束,以及數(shù)據(jù)不平衡問題。壓縮特征可降低過擬合風(fēng)險(xiǎn),提高模型部署速度和可解釋性。總體而言,數(shù)據(jù)縮減技術(shù)有助于提高模型準(zhǔn)確性、效率和可解釋性。
減少特征規(guī)模的方法。從特征的角度,可以進(jìn)行特征選擇和降維。特征選擇是從一組特征中選擇與預(yù)期任務(wù)最相關(guān)的子集的過程,分為過濾、包裝和嵌入式方法。主動(dòng)特征選擇還考慮了人類知識,逐步選擇最合適的特征。特征選擇降低了復(fù)雜性,產(chǎn)生更清潔和更易理解的數(shù)據(jù),同時(shí)保留了特征的語義。降維是將高維特征轉(zhuǎn)化為低維空間的過程,旨在保留最具代表性的信息。方法包括線性和非線性技術(shù)。
減少樣本量的方法。實(shí)例選擇是減少樣本量或平衡數(shù)據(jù)分布的常用方法,可分為包裝和過濾兩種方法。實(shí)例選擇技術(shù)還可通過欠采樣多數(shù)類來緩解數(shù)據(jù)不平衡問題,如隨機(jī)欠采樣。強(qiáng)化學(xué)習(xí)也被用于學(xué)習(xí)最佳欠采樣策略。
挑戰(zhàn)。數(shù)據(jù)縮減面臨兩大挑戰(zhàn):一是選擇最具代表性或低維空間中的最小信息損失數(shù)據(jù)不易;二是可能放大數(shù)據(jù)偏差,引發(fā)公平性問題。盡管基于學(xué)習(xí)的方法可部分解決,但處理大數(shù)據(jù)集時(shí)需大量計(jì)算資源。實(shí)現(xiàn)高準(zhǔn)確率和效率的雙重目標(biāo)具挑戰(zhàn)性,公平性感知的數(shù)據(jù)縮減是重要但未充分探索的研究方向。
3.1.5 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是通過人為地創(chuàng)建現(xiàn)有數(shù)據(jù)的變體來增加數(shù)據(jù)的大小和多樣性的技術(shù),這通常可以提高模型性能。值得注意的是,盡管數(shù)據(jù)增強(qiáng)和數(shù)據(jù)縮減似乎具有相互矛盾的目標(biāo),但它們可以相互結(jié)合使用。數(shù)據(jù)縮減的重點(diǎn)是消除冗余信息,而數(shù)據(jù)增強(qiáng)的目的是增強(qiáng)數(shù)據(jù)的多樣性。
數(shù)據(jù)增強(qiáng)的必要性。現(xiàn)代機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),需要大量數(shù)據(jù)才能學(xué)習(xí)。收集大型數(shù)據(jù)集,尤其是帶注釋的數(shù)據(jù)集,耗時(shí)費(fèi)力。數(shù)據(jù)增強(qiáng)通過生成變異的類似數(shù)據(jù)點(diǎn),使模型暴露于更多訓(xùn)練示例中,提高準(zhǔn)確度、泛化能力和魯棒性,尤其在可用數(shù)據(jù)有限的應(yīng)用中。數(shù)據(jù)增強(qiáng)還可緩解類不平衡問題。
常見的增強(qiáng)方法。數(shù)據(jù)增強(qiáng)方法分為基礎(chǔ)操作和合成數(shù)據(jù)增強(qiáng)。基礎(chǔ)操作通過修改原始數(shù)據(jù)生成新樣本,如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和模糊,以及使用Mixup和AutoAugment等方法。合成數(shù)據(jù)增強(qiáng)通過生成模型學(xué)習(xí)數(shù)據(jù)分布,如GAN、變分自編碼器和擴(kuò)散模型,以生成新的訓(xùn)練樣本。這些方法有助于提高模型的泛化能力和性能。
類別不均衡。類別不平衡是機(jī)器學(xué)習(xí)的挑戰(zhàn),多數(shù)類別樣本數(shù)量遠(yuǎn)超少數(shù)類別。數(shù)據(jù)增強(qiáng)技術(shù)如SMOTE和ADASYN可平衡數(shù)據(jù)分布,通過生成合成樣本增加少數(shù)類別樣本數(shù)量。AutoSMOTE是強(qiáng)化學(xué)習(xí)算法,可搜索最佳過采樣策略。
挑戰(zhàn)。數(shù)據(jù)增強(qiáng)的關(guān)鍵挑戰(zhàn)在于沒有一種策略適用于所有場景,不同數(shù)據(jù)類型可能需要不同策略。例如,圖數(shù)據(jù)無法直接應(yīng)用普通Mixup策略。即使數(shù)據(jù)類型相同,最優(yōu)策略也可能不同。基于搜索的算法可以識別最佳策略,但會增加計(jì)算和存儲成本。需要更有效和高效的技術(shù)來克服這些挑戰(zhàn)。
3.1.6 數(shù)據(jù)管道
現(xiàn)實(shí)世界中的數(shù)據(jù)管道通常包含多個(gè)步驟,每個(gè)步驟對應(yīng)不同的子目標(biāo)。盡管在單個(gè)任務(wù)方面取得了進(jìn)展,但整個(gè)管道作為一個(gè)整體運(yùn)行,不同步驟之間可能存在交互。管道搜索是一種自動(dòng)搜索最佳組合的方法,如AutoSklearn、D3M、AlphaD3M、Deepline和ClusterP3S等算法。然而,管道搜索面臨計(jì)算開銷大的挑戰(zhàn),需要更有效的搜索策略,以使其在現(xiàn)實(shí)場景中得到更廣泛的應(yīng)用。
在評估人工智能系統(tǒng)時(shí),除了性能指標(biāo),還需要考慮模型的穩(wěn)健性、泛化性和決策制定的理由。推理數(shù)據(jù)開發(fā)的目標(biāo)是創(chuàng)建新穎的評價(jià)集,以便更精細(xì)地了解模型或通過工程數(shù)據(jù)輸入觸發(fā)模型的特定功能。這項(xiàng)工作有三個(gè)子目標(biāo):1)分布內(nèi)評估,2)分布外評估,3)提示工程。推理數(shù)據(jù)開發(fā)的任務(wù)相對開放,因?yàn)樗鼈兺ǔV荚谠u估或解鎖模型的多種功能,如圖5所示。表3中總結(jié)了相關(guān)任務(wù)和方法。
圖5 推理數(shù)據(jù)開發(fā)概覽
表3 推理數(shù)據(jù)開發(fā)相關(guān)的任務(wù)和方法
3.2.1 分布內(nèi)評估
分布內(nèi)評估數(shù)據(jù)構(gòu)建的目的是生成符合訓(xùn)練數(shù)據(jù)的樣本。
分布內(nèi)評估的必要性。分布內(nèi)評估是評估訓(xùn)練模型質(zhì)量的直接方法,需要更精細(xì)的評估以避免偏差和錯(cuò)誤。這包括識別和校準(zhǔn)未被充分代表的子群體,以及在部署前理解決策邊界和檢查模型倫理,特別是在高風(fēng)險(xiǎn)應(yīng)用中。
數(shù)據(jù)切片。數(shù)據(jù)切片是將數(shù)據(jù)集劃分為相關(guān)亞人群,分別評估模型在每個(gè)亞人群上的性能。常見的切片方法包括使用預(yù)定義的標(biāo)準(zhǔn),如年齡、性別或種族。實(shí)際應(yīng)用中的數(shù)據(jù)可能很復(fù)雜,需要適當(dāng)設(shè)計(jì)分區(qū)標(biāo)準(zhǔn)。為了減少人力投入,人們開發(fā)了自動(dòng)切片方法,如SliceFinder、SliceLine、GEORGE和Multiaccuracy,這些方法可以識別出重要的數(shù)據(jù)切片,提高模型性能。
算法追索權(quán)。算法追索權(quán)是一種通過生成假設(shè)樣本來翻轉(zhuǎn)模型決策以獲得更優(yōu)結(jié)果的方法。它對于理解決策邊界和檢測個(gè)體之間的潛在偏見非常有價(jià)值。現(xiàn)有方法主要分為白盒和黑盒兩種,白盒方法需要訪問評估模型,黑盒方法不需要訪問模型。由于推理的目標(biāo)標(biāo)簽通常由人類輸入,這些方法都要求最小限度的人類參與。
挑戰(zhàn)。構(gòu)建分布式評估集的主要挑戰(zhàn)在于識別目標(biāo)樣本,特別是在數(shù)據(jù)切片的情況下,隨著數(shù)據(jù)點(diǎn)的增加,可能的數(shù)據(jù)子集數(shù)量呈指數(shù)級增長。同時(shí),在可用信息有限的情況下,確定最接近的資源也需要付出巨大努力。
3.2.2 分布外評估
分布外評估數(shù)據(jù)是指一組樣本遵循與訓(xùn)練數(shù)據(jù)中觀察到的分布不同的分布的。
分布外評估的必要性。現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在實(shí)際部署中,數(shù)據(jù)分布可能不同。分布外評估主要評估模型在數(shù)據(jù)分布不同的情況下的泛化能力,發(fā)現(xiàn)模型的遷移性,增強(qiáng)其在意外情況下的表現(xiàn)信心,并提供關(guān)于模型魯棒性的重要見解。這有助于確定模型是否適合實(shí)際部署。
生成對抗式樣本。對抗樣本是故意修改的輸入數(shù)據(jù),導(dǎo)致模型錯(cuò)誤預(yù)測。手動(dòng)擾動(dòng)包括添加噪聲和模糊等,自動(dòng)化方法有四類:白盒攻擊、物理世界攻擊、黑盒攻擊和中毒攻擊。評估對抗樣本有助于理解模型的魯棒性,避免不良后果。
生成具有分布偏移的樣本。生成具有分布偏移的樣本用于在不同分布上評估模型。數(shù)據(jù)收集和構(gòu)建評估集是兩種方法。合成分布變化包括協(xié)變量偏移、標(biāo)簽偏移和一般分布偏移。有偏數(shù)據(jù)采樣和基于學(xué)習(xí)的方法可用于生成具有分布偏移的樣本,以評估模型的遷移能力。
挑戰(zhàn)。生成分布外樣本面臨兩個(gè)挑戰(zhàn):生成高質(zhì)量的樣本和評估樣本質(zhì)量。生成模型可能受限于訓(xùn)練數(shù)據(jù)不具代表性,或遇到模式崩潰問題。評估樣本質(zhì)量困難,因?yàn)槌S枚攘繕?biāo)準(zhǔn)可能不適用。已有多種評估指標(biāo)被提出。創(chuàng)建高質(zhì)量的分布外數(shù)據(jù)是一項(xiàng)復(fù)雜而艱巨的任務(wù),需要精心設(shè)計(jì)。
3.2.3??提示工程
隨著大型語言模型的出現(xiàn),通過微調(diào)輸入來獲取知識并完成任務(wù)已成為可能。提示工程是一種新興任務(wù),旨在設(shè)計(jì)和構(gòu)建高質(zhì)量的提示,以實(shí)現(xiàn)最有效的性能。提示工程通過微調(diào)輸入數(shù)據(jù)而不是模型本身來改變傳統(tǒng)的工作流程。一種方法是通過創(chuàng)建模板進(jìn)行手動(dòng)提示工程,但可能不足以發(fā)現(xiàn)復(fù)雜任務(wù)的最佳提示。因此,已經(jīng)研究了自動(dòng)提示工程,包括從外部語料庫中挖掘模板和用種子提示進(jìn)行改述。提示工程的主要障礙在于缺乏一致表現(xiàn)良好的通用提示模板,不同的模板可能導(dǎo)致不同的結(jié)果。因此,有必要進(jìn)行進(jìn)一步的研究,以深入了解模型對提示的反應(yīng),并為提示設(shè)計(jì)過程提供指導(dǎo)。
在現(xiàn)實(shí)應(yīng)用中,數(shù)據(jù)并非一次生成,而是不斷更新的,需要進(jìn)行連續(xù)的維護(hù)。數(shù)據(jù)維護(hù)的目的是在動(dòng)態(tài)環(huán)境中確保數(shù)據(jù)的質(zhì)量和可靠性。它涉及三個(gè)基本子目標(biāo):1)數(shù)據(jù)理解,旨在提供復(fù)雜數(shù)據(jù)的可視化和評估,使人類能夠獲得有價(jià)值的見解;2)數(shù)據(jù)質(zhì)量保證,旨在制定定量測量和質(zhì)量改進(jìn)策略來監(jiān)控和修復(fù)數(shù)據(jù);3)數(shù)據(jù)存儲和檢索,旨在設(shè)計(jì)高效的算法,通過合理分配資源和高效率處理查詢來提供所需的數(shù)據(jù)。數(shù)據(jù)維護(hù)在以數(shù)據(jù)為中心的人工智能框架中起著基礎(chǔ)和支持作用,確保訓(xùn)練和推斷中的數(shù)據(jù)準(zhǔn)確可靠。本節(jié)概述了對數(shù)據(jù)維護(hù)的需求、代表性方法(如圖6所示)和挑戰(zhàn)。如圖6所示。表4總結(jié)了相關(guān)任務(wù)和方法。
圖6 數(shù)據(jù)維護(hù)概覽
表4 數(shù)據(jù)維護(hù)相關(guān)的任務(wù)和方法
3.3.1 數(shù)據(jù)理解
為了確保正確的維護(hù),首先必須了解數(shù)據(jù)。
數(shù)據(jù)理解技術(shù)的必要性。現(xiàn)實(shí)世界數(shù)據(jù)量大且復(fù)雜,人類難以理解和分析。數(shù)據(jù)理解技術(shù)至關(guān)重要原因有三:1)總結(jié)和簡化數(shù)據(jù),使其更易于管理;2)將高維數(shù)據(jù)可視化,以適應(yīng)人類感知;3)了解數(shù)據(jù)資產(chǎn)的價(jià)值,以及每個(gè)數(shù)據(jù)樣本對性能的貢獻(xiàn)。
數(shù)據(jù)可視化。數(shù)據(jù)可視化利用人類對圖形的偏好,幫助理解復(fù)雜數(shù)據(jù)。可視化總結(jié)、可視化聚類和可視化推薦。可視化總結(jié)通過圖表濃縮原始數(shù)據(jù),幫助人們洞察數(shù)據(jù)。選擇合適的可視化格式是關(guān)鍵,徑向圖和線性圖是常見格式,但選擇需權(quán)衡數(shù)據(jù)表示的忠實(shí)性和易用性。可視化聚類通過降維和自動(dòng)聚類方法將高維數(shù)據(jù)可視化。可視化推薦系統(tǒng)根據(jù)預(yù)定義規(guī)則或機(jī)器學(xué)習(xí)技術(shù),為用戶推薦最合適的可視化格式。協(xié)作可視化技術(shù)使用戶能提供反饋,實(shí)現(xiàn)更自適應(yīng)的用戶體驗(yàn)。
數(shù)據(jù)評估。數(shù)據(jù)評估旨在了解數(shù)據(jù)點(diǎn)如何影響最終性能,為利益相關(guān)者提供寶貴見解,并有助于數(shù)據(jù)市場交易。研究人員通過估計(jì)數(shù)據(jù)點(diǎn)的Shapley值來分配權(quán)重,增強(qiáng)其在多個(gè)數(shù)據(jù)集和模型中的魯棒性。由于計(jì)算Shapley值可能非常昂貴,上述方法采用基于學(xué)習(xí)算法進(jìn)行高效估算。
挑戰(zhàn)。兩個(gè)主要挑戰(zhàn):一是選擇最佳數(shù)據(jù)可視化格式和算法,如聚類算法,需人類輸入,增加復(fù)雜性;二是開發(fā)高效的數(shù)據(jù)估價(jià)算法,如計(jì)算Shapley值,計(jì)算成本高,且Shapley值可能僅提供有限的數(shù)據(jù)價(jià)值角度。
3.3.2 數(shù)據(jù)質(zhì)量保證
為了確保可靠的數(shù)據(jù)供應(yīng),維護(hù)數(shù)據(jù)質(zhì)量至關(guān)重要。
數(shù)據(jù)質(zhì)量保證的必要性。在動(dòng)態(tài)環(huán)境中,持續(xù)監(jiān)控并改進(jìn)數(shù)據(jù)質(zhì)量至關(guān)重要。實(shí)際應(yīng)用中的數(shù)據(jù)可能包含異常數(shù)據(jù)點(diǎn),因此需要建立定量測量來評估數(shù)據(jù)質(zhì)量。如果模型受到低質(zhì)量數(shù)據(jù)的影響,應(yīng)實(shí)施質(zhì)量改進(jìn)策略以提高數(shù)據(jù)質(zhì)量,進(jìn)而提高模型性能。
質(zhì)量評估。質(zhì)量評估包括客觀和主觀評估。客觀評估使用數(shù)據(jù)固有屬性,如準(zhǔn)確性、時(shí)效性、一致性和完整性,來衡量數(shù)據(jù)質(zhì)量,僅需要最小限度的人為參與。主觀評估則從人的角度評估數(shù)據(jù)質(zhì)量,通常針對特定應(yīng)用,需要外部專家進(jìn)行分析,包括可信度、可理解度和可訪問性等指標(biāo),通常通過用戶研究和問卷調(diào)查進(jìn)行評估。雖然主觀評估可能不會直接有益于模型訓(xùn)練,但它們可以促進(jìn)組織內(nèi)部的輕松協(xié)作,并提供長期利益。
質(zhì)量改進(jìn)。質(zhì)量改進(jìn)策略包括制定戰(zhàn)略以提高數(shù)據(jù)管道各階段的數(shù)據(jù)質(zhì)量。初始方法使用程序化自動(dòng)化,如完整性約束、拒絕約束和條件函數(shù)依賴,強(qiáng)制執(zhí)行質(zhì)量約束。基于機(jī)器學(xué)習(xí)的自動(dòng)化方法被開發(fā)以提高數(shù)據(jù)質(zhì)量,如數(shù)據(jù)驗(yàn)證模塊使用訓(xùn)練集訓(xùn)練模型以識別潛在問題。管道自動(dòng)化方法也被開發(fā)用于系統(tǒng)地策劃數(shù)據(jù),如數(shù)據(jù)集成和數(shù)據(jù)清理。協(xié)作方法鼓勵(lì)專業(yè)人士參與數(shù)據(jù)改進(jìn),如自動(dòng)駕駛和視頻內(nèi)容審查中的標(biāo)注數(shù)據(jù)。UniProt創(chuàng)建了提交系統(tǒng)來利用集體智慧改進(jìn)數(shù)據(jù)。所有方法都需要部分人的參與,因?yàn)槿祟惐仨毺峁┬畔ⅰ?/p>
挑戰(zhàn)。數(shù)據(jù)質(zhì)量面臨兩個(gè)挑戰(zhàn):選擇合適的評估指標(biāo)和實(shí)施質(zhì)量改進(jìn)。單一指標(biāo)可能不足以應(yīng)對不斷變化的環(huán)境,需要仔細(xì)考慮。盡管自動(dòng)化是關(guān)鍵,但人工參與可能也是必要的。因此,必須仔細(xì)設(shè)計(jì)評估指標(biāo)和改進(jìn)策略。
3.3.3 數(shù)據(jù)存儲和檢索
數(shù)據(jù)存儲和檢索系統(tǒng)在為構(gòu)建AI系統(tǒng)提供必要數(shù)據(jù)方面發(fā)揮著不可或缺的作用。為了加快數(shù)據(jù)獲取的過程,已經(jīng)提出了各種有效的策略。
數(shù)據(jù)存儲與檢索的必要性。隨著數(shù)據(jù)量指數(shù)增長,強(qiáng)大的可擴(kuò)展數(shù)據(jù)管理系統(tǒng)對于支持AI模型訓(xùn)練至關(guān)重要。這包括:1)存儲和合并來自不同來源的數(shù)據(jù),需要仔細(xì)管理內(nèi)存和計(jì)算資源;2)設(shè)計(jì)快速獲取數(shù)據(jù)的查詢策略以確保數(shù)據(jù)的及時(shí)和準(zhǔn)確處理。
資源分配。資源分配是優(yōu)化數(shù)據(jù)管理系統(tǒng)的關(guān)鍵。吞吐量和延遲是重要指標(biāo),可通過參數(shù)調(diào)優(yōu)技術(shù)進(jìn)行優(yōu)化。早期的調(diào)優(yōu)方法依賴經(jīng)驗(yàn)和行業(yè)最佳實(shí)踐,而基于學(xué)習(xí)的策略如Starfish和OtterTune可自動(dòng)選擇參數(shù),提高資源分配的靈活性。
查詢加速。可以通過高效索引選擇和查詢重寫策略來實(shí)現(xiàn)。查詢索引選擇的目標(biāo)是減少磁盤訪問次數(shù)。策略是創(chuàng)建索引方案并記錄查詢執(zhí)行成本,然后使用貪婪算法或動(dòng)態(tài)規(guī)劃選擇策略。基于學(xué)習(xí)的自動(dòng)化策略從人類專家那里收集索引數(shù)據(jù),并訓(xùn)練機(jī)器學(xué)習(xí)模型來預(yù)測適當(dāng)?shù)乃饕呗裕蛘呤褂脧?qiáng)化學(xué)習(xí)來搜索最佳策略。查詢重寫旨在通過識別輸入查詢中的重復(fù)子查詢來減少工作負(fù)載。基于規(guī)則的策略使用預(yù)定義規(guī)則重寫查詢,例如DBridge。基于學(xué)習(xí)的方法使用監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)來預(yù)測查詢重寫規(guī)則。
挑戰(zhàn)。現(xiàn)有數(shù)據(jù)存儲和檢索方法主要優(yōu)化特定部分,如資源分配和查詢加速。然而,整個(gè)數(shù)據(jù)管理系統(tǒng)復(fù)雜,需處理各種格式和結(jié)構(gòu)的大量數(shù)據(jù),端到端優(yōu)化具挑戰(zhàn)性。此外,數(shù)據(jù)存儲和檢索還需考慮數(shù)據(jù)訪問控制和系統(tǒng)維護(hù)等關(guān)鍵方面。
以數(shù)據(jù)為中心的人工智能涉及數(shù)據(jù)生命周期各階段的任務(wù),根據(jù)是否需要人類參與分為自動(dòng)化和協(xié)作兩大類。每種方法都有不同的自動(dòng)化程度或需要不同程度的人類參與,如圖7所示。自動(dòng)化任務(wù)涉及編程自動(dòng)化、基于學(xué)習(xí)的自動(dòng)化和流水線自動(dòng)化,以提高效率和準(zhǔn)確性。協(xié)作任務(wù)需要不同程度的人工參與,包括完全參與、部分參與和最低參與。這種分類有助于理解不同方法如何應(yīng)用于不同的以數(shù)據(jù)為中心的目標(biāo),并實(shí)現(xiàn)效率和效果的權(quán)衡。
本文章轉(zhuǎn)載微信公眾號@算法進(jìn)階