亚洲成人国产精品,伊人色综合久久大香,九九老司机在线视频精品

Data-centric Artificial Intelligence（DCAI）可以概括為數(shù)據(jù)工程，主要探索如何高效地構(gòu)建高質(zhì)量、大規(guī)模的數(shù)據(jù)集。顯而易見，數(shù)據(jù)工程并不是一個(gè)新概念，而是一個(gè)“被冷落”的舊概念。傳統(tǒng)的機(jī)器學(xué)習(xí)開發(fā)流程可以歸為下圖的流程：

我們可以簡單將機(jī)器學(xué)習(xí)開發(fā)劃為3個(gè)方面的主要工作：

數(shù)據(jù)工程：主要有數(shù)據(jù)清洗，數(shù)據(jù)轉(zhuǎn)換，樣本準(zhǔn)備，標(biāo)簽標(biāo)注，樣本選擇等。
特征工程：特征設(shè)計(jì)衍生，特征選擇等；
模型訓(xùn)練：模型選擇，模型結(jié)構(gòu)，調(diào)參，模型評估等；

現(xiàn)在普遍的，AI以模型為中心（Model-centric），對于機(jī)器學(xué)習(xí)的開發(fā)者，數(shù)據(jù)樣本很經(jīng)常是固定的，特征工程及模型優(yōu)化是重中之重，從見效、技術(shù)亮點(diǎn)都是妥妥的主角。而數(shù)據(jù)工程（或稱為Data-centric）的工作經(jīng)常是臟活累活，對模型的重要性經(jīng)常被忽視，相關(guān)的技術(shù)發(fā)展也比較少。

可能是隨著深度學(xué)習(xí)端對端學(xué)習(xí)弱化了對特征工程的依賴，以及越來崇尚的大模型的暴力美學(xué)，數(shù)據(jù)對模型效果也得到更多的重視了，畢竟Garbage in, garbage out！

1 Why DCAI ？

過去，人工智能主要關(guān)注設(shè)計(jì)模型，但這種方法過度依賴固定數(shù)據(jù)集，難以實(shí)現(xiàn)更好的模型行為。現(xiàn)在，人們更加注重提高數(shù)據(jù)的質(zhì)量和數(shù)量，同時(shí)保持模型的相對固定。這種轉(zhuǎn)變已經(jīng)取得了一些成功，例如大型語言模型的進(jìn)步和ChatGPT等應(yīng)用。以數(shù)據(jù)為中心的方法具有許多優(yōu)點(diǎn)，包括提高準(zhǔn)確性、縮短開發(fā)時(shí)間、增強(qiáng)方法和一致性以及提高可擴(kuò)展性。此外，以數(shù)據(jù)為中心的人工智能并沒有降低以模型為中心的人工智能的價(jià)值，這兩種范式是互補(bǔ)交織的，可以相互促進(jìn)發(fā)展。在生產(chǎn)環(huán)境中，數(shù)據(jù)和模型往往在一個(gè)不斷變化的環(huán)境中交替發(fā)展。

2 基本概念

Artificial Intelligence （AI）：人工智能是一個(gè)廣泛且跨學(xué)科的領(lǐng)域，它試圖使計(jì)算機(jī)具備人類智能以解決復(fù)雜任務(wù)。人工智能的主導(dǎo)技術(shù)是機(jī)器學(xué)習(xí)，它利用數(shù)據(jù)訓(xùn)練預(yù)測模型以完成某些任務(wù)。
Data：數(shù)據(jù)是一個(gè)非常普遍的概念，用于描述傳遞信息的值集合。在人工智能的上下文中，數(shù)據(jù)用于訓(xùn)練機(jī)器學(xué)習(xí)模型或作為模型輸入以進(jìn)行預(yù)測。數(shù)據(jù)可以以各種格式出現(xiàn)，例如表格數(shù)據(jù)、圖像、文本、音頻和視頻。
Training Data：訓(xùn)練數(shù)據(jù)是機(jī)器學(xué)習(xí)模型訓(xùn)練階段所使用的數(shù)據(jù)。模型利用訓(xùn)練數(shù)據(jù)來調(diào)整其參數(shù)并進(jìn)行預(yù)測。
Inference Data：推理數(shù)據(jù)是機(jī)器學(xué)習(xí)模型推理階段使用的數(shù)據(jù)。一方面，它可以評估訓(xùn)練后的模型性能。另一方面，調(diào)整推理數(shù)據(jù)可以幫助獲得期望的輸出，例如調(diào)整語言模型的提示。
Data Maintenance：數(shù)據(jù)維護(hù)是指維護(hù)數(shù)據(jù)質(zhì)量和可靠性的過程，通常涉及高效的算法、工具和基礎(chǔ)設(shè)施來理解和調(diào)試數(shù)據(jù)。數(shù)據(jù)維護(hù)在人工智能中起著至關(guān)重要的作用，因?yàn)樗_保訓(xùn)練和推理數(shù)據(jù)的準(zhǔn)確性和一致性。
Data-centric AI：以數(shù)據(jù)為中心的人工智能是指一個(gè)為人工智能系統(tǒng)開發(fā)、迭代和維護(hù)數(shù)據(jù)的框架。以數(shù)據(jù)為中心的人工智能涉及構(gòu)建有效訓(xùn)練數(shù)據(jù)、設(shè)計(jì)適當(dāng)?shù)耐茢鄶?shù)據(jù)和維護(hù)數(shù)據(jù)的任務(wù)和方法。

3 以數(shù)據(jù)為中心的人工智能任務(wù)

我們將以數(shù)據(jù)為中心的人工智能分為三個(gè)目標(biāo)：訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護(hù)。

3.1 訓(xùn)練數(shù)據(jù)開發(fā)

訓(xùn)練數(shù)據(jù)為機(jī)器學(xué)習(xí)模型提供了基礎(chǔ)，因?yàn)槟Ｐ托阅茉诤艽蟪潭壬鲜芷滟|(zhì)量和數(shù)量的影響。訓(xùn)練數(shù)據(jù)開發(fā)的目的是收集和生成豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)來支持機(jī)器學(xué)習(xí)模型的訓(xùn)練，包括五個(gè)子目標(biāo)，分別為：1）數(shù)據(jù)收集，2）數(shù)據(jù)標(biāo)注，3）數(shù)據(jù)準(zhǔn)備，4）數(shù)據(jù)縮減，5）數(shù)據(jù)增強(qiáng)。最后我們將討論管道搜索，這是一種新興趨勢，旨在連接這些步驟并搜索最有效的端到端解決方案。

創(chuàng)建和處理訓(xùn)練數(shù)據(jù)的基本步驟，如圖4所示。

圖4 訓(xùn)練數(shù)據(jù)開發(fā)通用流程概覽

表2總結(jié)了訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法。

表2 訓(xùn)練數(shù)據(jù)開發(fā)任務(wù)的代表性任務(wù)和方法

3.1.1 數(shù)據(jù)收集

數(shù)據(jù)收集是從各種來源收集和獲取數(shù)據(jù)的過程，從根本上決定了數(shù)據(jù)的質(zhì)量和數(shù)量。這個(gè)過程嚴(yán)重依賴于領(lǐng)域知識。隨著數(shù)據(jù)可用性的增加，高效利用現(xiàn)有數(shù)據(jù)集的策略的發(fā)展出現(xiàn)了激增。

領(lǐng)域知識的作用。深入了解應(yīng)用領(lǐng)域或行業(yè)對于收集相關(guān)和代表性數(shù)據(jù)至關(guān)重要。在構(gòu)建推薦系統(tǒng)時(shí)，需要根據(jù)應(yīng)用領(lǐng)域決定收集哪些用戶/項(xiàng)目特征。領(lǐng)域知識有助于使數(shù)據(jù)與利益相關(guān)者的意圖保持一致，并確保數(shù)據(jù)的相關(guān)性和代表性。

高效的數(shù)據(jù)收集策略。高效數(shù)據(jù)收集策略包括利用現(xiàn)有數(shù)據(jù)，通過發(fā)現(xiàn)、集成和合成的方法，提高數(shù)據(jù)收集效率。與傳統(tǒng)的手動(dòng)收集方法相比，這些方法更省時(shí)。數(shù)據(jù)集發(fā)現(xiàn)通過匯集現(xiàn)有數(shù)據(jù)集，根據(jù)人類查詢識別相關(guān)和有用的數(shù)據(jù)集。數(shù)據(jù)集成將不同來源的數(shù)據(jù)集整合成一個(gè)統(tǒng)一的數(shù)據(jù)集。原始數(shù)據(jù)合成通過合成包含所需模式的數(shù)據(jù)集，例如在異常檢測場景中，合成異常模式以提高數(shù)據(jù)收集效率。這些策略有助于提高數(shù)據(jù)收集效率，減少人工工作量。

挑戰(zhàn)。數(shù)據(jù)收集工作面臨著諸多嚴(yán)峻的挑戰(zhàn)，包括數(shù)據(jù)集的多樣性、對齊的困難、合成數(shù)據(jù)所需的領(lǐng)域知識，以及法律、倫理和物流方面的限制。從零開始收集數(shù)據(jù)可能會遇到知情同意、數(shù)據(jù)隱私和數(shù)據(jù)安全等問題所帶來的阻礙。因此，研究人員和實(shí)踐者必須充分了解并認(rèn)真對待這些挑戰(zhàn)。

3.1.2 數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注是將一個(gè)或多個(gè)描述性標(biāo)簽或標(biāo)記分配給數(shù)據(jù)集的過程，使算法能夠從標(biāo)記的數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測。傳統(tǒng)上，這是一個(gè)耗時(shí)且資源密集的手動(dòng)過程，特別是對于大型數(shù)據(jù)集。最近，提出了更有效的標(biāo)注方法來減少人力。

數(shù)據(jù)標(biāo)注的必要性。數(shù)據(jù)標(biāo)注在訓(xùn)練模型以準(zhǔn)確反映人類意圖方面至關(guān)重要。無監(jiān)督學(xué)習(xí)技術(shù)在部分領(lǐng)域取得了成功，但為了獲得更好的性能，通常仍需使用人類標(biāo)簽來微調(diào)大型語言模型和異常檢測器。因此，標(biāo)注數(shù)據(jù)對于教導(dǎo)模型與人類對齊和表現(xiàn)至關(guān)重要。

高效的標(biāo)注策略。高效標(biāo)注策略包括眾包標(biāo)注、半監(jiān)督標(biāo)注、主動(dòng)學(xué)習(xí)、數(shù)據(jù)編程和遠(yuǎn)程監(jiān)督。眾包標(biāo)注將任務(wù)分解給大量非專業(yè)注釋者，通過迭代完善任務(wù)設(shè)計(jì)、要求多個(gè)工作人員注釋相同樣本并推斷共識標(biāo)簽、或利用算法提高標(biāo)簽質(zhì)量來提高效率。半監(jiān)督學(xué)習(xí)利用少量帶標(biāo)簽的數(shù)據(jù)來推斷未標(biāo)注數(shù)據(jù)的標(biāo)簽，如自訓(xùn)練、訓(xùn)練多個(gè)分類器并找到共識標(biāo)簽、基于圖的半監(jiān)督學(xué)習(xí)標(biāo)注技術(shù)或基于人類反饋的強(qiáng)化學(xué)習(xí)過程。主動(dòng)學(xué)習(xí)是一種迭代式標(biāo)注過程，需要人類不斷提供信息以自適應(yīng)地選擇查詢。數(shù)據(jù)編程是一種基于人類設(shè)計(jì)標(biāo)注函數(shù)的弱監(jiān)督方法，通常需要最少的人類參與。遠(yuǎn)程監(jiān)管通過利用外部資源來分配標(biāo)簽，如關(guān)系提取。這些策略可以組合為混合策略，以提高標(biāo)注效率。

挑戰(zhàn)。數(shù)據(jù)標(biāo)注面臨的主要挑戰(zhàn)包括如何在標(biāo)注質(zhì)量、數(shù)量和經(jīng)濟(jì)成本之間找到平衡，以及如何應(yīng)對標(biāo)注的主觀性和倫理問題。當(dāng)預(yù)算緊張時(shí)，需要采取更高效的標(biāo)注策略，并利用領(lǐng)域知識來平衡人力和標(biāo)注質(zhì)量/數(shù)量。此外，設(shè)計(jì)者需要確保指示清晰，以避免注釋者誤解，導(dǎo)致標(biāo)注噪音。最后，數(shù)據(jù)隱私和偏見等倫理問題在標(biāo)注任務(wù)分發(fā)給大量人群時(shí)尤為突出。

3.1.3 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備涉及清理和轉(zhuǎn)換原始數(shù)據(jù)，以適應(yīng)模型訓(xùn)練的格式。通常，這個(gè)過程需要大量的工程工作，需要繁瑣的試錯(cuò)。為了實(shí)現(xiàn)這個(gè)過程的自動(dòng)化，最先進(jìn)的方法通常采用搜索算法來發(fā)現(xiàn)最有效的策略。

數(shù)據(jù)準(zhǔn)備的必要性。原始數(shù)據(jù)通常不適合模型訓(xùn)練，需要清理和轉(zhuǎn)換。數(shù)據(jù)準(zhǔn)備占數(shù)據(jù)科學(xué)家工作的約80%，因?yàn)樵紨?shù)據(jù)可能存在噪聲、不一致性和無關(guān)信息，導(dǎo)致模型結(jié)果不準(zhǔn)確和有偏。此外，敏感信息可能引入偏見，原始特征值也可能影響模型性能。

代表性方法。數(shù)據(jù)清理、特征提取和特征轉(zhuǎn)換。數(shù)據(jù)清理包括識別和糾正數(shù)據(jù)集中的錯(cuò)誤、不一致和不準(zhǔn)確，包括傳統(tǒng)編程方法和基于學(xué)習(xí)的方法。傳統(tǒng)方法使用編程自動(dòng)化，但基于學(xué)習(xí)的方法如訓(xùn)練回歸模型預(yù)測缺失值、通過抽樣估計(jì)重復(fù)項(xiàng)和糾正標(biāo)簽錯(cuò)誤，提高了準(zhǔn)確性和效率。當(dāng)代數(shù)據(jù)清理方法關(guān)注提高最終模型性能，例如采用搜索算法自動(dòng)識別最佳清理策略。特征提取是從原始數(shù)據(jù)中提取相關(guān)特征的重要步驟，包括深度學(xué)習(xí)和傳統(tǒng)方法。深度學(xué)習(xí)通過學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重來自動(dòng)提取特征，需要較少的領(lǐng)域知識。特征變換是指將原始特征轉(zhuǎn)換為新特征集的過程，通常可以提高模型性能，如歸一化、標(biāo)準(zhǔn)化、對數(shù)變換和多項(xiàng)式變換等。這些方法可以以不同的方式組合以改善模型性能。

挑戰(zhàn)。清洗和轉(zhuǎn)換數(shù)據(jù)是一項(xiàng)挑戰(zhàn)，因?yàn)椴煌瑪?shù)據(jù)集的特性各異。即使數(shù)據(jù)類型相同，特征值和潛在問題也可能非常多樣化。研究人員和數(shù)據(jù)科學(xué)家需要投入大量時(shí)間和精力來清洗數(shù)據(jù)。雖然基于學(xué)習(xí)的方法可以自動(dòng)搜索最佳準(zhǔn)備策略，但設(shè)計(jì)適當(dāng)?shù)乃阉骺臻g仍然困難，且搜索過程耗時(shí)。

3.1.4 數(shù)據(jù)縮減

數(shù)據(jù)縮減的目標(biāo)是在保留其基本信息的同時(shí)降低給定數(shù)據(jù)集的復(fù)雜性。這通常可以通過降低特征大小或樣本大小來實(shí)現(xiàn)。

數(shù)據(jù)縮減的必要性。數(shù)據(jù)縮減在提高訓(xùn)練效率方面至關(guān)重要，可減少樣本數(shù)量和特征大小，緩解內(nèi)存和計(jì)算約束，以及數(shù)據(jù)不平衡問題。壓縮特征可降低過擬合風(fēng)險(xiǎn)，提高模型部署速度和可解釋性。總體而言，數(shù)據(jù)縮減技術(shù)有助于提高模型準(zhǔn)確性、效率和可解釋性。

減少特征規(guī)模的方法。從特征的角度，可以進(jìn)行特征選擇和降維。特征選擇是從一組特征中選擇與預(yù)期任務(wù)最相關(guān)的子集的過程，分為過濾、包裝和嵌入式方法。主動(dòng)特征選擇還考慮了人類知識，逐步選擇最合適的特征。特征選擇降低了復(fù)雜性，產(chǎn)生更清潔和更易理解的數(shù)據(jù)，同時(shí)保留了特征的語義。降維是將高維特征轉(zhuǎn)化為低維空間的過程，旨在保留最具代表性的信息。方法包括線性和非線性技術(shù)。

減少樣本量的方法。實(shí)例選擇是減少樣本量或平衡數(shù)據(jù)分布的常用方法，可分為包裝和過濾兩種方法。實(shí)例選擇技術(shù)還可通過欠采樣多數(shù)類來緩解數(shù)據(jù)不平衡問題，如隨機(jī)欠采樣。強(qiáng)化學(xué)習(xí)也被用于學(xué)習(xí)最佳欠采樣策略。

挑戰(zhàn)。數(shù)據(jù)縮減面臨兩大挑戰(zhàn)：一是選擇最具代表性或低維空間中的最小信息損失數(shù)據(jù)不易；二是可能放大數(shù)據(jù)偏差，引發(fā)公平性問題。盡管基于學(xué)習(xí)的方法可部分解決，但處理大數(shù)據(jù)集時(shí)需大量計(jì)算資源。實(shí)現(xiàn)高準(zhǔn)確率和效率的雙重目標(biāo)具挑戰(zhàn)性，公平性感知的數(shù)據(jù)縮減是重要但未充分探索的研究方向。

3.1.5 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)是通過人為地創(chuàng)建現(xiàn)有數(shù)據(jù)的變體來增加數(shù)據(jù)的大小和多樣性的技術(shù)，這通常可以提高模型性能。值得注意的是，盡管數(shù)據(jù)增強(qiáng)和數(shù)據(jù)縮減似乎具有相互矛盾的目標(biāo)，但它們可以相互結(jié)合使用。數(shù)據(jù)縮減的重點(diǎn)是消除冗余信息，而數(shù)據(jù)增強(qiáng)的目的是增強(qiáng)數(shù)據(jù)的多樣性。

數(shù)據(jù)增強(qiáng)的必要性。現(xiàn)代機(jī)器學(xué)習(xí)，特別是深度學(xué)習(xí)，需要大量數(shù)據(jù)才能學(xué)習(xí)。收集大型數(shù)據(jù)集，尤其是帶注釋的數(shù)據(jù)集，耗時(shí)費(fèi)力。數(shù)據(jù)增強(qiáng)通過生成變異的類似數(shù)據(jù)點(diǎn)，使模型暴露于更多訓(xùn)練示例中，提高準(zhǔn)確度、泛化能力和魯棒性，尤其在可用數(shù)據(jù)有限的應(yīng)用中。數(shù)據(jù)增強(qiáng)還可緩解類不平衡問題。

常見的增強(qiáng)方法。數(shù)據(jù)增強(qiáng)方法分為基礎(chǔ)操作和合成數(shù)據(jù)增強(qiáng)。基礎(chǔ)操作通過修改原始數(shù)據(jù)生成新樣本，如縮放、旋轉(zhuǎn)、翻轉(zhuǎn)和模糊，以及使用Mixup和AutoAugment等方法。合成數(shù)據(jù)增強(qiáng)通過生成模型學(xué)習(xí)數(shù)據(jù)分布，如GAN、變分自編碼器和擴(kuò)散模型，以生成新的訓(xùn)練樣本。這些方法有助于提高模型的泛化能力和性能。

類別不均衡。類別不平衡是機(jī)器學(xué)習(xí)的挑戰(zhàn)，多數(shù)類別樣本數(shù)量遠(yuǎn)超少數(shù)類別。數(shù)據(jù)增強(qiáng)技術(shù)如SMOTE和ADASYN可平衡數(shù)據(jù)分布，通過生成合成樣本增加少數(shù)類別樣本數(shù)量。AutoSMOTE是強(qiáng)化學(xué)習(xí)算法，可搜索最佳過采樣策略。

挑戰(zhàn)。數(shù)據(jù)增強(qiáng)的關(guān)鍵挑戰(zhàn)在于沒有一種策略適用于所有場景，不同數(shù)據(jù)類型可能需要不同策略。例如，圖數(shù)據(jù)無法直接應(yīng)用普通Mixup策略。即使數(shù)據(jù)類型相同，最優(yōu)策略也可能不同。基于搜索的算法可以識別最佳策略，但會增加計(jì)算和存儲成本。需要更有效和高效的技術(shù)來克服這些挑戰(zhàn)。

3.1.6 數(shù)據(jù)管道

現(xiàn)實(shí)世界中的數(shù)據(jù)管道通常包含多個(gè)步驟，每個(gè)步驟對應(yīng)不同的子目標(biāo)。盡管在單個(gè)任務(wù)方面取得了進(jìn)展，但整個(gè)管道作為一個(gè)整體運(yùn)行，不同步驟之間可能存在交互。管道搜索是一種自動(dòng)搜索最佳組合的方法，如AutoSklearn、D3M、AlphaD3M、Deepline和ClusterP3S等算法。然而，管道搜索面臨計(jì)算開銷大的挑戰(zhàn)，需要更有效的搜索策略，以使其在現(xiàn)實(shí)場景中得到更廣泛的應(yīng)用。

3.2 推理數(shù)據(jù)開發(fā)

在評估人工智能系統(tǒng)時(shí)，除了性能指標(biāo)，還需要考慮模型的穩(wěn)健性、泛化性和決策制定的理由。推理數(shù)據(jù)開發(fā)的目標(biāo)是創(chuàng)建新穎的評價(jià)集，以便更精細(xì)地了解模型或通過工程數(shù)據(jù)輸入觸發(fā)模型的特定功能。這項(xiàng)工作有三個(gè)子目標(biāo)：1）分布內(nèi)評估，2）分布外評估，3）提示工程。推理數(shù)據(jù)開發(fā)的任務(wù)相對開放，因?yàn)樗鼈兺ǔＶ荚谠u估或解鎖模型的多種功能，如圖5所示。表3中總結(jié)了相關(guān)任務(wù)和方法。

圖5 推理數(shù)據(jù)開發(fā)概覽

表3 推理數(shù)據(jù)開發(fā)相關(guān)的任務(wù)和方法

3.2.1 分布內(nèi)評估

分布內(nèi)評估數(shù)據(jù)構(gòu)建的目的是生成符合訓(xùn)練數(shù)據(jù)的樣本。

分布內(nèi)評估的必要性。分布內(nèi)評估是評估訓(xùn)練模型質(zhì)量的直接方法，需要更精細(xì)的評估以避免偏差和錯(cuò)誤。這包括識別和校準(zhǔn)未被充分代表的子群體，以及在部署前理解決策邊界和檢查模型倫理，特別是在高風(fēng)險(xiǎn)應(yīng)用中。

數(shù)據(jù)切片。數(shù)據(jù)切片是將數(shù)據(jù)集劃分為相關(guān)亞人群，分別評估模型在每個(gè)亞人群上的性能。常見的切片方法包括使用預(yù)定義的標(biāo)準(zhǔn)，如年齡、性別或種族。實(shí)際應(yīng)用中的數(shù)據(jù)可能很復(fù)雜，需要適當(dāng)設(shè)計(jì)分區(qū)標(biāo)準(zhǔn)。為了減少人力投入，人們開發(fā)了自動(dòng)切片方法，如SliceFinder、SliceLine、GEORGE和Multiaccuracy，這些方法可以識別出重要的數(shù)據(jù)切片，提高模型性能。

算法追索權(quán)。算法追索權(quán)是一種通過生成假設(shè)樣本來翻轉(zhuǎn)模型決策以獲得更優(yōu)結(jié)果的方法。它對于理解決策邊界和檢測個(gè)體之間的潛在偏見非常有價(jià)值。現(xiàn)有方法主要分為白盒和黑盒兩種，白盒方法需要訪問評估模型，黑盒方法不需要訪問模型。由于推理的目標(biāo)標(biāo)簽通常由人類輸入，這些方法都要求最小限度的人類參與。

挑戰(zhàn)。構(gòu)建分布式評估集的主要挑戰(zhàn)在于識別目標(biāo)樣本，特別是在數(shù)據(jù)切片的情況下，隨著數(shù)據(jù)點(diǎn)的增加，可能的數(shù)據(jù)子集數(shù)量呈指數(shù)級增長。同時(shí)，在可用信息有限的情況下，確定最接近的資源也需要付出巨大努力。

3.2.2 分布外評估

分布外評估數(shù)據(jù)是指一組樣本遵循與訓(xùn)練數(shù)據(jù)中觀察到的分布不同的分布的。

分布外評估的必要性。現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，但在實(shí)際部署中，數(shù)據(jù)分布可能不同。分布外評估主要評估模型在數(shù)據(jù)分布不同的情況下的泛化能力，發(fā)現(xiàn)模型的遷移性，增強(qiáng)其在意外情況下的表現(xiàn)信心，并提供關(guān)于模型魯棒性的重要見解。這有助于確定模型是否適合實(shí)際部署。

生成對抗式樣本。對抗樣本是故意修改的輸入數(shù)據(jù)，導(dǎo)致模型錯(cuò)誤預(yù)測。手動(dòng)擾動(dòng)包括添加噪聲和模糊等，自動(dòng)化方法有四類：白盒攻擊、物理世界攻擊、黑盒攻擊和中毒攻擊。評估對抗樣本有助于理解模型的魯棒性，避免不良后果。

生成具有分布偏移的樣本。生成具有分布偏移的樣本用于在不同分布上評估模型。數(shù)據(jù)收集和構(gòu)建評估集是兩種方法。合成分布變化包括協(xié)變量偏移、標(biāo)簽偏移和一般分布偏移。有偏數(shù)據(jù)采樣和基于學(xué)習(xí)的方法可用于生成具有分布偏移的樣本，以評估模型的遷移能力。

挑戰(zhàn)。生成分布外樣本面臨兩個(gè)挑戰(zhàn)：生成高質(zhì)量的樣本和評估樣本質(zhì)量。生成模型可能受限于訓(xùn)練數(shù)據(jù)不具代表性，或遇到模式崩潰問題。評估樣本質(zhì)量困難，因?yàn)槌Ｓ枚攘繕?biāo)準(zhǔn)可能不適用。已有多種評估指標(biāo)被提出。創(chuàng)建高質(zhì)量的分布外數(shù)據(jù)是一項(xiàng)復(fù)雜而艱巨的任務(wù)，需要精心設(shè)計(jì)。

3.2.3??提示工程

隨著大型語言模型的出現(xiàn)，通過微調(diào)輸入來獲取知識并完成任務(wù)已成為可能。提示工程是一種新興任務(wù)，旨在設(shè)計(jì)和構(gòu)建高質(zhì)量的提示，以實(shí)現(xiàn)最有效的性能。提示工程通過微調(diào)輸入數(shù)據(jù)而不是模型本身來改變傳統(tǒng)的工作流程。一種方法是通過創(chuàng)建模板進(jìn)行手動(dòng)提示工程，但可能不足以發(fā)現(xiàn)復(fù)雜任務(wù)的最佳提示。因此，已經(jīng)研究了自動(dòng)提示工程，包括從外部語料庫中挖掘模板和用種子提示進(jìn)行改述。提示工程的主要障礙在于缺乏一致表現(xiàn)良好的通用提示模板，不同的模板可能導(dǎo)致不同的結(jié)果。因此，有必要進(jìn)行進(jìn)一步的研究，以深入了解模型對提示的反應(yīng)，并為提示設(shè)計(jì)過程提供指導(dǎo)。

3.3 數(shù)據(jù)維護(hù)

在現(xiàn)實(shí)應(yīng)用中，數(shù)據(jù)并非一次生成，而是不斷更新的，需要進(jìn)行連續(xù)的維護(hù)。數(shù)據(jù)維護(hù)的目的是在動(dòng)態(tài)環(huán)境中確保數(shù)據(jù)的質(zhì)量和可靠性。它涉及三個(gè)基本子目標(biāo)：1）數(shù)據(jù)理解，旨在提供復(fù)雜數(shù)據(jù)的可視化和評估，使人類能夠獲得有價(jià)值的見解；2）數(shù)據(jù)質(zhì)量保證，旨在制定定量測量和質(zhì)量改進(jìn)策略來監(jiān)控和修復(fù)數(shù)據(jù)；3）數(shù)據(jù)存儲和檢索，旨在設(shè)計(jì)高效的算法，通過合理分配資源和高效率處理查詢來提供所需的數(shù)據(jù)。數(shù)據(jù)維護(hù)在以數(shù)據(jù)為中心的人工智能框架中起著基礎(chǔ)和支持作用，確保訓(xùn)練和推斷中的數(shù)據(jù)準(zhǔn)確可靠。本節(jié)概述了對數(shù)據(jù)維護(hù)的需求、代表性方法（如圖6所示）和挑戰(zhàn)。如圖6所示。表4總結(jié)了相關(guān)任務(wù)和方法。

圖6 數(shù)據(jù)維護(hù)概覽

表4 數(shù)據(jù)維護(hù)相關(guān)的任務(wù)和方法

3.3.1 數(shù)據(jù)理解

為了確保正確的維護(hù)，首先必須了解數(shù)據(jù)。

數(shù)據(jù)理解技術(shù)的必要性。現(xiàn)實(shí)世界數(shù)據(jù)量大且復(fù)雜，人類難以理解和分析。數(shù)據(jù)理解技術(shù)至關(guān)重要原因有三：1）總結(jié)和簡化數(shù)據(jù)，使其更易于管理；2）將高維數(shù)據(jù)可視化，以適應(yīng)人類感知；3）了解數(shù)據(jù)資產(chǎn)的價(jià)值，以及每個(gè)數(shù)據(jù)樣本對性能的貢獻(xiàn)。

數(shù)據(jù)可視化。數(shù)據(jù)可視化利用人類對圖形的偏好，幫助理解復(fù)雜數(shù)據(jù)。可視化總結(jié)、可視化聚類和可視化推薦。可視化總結(jié)通過圖表濃縮原始數(shù)據(jù)，幫助人們洞察數(shù)據(jù)。選擇合適的可視化格式是關(guān)鍵，徑向圖和線性圖是常見格式，但選擇需權(quán)衡數(shù)據(jù)表示的忠實(shí)性和易用性。可視化聚類通過降維和自動(dòng)聚類方法將高維數(shù)據(jù)可視化。可視化推薦系統(tǒng)根據(jù)預(yù)定義規(guī)則或機(jī)器學(xué)習(xí)技術(shù)，為用戶推薦最合適的可視化格式。協(xié)作可視化技術(shù)使用戶能提供反饋，實(shí)現(xiàn)更自適應(yīng)的用戶體驗(yàn)。

數(shù)據(jù)評估。數(shù)據(jù)評估旨在了解數(shù)據(jù)點(diǎn)如何影響最終性能，為利益相關(guān)者提供寶貴見解，并有助于數(shù)據(jù)市場交易。研究人員通過估計(jì)數(shù)據(jù)點(diǎn)的Shapley值來分配權(quán)重，增強(qiáng)其在多個(gè)數(shù)據(jù)集和模型中的魯棒性。由于計(jì)算Shapley值可能非常昂貴，上述方法采用基于學(xué)習(xí)算法進(jìn)行高效估算。

挑戰(zhàn)。兩個(gè)主要挑戰(zhàn)：一是選擇最佳數(shù)據(jù)可視化格式和算法，如聚類算法，需人類輸入，增加復(fù)雜性；二是開發(fā)高效的數(shù)據(jù)估價(jià)算法，如計(jì)算Shapley值，計(jì)算成本高，且Shapley值可能僅提供有限的數(shù)據(jù)價(jià)值角度。

3.3.2 數(shù)據(jù)質(zhì)量保證

為了確保可靠的數(shù)據(jù)供應(yīng)，維護(hù)數(shù)據(jù)質(zhì)量至關(guān)重要。

數(shù)據(jù)質(zhì)量保證的必要性。在動(dòng)態(tài)環(huán)境中，持續(xù)監(jiān)控并改進(jìn)數(shù)據(jù)質(zhì)量至關(guān)重要。實(shí)際應(yīng)用中的數(shù)據(jù)可能包含異常數(shù)據(jù)點(diǎn)，因此需要建立定量測量來評估數(shù)據(jù)質(zhì)量。如果模型受到低質(zhì)量數(shù)據(jù)的影響，應(yīng)實(shí)施質(zhì)量改進(jìn)策略以提高數(shù)據(jù)質(zhì)量，進(jìn)而提高模型性能。

質(zhì)量評估。質(zhì)量評估包括客觀和主觀評估。客觀評估使用數(shù)據(jù)固有屬性，如準(zhǔn)確性、時(shí)效性、一致性和完整性，來衡量數(shù)據(jù)質(zhì)量，僅需要最小限度的人為參與。主觀評估則從人的角度評估數(shù)據(jù)質(zhì)量，通常針對特定應(yīng)用，需要外部專家進(jìn)行分析，包括可信度、可理解度和可訪問性等指標(biāo)，通常通過用戶研究和問卷調(diào)查進(jìn)行評估。雖然主觀評估可能不會直接有益于模型訓(xùn)練，但它們可以促進(jìn)組織內(nèi)部的輕松協(xié)作，并提供長期利益。

質(zhì)量改進(jìn)。質(zhì)量改進(jìn)策略包括制定戰(zhàn)略以提高數(shù)據(jù)管道各階段的數(shù)據(jù)質(zhì)量。初始方法使用程序化自動(dòng)化，如完整性約束、拒絕約束和條件函數(shù)依賴，強(qiáng)制執(zhí)行質(zhì)量約束。基于機(jī)器學(xué)習(xí)的自動(dòng)化方法被開發(fā)以提高數(shù)據(jù)質(zhì)量，如數(shù)據(jù)驗(yàn)證模塊使用訓(xùn)練集訓(xùn)練模型以識別潛在問題。管道自動(dòng)化方法也被開發(fā)用于系統(tǒng)地策劃數(shù)據(jù)，如數(shù)據(jù)集成和數(shù)據(jù)清理。協(xié)作方法鼓勵(lì)專業(yè)人士參與數(shù)據(jù)改進(jìn)，如自動(dòng)駕駛和視頻內(nèi)容審查中的標(biāo)注數(shù)據(jù)。UniProt創(chuàng)建了提交系統(tǒng)來利用集體智慧改進(jìn)數(shù)據(jù)。所有方法都需要部分人的參與，因?yàn)槿祟惐仨毺峁┬畔ⅰ?/p>

挑戰(zhàn)。數(shù)據(jù)質(zhì)量面臨兩個(gè)挑戰(zhàn)：選擇合適的評估指標(biāo)和實(shí)施質(zhì)量改進(jìn)。單一指標(biāo)可能不足以應(yīng)對不斷變化的環(huán)境，需要仔細(xì)考慮。盡管自動(dòng)化是關(guān)鍵，但人工參與可能也是必要的。因此，必須仔細(xì)設(shè)計(jì)評估指標(biāo)和改進(jìn)策略。

3.3.3 數(shù)據(jù)存儲和檢索

數(shù)據(jù)存儲和檢索系統(tǒng)在為構(gòu)建AI系統(tǒng)提供必要數(shù)據(jù)方面發(fā)揮著不可或缺的作用。為了加快數(shù)據(jù)獲取的過程，已經(jīng)提出了各種有效的策略。

數(shù)據(jù)存儲與檢索的必要性。隨著數(shù)據(jù)量指數(shù)增長，強(qiáng)大的可擴(kuò)展數(shù)據(jù)管理系統(tǒng)對于支持AI模型訓(xùn)練至關(guān)重要。這包括：1）存儲和合并來自不同來源的數(shù)據(jù)，需要仔細(xì)管理內(nèi)存和計(jì)算資源；2）設(shè)計(jì)快速獲取數(shù)據(jù)的查詢策略以確保數(shù)據(jù)的及時(shí)和準(zhǔn)確處理。

資源分配。資源分配是優(yōu)化數(shù)據(jù)管理系統(tǒng)的關(guān)鍵。吞吐量和延遲是重要指標(biāo)，可通過參數(shù)調(diào)優(yōu)技術(shù)進(jìn)行優(yōu)化。早期的調(diào)優(yōu)方法依賴經(jīng)驗(yàn)和行業(yè)最佳實(shí)踐，而基于學(xué)習(xí)的策略如Starfish和OtterTune可自動(dòng)選擇參數(shù)，提高資源分配的靈活性。

查詢加速。可以通過高效索引選擇和查詢重寫策略來實(shí)現(xiàn)。查詢索引選擇的目標(biāo)是減少磁盤訪問次數(shù)。策略是創(chuàng)建索引方案并記錄查詢執(zhí)行成本，然后使用貪婪算法或動(dòng)態(tài)規(guī)劃選擇策略。基于學(xué)習(xí)的自動(dòng)化策略從人類專家那里收集索引數(shù)據(jù)，并訓(xùn)練機(jī)器學(xué)習(xí)模型來預(yù)測適當(dāng)?shù)乃饕呗裕蛘呤褂脧?qiáng)化學(xué)習(xí)來搜索最佳策略。查詢重寫旨在通過識別輸入查詢中的重復(fù)子查詢來減少工作負(fù)載。基于規(guī)則的策略使用預(yù)定義規(guī)則重寫查詢，例如DBridge。基于學(xué)習(xí)的方法使用監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)來預(yù)測查詢重寫規(guī)則。

挑戰(zhàn)。現(xiàn)有數(shù)據(jù)存儲和檢索方法主要優(yōu)化特定部分，如資源分配和查詢加速。然而，整個(gè)數(shù)據(jù)管理系統(tǒng)復(fù)雜，需處理各種格式和結(jié)構(gòu)的大量數(shù)據(jù)，端到端優(yōu)化具挑戰(zhàn)性。此外，數(shù)據(jù)存儲和檢索還需考慮數(shù)據(jù)訪問控制和系統(tǒng)維護(hù)等關(guān)鍵方面。

4 以數(shù)據(jù)為中心的AI的自動(dòng)化程度

以數(shù)據(jù)為中心的人工智能涉及數(shù)據(jù)生命周期各階段的任務(wù)，根據(jù)是否需要人類參與分為自動(dòng)化和協(xié)作兩大類。每種方法都有不同的自動(dòng)化程度或需要不同程度的人類參與，如圖7所示。自動(dòng)化任務(wù)涉及編程自動(dòng)化、基于學(xué)習(xí)的自動(dòng)化和流水線自動(dòng)化，以提高效率和準(zhǔn)確性。協(xié)作任務(wù)需要不同程度的人工參與，包括完全參與、部分參與和最低參與。這種分類有助于理解不同方法如何應(yīng)用于不同的以數(shù)據(jù)為中心的目標(biāo)，并實(shí)現(xiàn)效率和效果的權(quán)衡。

4.1 自動(dòng)化任務(wù)

編程自動(dòng)化：使用程序自動(dòng)處理數(shù)據(jù)。這些程序通常基于一些啟發(fā)式算法和統(tǒng)計(jì)信息進(jìn)行設(shè)計(jì)。
基于學(xué)習(xí)的自動(dòng)化：通過優(yōu)化學(xué)習(xí)自動(dòng)化策略，例如最小化目標(biāo)函數(shù)。這個(gè)層面的方法通常更加靈活和自適應(yīng)，但需要額外的成本來學(xué)習(xí)。
流水線自動(dòng)化：整合和調(diào)整多個(gè)任務(wù)中的一系列策略，這有助于識別全局最優(yōu)策略。然而，調(diào)整可能會產(chǎn)生更高的成本。

4.2 不同程度的人工參與

完全參與：人類完全控制過程。該方法協(xié)助人類做出決策。需要完全參與的方法通常能很好地符合人類的意圖，但成本很高。
部分參與：該方法控制著過程。然而，人類需要大量或持續(xù)地提供信息，例如通過提供大量反饋或頻繁互動(dòng)。
最低參與：該方法完全控制整個(gè)過程，只在需要時(shí)咨詢?nèi)祟悺Ｈ祟愔挥性诒惶崾净蛞髸r(shí)才參與。當(dāng)遇到大量數(shù)據(jù)和有限的人力預(yù)算時(shí)，屬于這種程度的方法通常更理想。

本文章轉(zhuǎn)載微信公眾號@算法進(jìn)階