統計方法用TF-IDF和N-gram統計生成文本向量,而神經網絡方法如Word2Vec、GloVe等通過深度學習學習文本向量。

基于神經網絡的方法

詞嵌入

Word2Vec:通過預測詞的上下文來學習詞向量。
????GloVe:通過全局詞共現統計來學習詞向量。
????FastText:考慮詞的n-gram特征來學習詞向量。

句子嵌入

RNN:包括LSTM和GRU,可以處理變長句子并生成句子向量。
????Transformer:使用自注意力機制和位置編碼來處理句子,生成句子向量。

文檔嵌入

? Doc2Vec:擴展了Word2Vec,可以生成整個文檔的向量表示。
????BERT:基于Transformer的預訓練模型,可以生成句子或短文檔的向量表示。

工作原理:將離散的文字信息(如單詞)轉換成連續的向量數據。這樣,語義相似的詞在向量空間中位置相近,并通過高維度捕捉語言的復雜性。

舉例來講,這里有三句話:

人類能理解句子1和句子2含義相近,盡管它們只有“The”這個單詞相同。但計算機需要Embedding技術來理解這種關系。Embedding將單詞轉換為向量,使得語義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒有很多共同詞匯,計算機也能理解它們的相關性。

如果是人類來理解,句子 1 和句子 2 幾乎是同樣的含義,而句子 3 卻完全不同。但我們看到句子 1 和句子 2 只有“The”是相同的,沒有其他相同詞匯。計算機該如何理解前兩個句子的相關性?

Embedding將單詞轉換為向量,使得語義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒有很多共同詞匯,計算機也能理解它們的相關性。

二、Image?Embedding工作原理

圖像向量化(Image?Embedding):將圖像數據轉換為向量的過程。

卷積神經網絡和自編碼器都是用于圖像向量化的有效工具,前者通過訓練提取圖像特征并轉換為向量,后者則學習圖像的壓縮編碼以生成低維向量表示。

工作原理:通過算法提取圖像的關鍵特征點及其描述符,將這些特征轉換為高維向量表示,使得在向量空間中相似的圖像具有相近的向量表示,從而便于進行圖像檢索、分類和識別等任務。

三、Vedio?Embedding工作原理

視頻向量化(Vedio Embedding):OpenAI的Sora將視覺數據轉換為圖像塊(Turning visual data into patches)。

工作原理:Sora 用visual patches 代表被壓縮后的視頻向量進行訓練,每個patches相當于GPT中的一個token。使用patches,可以對視頻、音頻、文字進行統一的向量化表示,和大模型中的 tokens 類似,Sora用 patches 表示視頻,把視頻壓縮到低維空間(latent space)后表示為Spacetime patches。

OpenAI大模型的核心架構:大力出奇跡。Embedding技術實現文本、圖像、視頻等數據向量化表示,為大型模型提供了豐富的特征輸入。只要模型規模足夠大,這些向量化數據就能驅動模型生成各種所需的內容,體現了“萬物皆可生成”的能力。

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇:

TransGNN:Transformer 和 GNN 能互相幫助嗎?

下一篇:

大模型開發 - 一文搞懂Encoder-Decoder工作原理
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費