
使用這些基本 REST API 最佳實踐構建出色的 API
基于神經網絡的方法
詞嵌入:
Word2Vec:通過預測詞的上下文來學習詞向量。
????GloVe:通過全局詞共現統計來學習詞向量。
????FastText:考慮詞的n-gram特征來學習詞向量。
句子嵌入:
RNN:包括LSTM和GRU,可以處理變長句子并生成句子向量。
????Transformer:使用自注意力機制和位置編碼來處理句子,生成句子向量。
文檔嵌入:
? Doc2Vec:擴展了Word2Vec,可以生成整個文檔的向量表示。
????BERT:基于Transformer的預訓練模型,可以生成句子或短文檔的向量表示。
工作原理:將離散的文字信息(如單詞)轉換成連續的向量數據。這樣,語義相似的詞在向量空間中位置相近,并通過高維度捕捉語言的復雜性。
舉例來講,這里有三句話:
人類能理解句子1和句子2含義相近,盡管它們只有“The”這個單詞相同。但計算機需要Embedding技術來理解這種關系。Embedding將單詞轉換為向量,使得語義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒有很多共同詞匯,計算機也能理解它們的相關性。
如果是人類來理解,句子 1 和句子 2 幾乎是同樣的含義,而句子 3 卻完全不同。但我們看到句子 1 和句子 2 只有“The”是相同的,沒有其他相同詞匯。計算機該如何理解前兩個句子的相關性?
Embedding將單詞轉換為向量,使得語義相似的句子在向量空間中位置相近。這樣,即使句子1和句子2沒有很多共同詞匯,計算機也能理解它們的相關性。
圖像向量化(Image?Embedding):將圖像數據轉換為向量的過程。
卷積神經網絡和自編碼器都是用于圖像向量化的有效工具,前者通過訓練提取圖像特征并轉換為向量,后者則學習圖像的壓縮編碼以生成低維向量表示。
工作原理:通過算法提取圖像的關鍵特征點及其描述符,將這些特征轉換為高維向量表示,使得在向量空間中相似的圖像具有相近的向量表示,從而便于進行圖像檢索、分類和識別等任務。
視頻向量化(Vedio Embedding):OpenAI的Sora將視覺數據轉換為圖像塊(Turning visual data into patches)。
工作原理:Sora 用visual patches 代表被壓縮后的視頻向量進行訓練,每個patches相當于GPT中的一個token。使用patches,可以對視頻、音頻、文字進行統一的向量化表示,和大模型中的 tokens 類似,Sora用 patches 表示視頻,把視頻壓縮到低維空間(latent space)后表示為Spacetime patches。
OpenAI大模型的核心架構:大力出奇跡。Embedding技術實現文本、圖像、視頻等數據向量化表示,為大型模型提供了豐富的特征輸入。只要模型規模足夠大,這些向量化數據就能驅動模型生成各種所需的內容,體現了“萬物皆可生成”的能力。
文章轉自微信公眾號@架構師帶你玩轉AI