
墨西哥支付方式:是什么?
2021 和 2022 H1 互聯(lián)網(wǎng)流量占比前 6 大公司
2022 H1 視頻流量占互聯(lián)網(wǎng)流量超 65%
目前視頻搜索市場存量很大,主要被 Netflix、YouTube、Disney+、TikTok 等視頻巨頭占領(lǐng),前十大視頻應(yīng)用流量占比超過 52%。根據(jù) Nielsen 的數(shù)據(jù),2021 年美國成年人觀看視頻的時間估算達(dá)到 5 小時 21 秒,接近于每天總清醒時間的四分之一。人們每天都會消費和創(chuàng)建大量的視頻內(nèi)容,巨大的視頻流量意味著對視頻精準(zhǔn)搜索、分類的需求日益顯著。但與文本數(shù)據(jù)不同,視頻中的信息仍然難以通過簡單的 Ctrl+F 來查找。視頻搜索市場能提供的不僅僅是搜索功能;它還包括了內(nèi)容管理、廣告投送和內(nèi)容推薦,這些增值服務(wù)都能通過提高用戶參與度從而促進(jìn)內(nèi)容消費、增加平臺和內(nèi)容制作者的收入來源。好的視頻搜索方式能夠帶來巨大的用戶粘性和商業(yè)價值,因此大量的視頻資產(chǎn)就像未被采掘的金礦。
前十大視頻公司
近兩年的視頻理解模型的發(fā)展已經(jīng)證明了視頻領(lǐng)域的模型可以真正完成理解任務(wù),其中,Twelve Labs 自研的視頻理解模型可以實現(xiàn)對視頻的多模態(tài)搜索(即可以通過文字/圖像對視頻中的聲、畫、音、圖等各種信息進(jìn)行精準(zhǔn)的搜索),在目前小規(guī)模的使用中客戶已經(jīng)感受到了極高的價值。如果視頻多模態(tài)搜索能夠被大范圍應(yīng)用,那么有可能是對視頻應(yīng)用的一次變革。
另外從增量市場上看,Twelve Labs 推出的視頻理解(智能問答、摘要)、視頻分類功能目前位于 0-1 的市場。是 LLM 的出現(xiàn)催生了視頻問答這類 high-level 的視頻理解能力,最快跑出來的好模型、好產(chǎn)品有機(jī)會快速搶占市場份額。視頻智能問答、摘要可以在生產(chǎn)力場景提高人們工作效率,例如在工作中智能總結(jié)視頻以及音頻、在營銷中智能生成營銷的標(biāo)題與標(biāo)簽等。視頻智能分類可以在視頻內(nèi)容管理、視頻智能剪輯的場景中加以利用。
? Twelve Labs 是目前視頻多模態(tài)搜索領(lǐng)域最好的產(chǎn)品:搜索結(jié)果準(zhǔn)確、速度快、泛用性好、產(chǎn)品運營能力強(qiáng)
Twelve Labs 最大的亮點是視頻搜索效果非常準(zhǔn)確,能夠理解抽象概念,在同類中處于絕對領(lǐng)先的位置,客戶普遍評價其搜索質(zhì)量很好,搜索速度快。Twelve Labs 的客戶在選擇供應(yīng)商時經(jīng)常會比較不同的模型和方案,盡管有其它的視頻搜索模型在準(zhǔn)確度測試中能夠接近 Twelve Labs,但它們基本無法做到像 Twelve Labs 這樣能夠理解抽象的概念(例如蒙太奇概念),它們在實際應(yīng)用中的理解力遠(yuǎn)不如 Twelve Labs。有一些傳統(tǒng)的方案視頻理解能力更強(qiáng),但是傳統(tǒng)方案往往需要人工做大量的監(jiān)督和標(biāo)注,欠缺質(zhì)量和效率的平衡。Twelve Labs 的搜索處理時間是視頻原長度的 1/4,對于過往依靠傳統(tǒng)搜索方法的客戶來說,”這個速度幾乎可以被認(rèn)為忽略不計”。
Twelve Labs 產(chǎn)品強(qiáng)大的視頻理解力背后是其訓(xùn)練方式的不同。與大部分同類方案的從圖像開始、逐幀訓(xùn)練不同,Twelve Labs 的模型從視頻開始訓(xùn)練,通過輸入整秒的視頻片段和使用分片技術(shù),讓模型更好地理解時間跨度內(nèi)的概念。Twelve Labs 訓(xùn)練的單位是涉及到抽象概念的場景邊界,確定場景邊界后再移除冗余幀,以提高模型在捕捉空間和時間上下文方面的能力和效率。
除了理解力之外,Twelve Labs 在泛化方面也表現(xiàn)更強(qiáng)。如果客戶需要訓(xùn)練 Twelve Labs 識別新的圖像(例如特定的 logo),Twelve Labs 只需要做少量的訓(xùn)練即可。對比同類型的商用產(chǎn)品(例如 Google vision API),它們則需要客戶創(chuàng)建模型做大量的訓(xùn)練。
客戶普遍認(rèn)為 Twelve Labs 的團(tuán)隊樂于溝通、積極吸收反饋、產(chǎn)品迭代速度快。AI 時代的公司不像互聯(lián)網(wǎng)公司那樣,依靠 “產(chǎn)品—用戶—數(shù)據(jù)” 就能實現(xiàn)圈地閉環(huán)。但 Twelve Labs 作為視頻理解領(lǐng)域第一批跑出來的公司,可以用 “先發(fā)優(yōu)勢—用戶反饋—更好的產(chǎn)品” 構(gòu)建自己的競爭優(yōu)勢。例如,公司最初是以視頻嵌入模型 Marengo 為核心提供視頻搜索功能,但在客戶使用的過程中,公司發(fā)現(xiàn)用戶希望產(chǎn)品可以提供自動為視頻生成文本、視頻 QA 等輔助功能,于是公司開始開發(fā)視頻語言模型 Pegasus,二者實現(xiàn)互補(bǔ),為用戶提供完善的產(chǎn)品。
Twelve Labs 目前的客戶群體主要是擁有中小型視頻庫的企業(yè),這些企業(yè)往往需要細(xì)顆粒度地處理視頻,Twelve Labs 的高質(zhì)量視頻搜索產(chǎn)品極大改善了傳統(tǒng)方案所需的時間和成本。這類客戶能夠向下游客戶收取相對高的溢價,因此對于 Twelve Labs 的價格敏感度較低。但據(jù)客戶反饋,如何實現(xiàn)大規(guī)模視頻搜索可能是 Twelve Labs 正在或即將面臨的商業(yè)化瓶頸和技術(shù)瓶頸。
1)從商業(yè)化的角度看,如果客戶的視頻量再往上加幾個量級,按照目前 Twelve Labs 的搜索方法成本很高,客戶只有用 Twelve Labs 的產(chǎn)品創(chuàng)造更大的商業(yè)價值才能夠負(fù)擔(dān)這樣的成本。而目前視頻搜索的概念相對比較新。一些視頻處理領(lǐng)域的企業(yè)反饋,它們的下游客戶很多還在使用傳統(tǒng)的方式管理視頻、處理視頻內(nèi)容,因此視頻搜索這個概念還沒有在下游客戶中有規(guī)模化的成熟盈利模式。所以 Twelve Labs 以目前的成本可能較難獲得爆發(fā)式增長。我們猜測 Twelve Labs 至少是每秒存儲一次向量,這樣如果有超過 1 萬個視頻成本會非常高,可能需要每 10 秒或每 30 秒存儲一次才可以達(dá)到成本和質(zhì)量的平衡。客戶反饋目前 Twelve Labs 可能正在開發(fā)這種靈活調(diào)整成本和質(zhì)量的功能。如果他們能夠提供這種功能,則有機(jī)會拿下有更多視頻的客戶。
2)從技術(shù)的角度看,目前 Twelve Labs 能夠處理的視頻數(shù)量可能面臨物理意義上的限制。視頻向量存儲在數(shù)據(jù)庫中,必須在內(nèi)存中維護(hù)數(shù)據(jù),這種方法對于可以處理視頻的數(shù)量物理上的限制可能在 10,000 到 100,000 小時,這意味著無法處理超過這個數(shù)量的視頻。YouTube 目前無法實現(xiàn)語義搜索的原因是無法真正處理超過數(shù)以億萬量級的視頻量。現(xiàn)今主流方法都是將向量存儲在數(shù)據(jù)庫中。因此要解決這個問題需要在存儲數(shù)據(jù)方面進(jìn)行新的思考。如果 Twelve Labs 能夠從基礎(chǔ)架構(gòu)或數(shù)據(jù)存儲上解決可擴(kuò)展性的問題,則有機(jī)會可以為像 YouTube 和 Vimeo 這樣的大型視頻庫解決搜索問題、獲得更大的市場。
在下游客戶選擇供應(yīng)商的過程中,與 Twelve Labs 最直接的比較對象主要是 Google、Amazon 和 Microsoft 相應(yīng)的視頻理解模型。盡管客戶認(rèn)為 Twelve Labs 的產(chǎn)品競爭力目前勝于這些 Big Tech 的成熟商用模型,但視頻以及多模態(tài)理解目前是在這些 Big Tech 以及 LLM 公司的主航道上,它們還有許多正處于 stealth 階段、正在研發(fā)、或者是正在進(jìn)行商業(yè)化的模型(例如 Google 的 Gemini Pro (1.5)、VideoCoCA 等?)。這些處于研發(fā)、商業(yè)化嘗試階段的模型暫時沒有產(chǎn)品功能、客戶群體、應(yīng)用成熟度能與 Twelve Labs 匹敵的,但它們是 Twelve Labs 未來最大的潛在競爭者。
Twelve Labs 的產(chǎn)品最核心的功能是視頻搜索(Search),用戶可以僅通過文字/圖片輸入就搜索出視頻中的任何相關(guān)內(nèi)容。此外,Twelve Labs 還開發(fā)了圍繞視頻的場景開發(fā)了不同功能:視頻分類(Classify)功能可以快速對視頻進(jìn)行標(biāo)簽、分類;視頻智能問答(Generate)功能可以對視頻內(nèi)容進(jìn)行總結(jié)、摘要、問答。
Twelve Labs C 端 playground 上的
Search、Classify、Generate
Search 是 Twelve Labs 最核心的產(chǎn)品,用戶可以通過輸入文字、圖片來尋找視頻中的任意內(nèi)容——可以是畫面、聲音,甚至是畫面中的人物、動作、文字、圖片等。
Search 的使用方法非常簡單,企業(yè)客戶可以直接通過 API 將其與自有視頻庫集成;C 端用戶則是在網(wǎng)頁端上傳視頻或直接輸入 YouTube 視頻鏈接。從搜索效果上看,Twelve Labs 的客戶們均認(rèn)為目前市面上還沒有完全可以與 Twelve Labs 的視頻搜索比擬的產(chǎn)品。產(chǎn)品可以在視頻長度 1/4 的時間內(nèi)處理視頻,然后實現(xiàn)搜索(例如 1 h 的視頻需要 15 min 的等待時間)。由于搜索效果良好,因此企業(yè)客戶在等待時間上忍耐度較高。
Search 產(chǎn)品的客戶群體主要包括(1)視頻網(wǎng)站的用戶,例如 YouTube 的用戶;(2)專業(yè)的視頻檔案庫,例如美國宇航局的檔案網(wǎng)站;(3)擁有視頻素材庫的企業(yè)。應(yīng)用場景包括:視頻網(wǎng)站和企業(yè)視頻的內(nèi)容搜索、內(nèi)容審核、證據(jù)搜索、制作和編輯視頻、情景廣告等。
Classify 功能可將視頻自動進(jìn)行分類,用戶可以自定義分類標(biāo)簽,也可以采用產(chǎn)品中的預(yù)定義標(biāo)簽。
傳統(tǒng)的視頻分類的痛點在于需要大量的人力、時間,并且依賴于固定的類別分類法(例如 YouTube 默認(rèn)提供的是 15 個類別),分類效果單一,限制了用戶靈活的需求。而 Twelve Labs 的多模態(tài)理解能力則可以幫助靈活拓展分類標(biāo)簽、快速對視頻分類。
視頻分類功能的最直接的應(yīng)用場景是社媒個性化推薦,此外還有監(jiān)控分類、視頻內(nèi)容管理、廣告商尋找達(dá)人、體育視頻分析、自動視頻剪輯,語境廣告(根據(jù)視頻內(nèi)容進(jìn)行精準(zhǔn)廣告投放)等。
Generate 功能是為視頻生成總結(jié)和摘要,用戶也可以通過 prompt 對視頻的任意內(nèi)容進(jìn)行提問。產(chǎn)品可以通過 API 支持本地云、私有云以及內(nèi)部部署。其應(yīng)用場景包括在工作中智能總結(jié)視頻以及音頻、在營銷中智能生成營銷的標(biāo)題與標(biāo)簽、在實時監(jiān)控中協(xié)助警方工作等。
視頻的研究最開始是圖像研究的拓展,傳統(tǒng)上是通過一些數(shù)字圖像信號處理方法來實現(xiàn) low-level 的視頻感知(如識別顏色、紋理)。2013 年以來深度學(xué)習(xí)和計算機(jī)視覺的興起讓人們開始使用 AI 來執(zhí)行視頻感知任務(wù),但初期仍然局限于有限的基礎(chǔ)任務(wù),例如目標(biāo)檢測和圖像分割等。
當(dāng)前研究的主流是較高層次的視頻理解(如識別物體、動作或事件)。視頻理解的目的是讓計算機(jī)像人一樣“看懂”視頻內(nèi)容。下圖給出了視頻理解研究的范疇,包括視覺-語言理解和視頻生成兩大領(lǐng)域。
視頻理解的研究范疇
(來源:Foundation Models for Video Understanding: A Survey)
從 2000 年到 2022 年,視頻生成領(lǐng)域的 publication 在視頻理解的研究中增長數(shù)量最多。而視頻-語言理解范疇的視頻檢索、視頻問答(QA)、視頻描述的研究在 2020 年前后才逐漸涌現(xiàn),目前仍處于 0-1 的商業(yè)化階段。本文聚焦于討論視覺-語言理解。
視頻理解研究在 2000 -2022 年的發(fā)展
( 來源:Foundation Models forVideo Understanding: A Survey)
視覺-語言理解任務(wù)可以分為視頻檢索、視頻描述、視頻問答三個低、中、高層級的任務(wù)(如下圖)。其主要挑戰(zhàn)在于:1/ 視覺-語言模型架構(gòu)如何效捕捉復(fù)雜的跨模態(tài)交互。視頻結(jié)合了視覺和聽覺信息,這涉及空間交互和時間交互兩個方面。空間交互探討物體之間的關(guān)系,而時間交互捕捉視頻幀之間的順序依賴關(guān)系。另外不同的視覺表情、肢體語言、口頭語言以及視頻的整體語境都會影響整體含義,因此需要多模態(tài)基礎(chǔ)模型和各種數(shù)據(jù)源的整合,以捕捉視頻的豐富性和多維性。2/ 模型訓(xùn)練方法如何讓模型架構(gòu)適應(yīng)多任務(wù)、多領(lǐng)域。與語言模型在各行各業(yè)有許多成熟的細(xì)分應(yīng)用場景不同,視頻模型內(nèi)容天然地涵蓋多樣化的內(nèi)容,所以獲得一個能夠用于多任務(wù)、多領(lǐng)域的模型比特定任務(wù)的模型更有現(xiàn)實意義。3/ 如何有效地存儲、標(biāo)注、計算視頻數(shù)據(jù)。視頻處理與文本或圖像處理相比關(guān)注度較少的一個原因在于其的高計算負(fù)擔(dān)。視頻的大小遠(yuǎn)大于文本或圖像,計算能力問題在 Transformer 架構(gòu)中尤為明顯,因為 Transformer 采取的 self-attention mechanism 使得 token 長度的計算復(fù)雜度呈平方增長。
視覺-語言理解任務(wù)的低、中、高層級
( 來源:Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives)
其中,視覺-語言模型架構(gòu)是最關(guān)鍵的問題。視覺-語言模型架構(gòu)的發(fā)展大致可分為三個階段。1/ Pre-Transformer 階段的研究集中在如何有效融合視頻和語言特征,代表性架構(gòu)有單模態(tài)編碼器(如 CNN、RNN);語言編碼器 (如word2vec);以及跨模態(tài)編碼器。2/ Transformer-based 階段引入了 self-attention mechanism,使得模型可以高效并行處理長序列和捕捉長期依賴關(guān)系。這一階段同樣也有單模態(tài)、多模態(tài)編碼器。典型的單模態(tài)編碼器有如 Vision Transformer 用于視頻編碼、BERT 用于語言編碼。但是單模態(tài)模型僅專注于單一類型數(shù)據(jù),我們判斷視頻的性質(zhì)使得視頻理解的發(fā)展必然需要多模態(tài)模型。3/ LLM 的出現(xiàn)進(jìn)一步了增強(qiáng)視覺-語言模型架構(gòu),此階段的架構(gòu)包括 LLM 作為控制器的方法和 LLM 作為輸出生成器的方法。后者是主流方法,由于 LLM 在訓(xùn)練過程中從未見過視頻,因此需要一個對齊的步驟將視頻的視覺語義和 LLM 的語義對齊。
Twelve Labs 的 vision 是建立 video-native 的多模態(tài)視頻基礎(chǔ)模型。現(xiàn)階段 Twelve Labs 的核心自研模型有兩個,一個是視頻基礎(chǔ)模型 Marengo-2.6,用于執(zhí)行視頻搜索和分類任務(wù)。但從可以執(zhí)行的任務(wù)來看這還算不上是一個通用的視頻基礎(chǔ)模型。該模型最大的特點是將視頻轉(zhuǎn)換為多模態(tài)視頻原生嵌入,這種嵌入空間對于跨模態(tài)搜索和分類非常有用,也是 Twelve Labs 的優(yōu)勢所在。另一個是視頻-語言模型 Pegasus1,用于執(zhí)行視頻智能問答任務(wù),是視覺理解和文本理解之間的橋梁。據(jù)用戶反饋,Twelve Labs 產(chǎn)品的優(yōu)勢特點在于對視頻內(nèi)容的理解力、可以實現(xiàn)多模態(tài)搜索、以及可以通過 API 實現(xiàn)端到端的簡單集成。另外從基準(zhǔn)測試效果上看,Twelve Labs 的準(zhǔn)確性領(lǐng)先;從應(yīng)用上看它還可以通過微調(diào)應(yīng)用到特定領(lǐng)域。
除了核心模型外,Twelve Labs 平臺架構(gòu)中還有 Engine options 是用于處理不同類型的信息,Processing Engine 用于支持下游的 3 個核心功能:搜索、生成,和分類。
Marengo-2.6 將視頻轉(zhuǎn)換為多模態(tài)視頻原生嵌入,從而可以 scale up 執(zhí)行任務(wù),無需存儲整個視頻。Marengo-2.6 已經(jīng)在大量視頻數(shù)據(jù)上進(jìn)行了訓(xùn)練,訓(xùn)練重點是在綜合多模態(tài)數(shù)據(jù)集上進(jìn)行自我監(jiān)督學(xué)習(xí)。目前的訓(xùn)練數(shù)據(jù)集包含 6000 萬個視頻、5 億張圖片,和 50萬段音頻。模型可以識別視頻中的實體、動作、模式、運動、物體、場景等多種元素。因此,Marengo-2.6 支持任意到任意的檢索任務(wù)(包括文本到視頻、文本到圖像、文本到音頻、音頻到視頻和圖像到視頻)。但目前僅提供文本/圖像輸入執(zhí)行搜索任務(wù),文本輸入執(zhí)行分類任務(wù),公司表示未來很快會發(fā)布更廣泛的基準(zhǔn)模型。此外,模型還通過引入 Reranker 模型,增強(qiáng)時間定位功能,獲得精確的搜索結(jié)果。
Marengo 架構(gòu)
目前開放的 Pegasus1 open-beta version 擁有大約 170 億個參數(shù)( Pegasus1 alpha version 擁有大約 800 億個參數(shù)), Pegasus1 通過將文本和視頻數(shù)據(jù)整合到一個共同的嵌入空間,在視覺理解和文本理解之間架起了一座橋梁,支持從視頻到文本生成的多種功能。Pegasus1 目前被用于處理視頻內(nèi)容上下文中生成或理解自然語言的任務(wù),例如總結(jié)視頻和回答問題。該模型集成了三個主要組件來處理和解釋視頻數(shù)據(jù):
? 視頻編碼器模型 Video encoder model:該組件基于 Marengo 嵌入模型,將視頻和音頻作為輸入,通過分析幀及其時間關(guān)系,輸出封裝了視覺、音頻和語音信息的多模態(tài)視頻嵌入。
? 視頻語言對齊模型 Video-language alignment model: 該組件將視頻編碼器模型 video enconder model 生成的視頻嵌入信息與文本領(lǐng)域對齊,確保大語言模型解釋視頻嵌入信息的方式與解釋文本標(biāo)記的方式相似。該模型輸入視頻嵌入,輸出與視頻語言對齊的嵌入。
??大語言模型-解碼器 Large language model – decoder:?該組件根據(jù)用戶提供的 prompt 解釋對齊的嵌入信息,并將信息解碼為連貫、人類可讀的文本。該模型輸入視頻語言對齊嵌入,用戶提示;輸出文本。
Pegasus 架構(gòu)
公司在成立一年多(2021 年 3 月)后,開始擁有付費客戶。2023 年 6 月,公司推出了 Search API。目前已超過 2 萬名開發(fā)者在使用該產(chǎn)品,每月 API 調(diào)用次數(shù)就已突破百萬。2023 年,公司接觸了 10 多個不同行業(yè)的數(shù)百家客戶。客戶主要有三類,一是娛樂媒體公司,它們要處理大量細(xì)顆粒度的視頻;二是廣告相關(guān)的公司,視頻的上下文理解可以幫助他們更好地插入廣告;第三是公共安全公司,它們需要智能監(jiān)控服務(wù)。
因此,Twelve Labs 目前主要的客戶是擁有、或需要處理中小型視頻庫的企業(yè)級客戶。其商業(yè)模式是為開發(fā)者和企業(yè)用戶提供 API,按時長收費。C 端用戶亦可以在公司官網(wǎng)上使用產(chǎn)品,但不是目前主要收入來源。
產(chǎn)品收費模式
? dSky.ai
dSky.ai 主要在好萊塢和媒體制作行業(yè)幫助制造電影、電視。它使用 Twelve Labs 技術(shù)幫助客戶管理和快速搜索大量的視頻檔案。dSky.ai 評價 “Twelve Labs的價值是將視頻搜索從無限長的時間縮短到無限小” 。dSky.ai 選擇 Twelve Labs 的原因在于價格競爭力、技術(shù)優(yōu)勢(Twelve Labs的技術(shù)能夠從少量訓(xùn)練數(shù)據(jù)中進(jìn)行泛化)以及初創(chuàng)公司合作的靈活性。dSky.ai 每年花費約 100 萬美元,Twelve Labs的費用占到了dSky.ai向客戶收費的20%到40%。
? Source Digital
Source Digital 是一家內(nèi)容增強(qiáng)公司,通過為視頻標(biāo)注人物和產(chǎn)品,分辨視頻的最佳廣告位。使用 Twelve Labs 每月花費約 1 萬美元,使用后視頻購物廣告用戶點擊次數(shù)增加了 3 倍。公司評價 “Twelve Labs 在視頻搜索有 97% 的準(zhǔn)確率,而同類的Google video AI 只有40-50%” ,但是公司認(rèn)為 “Twelve Labs 的收費太貴,不是所有下游客戶都需要使用。”
? MindProber
MindProber 記錄用戶觀看電視過程中的生理數(shù)據(jù),為廣告商提供最佳廣告插放位置。公司利用 Twelve Labs 技術(shù)檢測視頻中的 logo 并標(biāo)記用戶生理數(shù)據(jù)。公司評價 “相比于Google Vision API,Twelve Labs 的泛用性更強(qiáng),性價比更高,可以開箱即用。” 公司認(rèn)為其傳統(tǒng)替代方案(如LogoGrab)的精度更好但是需要非常多人工干預(yù),精度和速度無法平衡。
? Virtulley
Virtulley 為企業(yè)組織遠(yuǎn)程活動,使用 Twelve Labs 提供的視頻搜索和分析服務(wù)記錄參與者反應(yīng),通過參與者的反饋提高活動質(zhì)量,并剪輯精彩片段。每月花費在 7000~8000 美元之間。公司認(rèn)為 “Twelve Labs收費較高,但其視頻搜索和分析功能吸引力很大。”
媒體制作公司是 Twelve Labs 目前占比較大的客戶群體。在媒體制作中,快速找到理想的視頻內(nèi)容至關(guān)重要。傳統(tǒng)上,媒體資產(chǎn)依賴手動打標(biāo)簽管理或元數(shù)據(jù)搜索,存在準(zhǔn)確性和可擴(kuò)展性問題。
示例 : 傳統(tǒng)上,使用元數(shù)據(jù)搜索
( 來源:MediaCentral 產(chǎn)品 )
因此?Twelve Labs 的技術(shù)在媒體和娛樂領(lǐng)域有廣泛應(yīng)用,例如優(yōu)化視頻資產(chǎn)歸檔、管理和制作流程。語義搜索功能可以根據(jù)用戶的搜索提供推薦,讓視頻編輯者接觸到他們可能沒有考慮過的潛在相關(guān)內(nèi)容,在加快工作流程的同時激發(fā)新的創(chuàng)意。另外還能應(yīng)用在通過個性化推薦提高用戶參與度、識別最佳廣告機(jī)會等。
MediaCentral 中的推薦引擎示例
( 來源:MediaCentral 產(chǎn)品 )
Twelve Labs 正在積極拓展與媒體資產(chǎn)管理(MAM)提供商產(chǎn)品的集成,以提高用戶的視頻處理體驗。例如:與 Blackbird (AIM:BIRD) 的云原生視頻編輯平臺合作,將產(chǎn)品作為插件集成到其平臺中,提升視頻編輯效率;與媒體資產(chǎn)管理和工作流程自動化解決方案公司 EMAM 合作,將產(chǎn)品集成到其平臺中。與大數(shù)據(jù)傳輸服務(wù)公司 MASV合作,簡化視頻處理,提升生產(chǎn)和編輯效率。與 CineSys 的視頻播放平臺合作,簡化后期視頻制作流程。與社交媒體數(shù)據(jù)分析 Phyllo合作,實現(xiàn)視頻內(nèi)容的高效搜索和詳細(xì)分析,從而優(yōu)化營銷策略。
Twelve Labs 與數(shù)字化轉(zhuǎn)型公司 Arvato 合作,讓體育行業(yè)的客戶可以用自然語言搜索準(zhǔn)確視頻內(nèi)容
創(chuàng)始團(tuán)隊
2021 年 3 月,CEO 和四位聯(lián)合創(chuàng)始人一起創(chuàng)辦了公司。目前團(tuán)隊大約 80 多人。
CEO Jae Lee 出生在首爾,在 10 來歲的時候隨著在田納西大學(xué)攻讀統(tǒng)計學(xué)博士的叔叔來到了美國,從小接觸了許多統(tǒng)計學(xué)的方法,11 歲就開始學(xué)習(xí) Matlab,后來獨自留在在美國繼續(xù)自己對統(tǒng)計學(xué)和計算機(jī)科學(xué)的研究興趣以及學(xué)業(yè)。Jae 和 Aiden Lee、Sungjun Kim 是一起在韓國軍隊(韓國國防部的 R.O.K Cyber Operations Command 部門)作戰(zhàn)的戰(zhàn)友,他們在軍隊中一起做了很多視頻的底層研究,熱衷于打造智能系統(tǒng),做了許多多模態(tài)視頻理解的研究。他們曾想在學(xué)術(shù)界發(fā)展,但是他們想做的研究的產(chǎn)品需要大規(guī)模的數(shù)據(jù),于是一拍即合一起創(chuàng)業(yè)。Jae 和另一位聯(lián)合創(chuàng)始人 Soyoung Lee 是十幾年的老朋友,Soyoung 喜歡和開發(fā)者交流、喜歡技術(shù)。
我們認(rèn)為 Twelve Labs 的核心團(tuán)隊是視頻理解賽道上的一個比較好的團(tuán)隊。1/ 前面我們已經(jīng)分析,視頻理解模型的大規(guī)模商業(yè)化需要在基礎(chǔ)研究上有大的突破。盡管從團(tuán)隊的學(xué)術(shù)背景上看 Twelve Labs 不是該領(lǐng)域的最強(qiáng)團(tuán)隊,但從已取得的模型效果上看是處于領(lǐng)先位置,未來的關(guān)鍵在于能否在基礎(chǔ)研究上持續(xù)取得突破。2/ 作為前沿領(lǐng)域的 AI 公司,Twelve Labs 需要在工程上能夠快速迭代、快速測試不同的想法,并且在獲得實驗結(jié)果后快速部署,才能持續(xù)保持競爭優(yōu)勢。Twelve Labs 的團(tuán)隊在工程能力上較強(qiáng),團(tuán)隊項目經(jīng)驗豐富。2021 年,公司在 Microsoft 主辦的 ICCV VALUE 挑戰(zhàn)賽中一舉成名,以優(yōu)異的成本、性能在騰訊、百度等對手中名列前茅。此次比賽是 Twelve Labs 高速成長的推進(jìn)器,為公司吸引來了來自 Index Ventures 的第一筆種子輪投資,隨后飛速成長、建立聲譽(yù)。3/ 產(chǎn)品力和運營能力也是新型領(lǐng)域公司商業(yè)化的關(guān)鍵。客戶普遍反饋 Twelve Labs 的團(tuán)隊溝通積極、能夠及時響應(yīng)反饋和調(diào)整產(chǎn)品。例如,視頻生成文本的功能(視頻語言模型 Pegasus1)正是在客戶的強(qiáng)烈要求下推出的,為客戶實現(xiàn)與視頻搜索相輔相成的功能。
VerifiedMarket 估計 2023 年視頻搜索的市場規(guī)模大約在 283 億美金,這部分的市場主要來自于 “傳統(tǒng)” 玩家,它們利用自然語言處理、計算機(jī)視覺、機(jī)器學(xué)習(xí)和數(shù)據(jù)分析等技術(shù)的組合提供搜索算法,這些算法能夠根據(jù)用戶查詢或偏好來理解、索引和檢索視頻內(nèi)容,主要服務(wù)于安全和監(jiān)控、智能家居、視頻管理等行業(yè)。玩家有如 Agent Vi、Genetec、Verkada、Vivint、Bosch (Bosch Sicherheitssysteme)、BriefCam、Identiv等。下面列舉了幾家公司的情況:
? Agent Vi:一家企業(yè)視頻分析軟件公司,主要用于安全領(lǐng)域的監(jiān)控和保證,其視頻搜索功能包括高級視頻分析和搜索功能。該公司被 Livly 以 6,750 萬美元的價格收購。
? Genetec:一家安全系統(tǒng)領(lǐng)域的公司,提供視頻監(jiān)控、訪問控制和自動車牌識別等解決方案。年收入約為 5 億美元。
? Verkada:一家基于云的 B2B 物理安全平臺公司,其中視頻安全攝像頭是核心產(chǎn)品之一,提供視頻搜索和分析功能。2016 年成立以來融資超過 4.4 億美元。
? Vivint:Vivint 提供智能家居自動化和視頻監(jiān)控解決方案,其視頻搜索功能集成于智能家居系統(tǒng)中。市值約 25 億美元,年收入約 16.8 億美元。
這些 “傳統(tǒng)” 玩家提供終端的視頻解決方案,提供特定領(lǐng)域的視頻產(chǎn)品,但視頻搜索、視頻分析是其產(chǎn)品的一項核心功能。所以這部分市場并不是 Twelve Labs 直接對標(biāo)的市場,而更有可能是 Twelve Labs 的下游市場。市場上在做視頻搜索領(lǐng)域基礎(chǔ)模型的人相對較少,但這方面有大量的 use case,例如上述的監(jiān)控領(lǐng)域,還有醫(yī)療保健、教育、娛樂、工業(yè)方面的 use case。
在客戶選擇供應(yīng)商的過程中,最直接的比較對象來自三大 Big Tech,例如有 Microsoft Azure video services(已關(guān)停)、Microsoft Azure AI Video Indexer、Amazon Rekognition、Google Video Intellignce、Google Vision API。據(jù)用戶反饋:Microsoft Azure video services 定價最低但是產(chǎn)品力欠缺;Google Video Intellignce 的準(zhǔn)確率不如 Twelve Labs(Twelve Labs 在視頻搜索有97%的準(zhǔn)確率,Google video AI 只有40-50%);相比與 Google Vision API,Twelve Labs 更加開箱即用,并且泛用性更強(qiáng),需要的訓(xùn)練數(shù)據(jù)遠(yuǎn)小于Google Vision API。除了 Big Tech 外,一些傳統(tǒng)的視頻搜索方案也是競爭對象,例如 LogoGrab 的精度更好但是需要非常多人工干預(yù),精度和速度無法平衡。
從 startup 的角度來說,暫時并未 mapping 到產(chǎn)品功能和客戶群體相似度高的 startup,最相近的是 Gloss AI,其次是細(xì)分場景的 comp,具體如下:
此外,對客戶而言,Twelve Labs 的替代方案主要是自行構(gòu)建視頻搜索系統(tǒng),這需要大量的工程投入和時間。具體過程包括使用視頻轉(zhuǎn)錄服務(wù)將視頻轉(zhuǎn)換為嵌入數(shù)據(jù),然后使用 Pinecone、Vectra 或 Perplexity AI 等工具(或開源工具如 FAISS 和 Annoy)進(jìn)行數(shù)據(jù)存儲和搜索。雖然這種方法是可行的,但確實需要耗費大量的工程資源和時間。
Twelve Labs 最大的風(fēng)險來自于 Big Tech 正在研發(fā)、而未進(jìn)入成熟商業(yè)階段的模型。Big Tech 在多模態(tài)模型的研究范圍很廣,從 Twelve Labs 的三個主要業(yè)務(wù):Search、Generate(視頻智能問答)、Classify 來看,Big Tech 各有相應(yīng)的可比/功能相似的模型。由于模型眾多,我們從客戶訪談以及公司主要對比的 benchmark 中選取了重要對比模型,例如(1)搜索方面有 Google 的 Gemini Pro (1.5)、VideoCoCA、 Vid2Seq、VATT;北大和騰訊合作的 LanguageBind 等。(2)視頻問答方面有 Google 的 Gemini Pro (1.5);Allen AI 研究所的 MERLOT Reserve;以及 Video-ChatGPT、VideoChat2 等。(3)視頻標(biāo)記、內(nèi)容推薦、搜索推薦領(lǐng)域則有 YouTube、Spotify 多年深耕其中、應(yīng)用成熟。
雖然功能相似的模型很多,Twelve Labs 和 Big Tech 的區(qū)別主要在于:1/ 從較高的層次來看,Big Tech 主要聚焦的是多模態(tài)的研究,只是其中必然或多或少涉及到視頻檢索或生成,但他們并不是直接針對視頻搜索、生成的市場,所以視頻搜索、生成只是其研究中的一個小部分,或者只是一個小測試。從目前客戶的反饋上看我們認(rèn)為這些處于研發(fā)階段的模型沒有產(chǎn)品功能、客戶群體、應(yīng)用成熟度能與 Twelve Labs 同步的。2/ Twelve Labs 在不同的訪談中都有提到,公司長遠(yuǎn)的愿景的讓 AI 像人類一樣理解世界,而公司采取的第一步是 “視頻優(yōu)先” 的策略。所以我們可以認(rèn)為,Big Tech 和 Twelve Labs 長遠(yuǎn)的 vision 是相似的,不過 Big Tech 的研究 “全面覆蓋” 的,而?Twelve?labs 的策略是 “以點破面” 的。當(dāng)然這也與其商業(yè)位置有關(guān),Big Tech 也許并不著急商業(yè)化,而作為初創(chuàng)的Twelve Labs需要先做出產(chǎn)品生存立足,再往大的vision 發(fā)展。3/ 在視頻搜索中,建立索引和搜索的成本/時間占比大約 8:2,因此建立索引的技術(shù)路徑是不同多模態(tài)模型的主要區(qū)別,相應(yīng)的策略和技術(shù)有很多種路徑。4/ 從公司公布的模型測試上來看,Twelve Labs 模型在三個核心產(chǎn)品對應(yīng)的任務(wù)上,其性能優(yōu)于主要的可比模型。
Search、Generate、Classify 產(chǎn)品的可比模型
公司于 2020 年成立。至今融資超過 8700 萬美元,最新輪次是 A 輪,由 NEA 和 Nvidia 領(lǐng)投(公司是 NV 投的第一個韓國的初創(chuàng)公司)。公司股東還包括 Intel Capital,Samsung NEXT Ventures,Index Ventures,Radical Ventures,Korea Investment Partners 等,此外公司還吸引多位學(xué)術(shù)界、業(yè)界的知名人士投資,例如李飛飛,Alexandr Wang(Scale AI 創(chuàng)始人)等。
團(tuán)隊與投資人
融資歷史
文章轉(zhuǎn)自微信公眾號@海外獨角獸