第二受歡迎的數(shù)據(jù)集包含來自附在衣服上的攝像機(jī)的記錄:

但這只是其中很小的一部分。還有“動(dòng)作分類”、“視頻分類”和“自監(jiān)督動(dòng)作識(shí)別”等任務(wù)(這些是部分重疊的任務(wù) 1、2、3)。有帶骨架的數(shù)據(jù)集;有帶烹飪過程的數(shù)據(jù)集:

在某些數(shù)據(jù)集中,它是短視頻;無關(guān)緊要的是長(zhǎng)視頻。

什么是動(dòng)作?動(dòng)作是可以在視頻上標(biāo)記的事件,并且事先知道它可以在那里發(fā)生。人、機(jī)器、動(dòng)物或其他東西可以產(chǎn)生事件。為什么我更喜歡這個(gè)定義?通常,在實(shí)踐中(99% 的時(shí)間),動(dòng)作識(shí)別用于某些確定性過程。確定發(fā)生了需要計(jì)數(shù)/說明/控制的某些事件。

對(duì)于實(shí)際的 ComputerVision 任務(wù),這個(gè)定義通常是正確的,但對(duì)于需要“通用定義”的學(xué)術(shù)研究來說,它并不那么好。它也不適用于所有視頻流和內(nèi)容分析系統(tǒng)。

它有什么不同?什么是“現(xiàn)實(shí)世界的任務(wù)”?實(shí)際任務(wù)通常具有有限的數(shù)據(jù)、攝像機(jī)位置和情況。例如,我從未見過需要從任何角度找到 400 種不同動(dòng)作的任務(wù)。相反,現(xiàn)實(shí)世界的問題可能是這樣的:

這只是其中很小的一部分。但仍然:

我將描述的方案通常適用于許多任務(wù)。我將從比學(xué)術(shù)方法簡(jiǎn)單得多的方法開始。并以更具實(shí)驗(yàn)性和學(xué)術(shù)性的方法結(jié)束。

為了清楚起見,在大多數(shù)例子中,我將使用人作為參考,從側(cè)面某處看。

我不會(huì)在這里寫。相同的算法用于視頻分析任務(wù)。我相信 Youtube 和 Netflix 有很多動(dòng)作識(shí)別和視頻分類。

2、區(qū)域檢測(cè)

好的,讓我們從一個(gè)基本想法開始。假設(shè)你想識(shí)別某人何時(shí)按門鈴。你將如何做?

在這種情況下,你能做的最后一件事是從 Papers With Code 的首選開始運(yùn)行訓(xùn)練。畢竟,從以下內(nèi)容檢測(cè)某些東西要容易得多:

你不需要火箭科學(xué)。一個(gè)訓(xùn)練有素的檢測(cè)器和良好的定位相機(jī)就可以工作。工作結(jié)果將得到保證和可解釋。例如,如果沒有檢測(cè)到手,你可以了解原因 – 并嘗試重新訓(xùn)練它(手套/奇怪的光線等)。

所以。物體檢測(cè)->檢查工作區(qū)域->檢查相關(guān)條件工作非常出色:

基本思路是,你不需要行動(dòng);你需要了解發(fā)生了什么。

3、對(duì)象檢測(cè)

方法大致相同,其中動(dòng)作描述是對(duì)象。當(dāng)然,“在一般情況下”,你手中的煎鍋并不意味著什么。但是,了解攝像頭安裝的環(huán)境,它可能是在廚房里“做飯”,在商店里“賣東西”,或者在 PUBG 中“打架”。

通過結(jié)合“位置”和“對(duì)象”之間的邏輯,你可以組合長(zhǎng)動(dòng)作或動(dòng)作序列。

對(duì)象可以是任何東西??蚣苤械囊路?產(chǎn)品/汽車等。

4、時(shí)序動(dòng)作

讓我們繼續(xù)討論處理視頻片段的方法。在這里,我會(huì)立即將“一段視頻”的概念分成兩種:

有什么區(qū)別?當(dāng)你需要處理視頻時(shí),神經(jīng)網(wǎng)絡(luò)非常不方便。最好有更高的性能、更復(fù)雜的數(shù)據(jù)集和更苛刻的訓(xùn)練。一種擺脫處理視頻的方法是預(yù)先檢測(cè)骨架并使用它。這可能是:

人物骨骼

動(dòng)物骨骼

手臂骨骼

臉部點(diǎn)模型

物體的骨架模型(汽車、沙發(fā)等)。當(dāng)然,更有趣的是那些可以動(dòng)態(tài)的模型,例如挖掘機(jī)/機(jī)器人/等

骨骼動(dòng)畫會(huì)丟失可能至關(guān)重要的紋理信息:衣服、與之交互的物體和面部表情……

也可以將兩個(gè)領(lǐng)域的某些內(nèi)容結(jié)合起來。例如,將骨骼用于可以從骨骼中識(shí)別出的部分動(dòng)作。以及不能使用紋理信息的方法。

5、分類,經(jīng)典方法

這里有一個(gè)很好的實(shí)現(xiàn)經(jīng)典分類的方法集合:

MMAction 是一個(gè)基于 MMCV 和 PyTorch 的開發(fā)但粗糙的框架。它變得越來越好。但還遠(yuǎn)遠(yuǎn)不夠完美。

PyTorchVideo 是 Facebook 嘗試制作一個(gè)模擬,但它仍然很弱。但原生的 PyTorch。

從全局來看,任務(wù)是按原樣設(shè)置的,現(xiàn)在仍然是?!拜斎胍欢褞保ɑ蚬羌埽敵鰟?dòng)作。一切都始于 2D 卷積:

然后的發(fā)展對(duì)應(yīng)于經(jīng)典的“骨干,衰減”

將所有內(nèi)容移至 TimesFormer(所有軸上的transformer)

現(xiàn)在他們甚至把 RL 放在了它之上

2023年最流行的是超大型預(yù)訓(xùn)練網(wǎng)絡(luò)(我們稍后會(huì)談到它們)。

注意:此外,所有基準(zhǔn)測(cè)試通常都在不同的數(shù)據(jù)集上,因此您無法進(jìn)行比較。

可能需要注意的是,所有方法都存在相同的問題:

關(guān)于“使用整個(gè)視頻”與“使用裁剪視頻”的工作。選擇算法時(shí)不要忘記這一點(diǎn),并正確選擇它。你可以一次識(shí)別整個(gè)視頻,也可以識(shí)別人物的區(qū)域(預(yù)先檢測(cè)和跟蹤)。在第一種情況下,幀中有許多人時(shí)會(huì)出現(xiàn)問題。但是,當(dāng)幀中有大量信息來幫助識(shí)別動(dòng)作時(shí),它會(huì)很好地工作。

此外,關(guān)于骨骼動(dòng)畫分類的幾句話:那里沒有什么魔法。文章很少。最好的作品是 PoseC3D,它屬于上述 MMAction。這些作品的主要區(qū)別在于精確使用卷積網(wǎng)絡(luò),而不是在點(diǎn)陣列上工作的經(jīng)典方法:

但是,如你所見,該模型對(duì)于 2021 年來說足夠簡(jiǎn)單。并且它有很多地方使用:

許多網(wǎng)絡(luò)都在處理點(diǎn)陣列。但是,由于速度快,我更經(jīng)常使用它們。

6、無監(jiān)督 / 聚類 / 嵌入

Papers with code中的 Zero-shot 帶代碼。自監(jiān)督也在那里。

我能擺脫一些問題嗎?是的。你可以擺脫數(shù)據(jù)集收集和訓(xùn)練。當(dāng)然,這有利于準(zhǔn)確性。

當(dāng)前頂級(jí)方法使用類似 CLIP 的神經(jīng)網(wǎng)絡(luò) + 一些技巧。例如,蒙版視頻編碼器(或其他一些技巧)。

一般來說,大多數(shù)方法都是基于創(chuàng)建一些表征動(dòng)作的“嵌入”向量。

但當(dāng)然,主要問題是一樣的。訓(xùn)練數(shù)據(jù)集與你將使用的數(shù)據(jù)集有多遠(yuǎn)?

另一種流行的方法是自監(jiān)督。當(dāng)我們?cè)跀?shù)據(jù)集 A 上進(jìn)行訓(xùn)練,用這個(gè)網(wǎng)絡(luò)標(biāo)記數(shù)據(jù)集 B,并在這個(gè)“自動(dòng)標(biāo)記”的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)。有時(shí)可以使用這種方法(當(dāng)數(shù)據(jù)集很大但不容易標(biāo)記時(shí))。

這在近年來準(zhǔn)確率如何進(jìn)步的圖像中??也很明顯,關(guān)于錯(cuò)誤我們稍后會(huì)討論。

隨著最新的大型數(shù)據(jù)集預(yù)訓(xùn)練模型的發(fā)布,事情將變得相當(dāng)簡(jiǎn)單。

7、骨骼和 3D 動(dòng)畫

以下是幾個(gè)示例。這里許多動(dòng)作都被骨骼成功識(shí)別(我與這家公司合作過很多次):

對(duì)于某些動(dòng)作,1-2 個(gè)示例足以進(jìn)行訓(xùn)練。但你必須非常小心選擇實(shí)施的位置。
以下是有關(guān)該主題的一些學(xué)術(shù)論文和排序,以幫助構(gòu)建邏輯。

當(dāng)然,每個(gè)人都通過嵌入來實(shí)現(xiàn)這一點(diǎn),但神奇之處在于如何創(chuàng)建它。

幾年前在 ODS Data Fest 上,來自 Yandex 的人對(duì)人臉模型(68 分)說了類似的話(骨架嵌入),形成嵌入并使用它們來設(shè)置數(shù)據(jù)集/分類動(dòng)作:

但視頻是俄語的。

有幾個(gè)項(xiàng)目為手生成了嵌入。其中一個(gè)是這樣的:

我覺得應(yīng)該有人在產(chǎn)品中使用它來識(shí)別/記住手勢(shì)。我們已經(jīng)使用了類似的方法進(jìn)行時(shí)間手部過濾和咀嚼速度計(jì)算。

計(jì)算簡(jiǎn)單,易于訓(xùn)練(你不必在另一個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練),邏輯簡(jiǎn)單。如果將其與傳統(tǒng)方法進(jìn)行比較,錯(cuò)誤也有所不同!

8、預(yù)訓(xùn)練

近年來的一個(gè)趨勢(shì)是出現(xiàn)了強(qiáng)大的預(yù)訓(xùn)練網(wǎng)絡(luò)。近年來最有趣的網(wǎng)絡(luò)是 InterVideo。但到目前為止,只有一些聲明的功能出現(xiàn)在開源中。它看起來很神奇:

并非所有事情都令人興奮。這樣的網(wǎng)絡(luò)只需訓(xùn)練一次,因?yàn)橐唤淌诰W(wǎng)絡(luò)的一部分,你需要 128 個(gè) A100 持續(xù)兩周。

在 Inter Video 的情況下,它是兩個(gè)編碼器的訓(xùn)練:

在此之后,對(duì)下游任務(wù)進(jìn)行transformer訓(xùn)練。

未來幾年,這一領(lǐng)域可能會(huì)取得重大進(jìn)展。當(dāng)前的實(shí)現(xiàn)將變得更快,使用調(diào)整的成本也更低。

9、無監(jiān)督與監(jiān)督

然而,我描述了監(jiān)督和無監(jiān)督方法。哪一個(gè)更容易/更快/更方便?哪一個(gè)在哪里使用?

同樣,這個(gè)問題沒有明確的答案:

正如我之前提到的,在 OneShot 視頻數(shù)據(jù)集上,錯(cuò)誤率相差三倍。而在 OneShot 骨架和骨架之間的數(shù)據(jù)集上,錯(cuò)誤率相差三倍,等等。

但在這里,你必須明白錯(cuò)誤率并不統(tǒng)一。有些動(dòng)作幾乎可以完美地被 OneShot 識(shí)別。這些主要是與紋理沒有交互的短動(dòng)作。最好是沒有變化的活動(dòng)。例如,你可以用一百種方式“摔倒”。但“從地板上撿起盒子”可能只有一種正確方式,而有兩三種方式是錯(cuò)誤的。對(duì)于某些算法來說,角度至關(guān)重要。

相關(guān)API

容聯(lián)云【AI視覺】提供視頻采集+海量識(shí)別算法+智能檢測(cè)+統(tǒng)計(jì)分析,深耕行業(yè)解決方案,包括 1、智慧營(yíng)業(yè)廳——超柜代客檢測(cè)、加鈔間檢測(cè)、箱包交接檢測(cè)等相關(guān)算法 2、智慧加油站——卸油流程檢測(cè)、加油區(qū)檢測(cè)、便利店檢測(cè)等

人體骨骼關(guān)鍵點(diǎn) API 能夠精確檢測(cè)人體各部位的關(guān)鍵點(diǎn)及其位置,其中涵蓋了頭、頸、肩、肘、手、臀、膝、腳等多個(gè)部位。它可以幫助實(shí)現(xiàn)對(duì)人體姿態(tài)的準(zhǔn)確分析和識(shí)別,在諸多領(lǐng)域都有重要應(yīng)用價(jià)值。

識(shí)別圖片中的手勢(shì)類型,返回手勢(shì)名稱、手勢(shì)矩形框、置信度等信息,可識(shí)別常見手勢(shì),適用于手勢(shì)特效、智能家居手勢(shì)交互等場(chǎng)景。識(shí)別質(zhì)量受拍攝距離、圖片質(zhì)量影響,建議針對(duì)近距離單個(gè)手勢(shì)進(jìn)行識(shí)別,效果最佳。

 人體分析-騰佑科技 API 服務(wù),專注于人體分析領(lǐng)域。它能進(jìn)行人體檢測(cè)與追蹤,精確實(shí)現(xiàn)關(guān)鍵點(diǎn)定位,還可準(zhǔn)確進(jìn)行人流量統(tǒng)計(jì)以及屬性識(shí)別等多種檢測(cè),為相關(guān)應(yīng)用場(chǎng)景提供強(qiáng)大的技術(shù)支持和精準(zhǔn)的數(shù)據(jù)服務(wù)。

原文鏈接:http://www.bimant.com/blog/action-recognition-comprehensive-guide/

上一篇:

Booking.com 合作伙伴和聯(lián)盟計(jì)劃:Extranet、Pulse App、BookingSuite、Demand API 和 Connectivity API

下一篇:

整合物流追蹤:來自主要承運(yùn)商和聚合商的運(yùn)輸API和EDI
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)