卷積神經(jīng)網(wǎng)絡(luò) (CNN) 能夠針對多種應(yīng)用場合執(zhí)行分割、分類和檢測:
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與 CNN 類似,但可以處理一系列圖像,以找到它們之間的聯(lián)系。
就像人類辨別遠距離的圖像一樣,CNN 首先辨別硬邊緣和簡單的形狀,然后一邊運行預(yù)測迭代,一邊填充信息。CNN 用來分析單張圖像,而 RNN 可以分析視頻并了解圖像之間的關(guān)系。
在體育、汽車、農(nóng)業(yè)、零售、銀行、施工和保險等行業(yè),計算機 視覺應(yīng)用非常廣泛。得益于目前機器用于識別物體的圖像處理器 – 卷積神經(jīng)網(wǎng)絡(luò) (CNN),各種由 AI 驅(qū)動的機器紛紛開始采用仿人眼技術(shù)來獲得更多助力。CNN 已成為當今自動駕駛汽車、石油勘探和聚變能源研究領(lǐng)域的“眼睛”。它們還有助于在醫(yī)學(xué)成像領(lǐng)域快速發(fā)現(xiàn)疾病并挽救生命。
數(shù)十年來,傳統(tǒng)的計算機 視覺和圖像處理技術(shù)已經(jīng)應(yīng)用于眾多應(yīng)用和研究工作。然而,現(xiàn)代 AI 技術(shù)采用人工神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)更高的性能準確性;高性能計算依托 GPU 取得長足進步,實現(xiàn)超人的準確性,從而在運輸、零售、制造、醫(yī)療健康和金融服務(wù)等行業(yè)廣泛應(yīng)用。
在將圖像和視頻分類為精細離散的類別和分類方面,如同醫(yī)學(xué)計算機軸向斷層掃描或 CAT 掃描中隨時間推移而產(chǎn)生的微小變化,傳統(tǒng)或基于 AI 的計算機 視覺系統(tǒng)遠勝于人類。在這個意義上,計算機 視覺將人類有可能完成的任務(wù)自動化,但其準確性和速度要高得多。
當前和潛在的應(yīng)用多種多樣,因此計算機 視覺技術(shù)和解決方案的增長預(yù)測相當驚人,這點不足為奇。一項市場調(diào)研表明,到 2023 年,該市場將以驚人的 47% 的年增長率增長,屆時將在全球達到 250 億美元。在整個計算機科學(xué)范疇內(nèi),計算機 視覺是熱門、活躍的研發(fā)領(lǐng)域之一。
許多組織沒有資源資助計算機 視覺實驗室以及創(chuàng)建深度學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)。 他們可能還缺乏處理海量視覺數(shù)據(jù)所需的算力。 IBM 等公司正在通過提供計算機 視覺軟件開發(fā)服務(wù),助他們一臂之力。 這些服務(wù)交付預(yù)先構(gòu)建的學(xué)習(xí)模型,可以從云端獲取,因此還可以緩解對計算資源的需求。 用戶通過應(yīng)用程序編程接口 (API) 連接到服務(wù),并使用它們來開發(fā)計算機 視覺應(yīng)用程序。
以下示例展示了一些常見的計算機 視覺任務(wù):
– 視頻分類 與圖像分類不同的是,分類的對象不再是靜止的圖像,而是一個由多幀圖像構(gòu)成的、包含語音數(shù)據(jù)、包含運動信息等的視頻對象,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么、包含什么,還需要結(jié)合不同幀,知道上下文的關(guān)聯(lián)信息。
– 物體檢測 可以使用圖像分類來識別一類特定圖像,然后檢測圖像或視頻中出現(xiàn)的這類圖像并制成表格。 例如,檢測裝配線上的損壞,或者識別需要維護的機械裝置。
– 對象跟蹤會跟蹤檢測到的對象。 此任務(wù)通常對按順序捕獲或在實時視頻源中捕獲的圖像執(zhí)行。 例如,自主駕駛汽車不僅需要對行人、其他車輛、道路基礎(chǔ)設(shè)施等對象進行分類和檢測,還必須能夠在行駛過程中跟蹤它們以避免發(fā)生碰撞并遵守交通規(guī)則。
– __基于內(nèi)容的圖像檢索__ 利用計算機 視覺,根據(jù)圖像內(nèi)容從大型數(shù)據(jù)存儲中瀏覽、搜索和檢索圖像,而不是根據(jù)與圖像關(guān)聯(lián)的元數(shù)據(jù)標記。 這個任務(wù)可以包含自動圖像注解,以取代手動圖像標記。 這些任務(wù)可用于數(shù)字資產(chǎn)管理系統(tǒng),可以提高搜索和檢索的準確性。
60 多年來,科學(xué)家和工程師一直在嘗試開發(fā)各種方法,讓機器能夠看到和理解視覺數(shù)據(jù)。 在 1959 年的第一次實驗中,神經(jīng)生理學(xué)家向一只貓展示一組圖像,試圖喚起貓大腦的反應(yīng)。 他們發(fā)現(xiàn)貓會先對硬邊緣或線條做出反應(yīng),從科學(xué)角度來說,這意味著圖像處理從簡單的形狀開始,例如直邊。
大約在同一時期,第一個計算機圖像掃描技術(shù)成功地開發(fā)出來,使計算機能夠?qū)D像數(shù)字化并獲取圖像。 1963 年,計算機能夠?qū)⒍S圖像轉(zhuǎn)換為三維形式,標志著第二個里程碑的實現(xiàn)。 在 20 世紀 60 年代,人工智能作為一個學(xué)術(shù)域研究誕生了,同時也標志著人們開始探求依靠人工智能解決人類視覺問題的方法。
1974 年,光學(xué)字符識別 (OCR) 技術(shù)走向市場,它能夠識別以任何字體或字型打印的文字,例如各類證件、各類單據(jù)。同樣,智能字符識別 (ICR) 能夠使用神經(jīng)網(wǎng)絡(luò)識別手寫文字。此后,OCR 和 ICR 廣泛地運用到文件和發(fā)票處理、車牌識別、移動支付、機器翻譯和其他常見領(lǐng)域。
1982 年,神經(jīng)系統(tǒng)科學(xué)家 David Marr 證實了視覺分層工作原理,并推出了使機器能夠檢測邊緣、角落、曲線和類似的基本形狀的算法。 與此同時,計算機科學(xué)家 Kunihiko Fukushima 開發(fā)了一個能夠識別模式的細胞網(wǎng)絡(luò)。 這個網(wǎng)絡(luò)稱為 Neocognitron,它在一個神經(jīng)網(wǎng)絡(luò)中包含了多個卷積層。
到 2000 年,物體識別成為研究重點,2001 年,第一個實時人臉識別 應(yīng)用誕生。 在 21 世紀初,逐漸形成了視覺數(shù)據(jù)集標記和注釋的標準化實踐。 2010 年,ImageNet 數(shù)據(jù)集公開可用。 該數(shù)據(jù)集包含上千種物體的數(shù)百萬張標記的圖像,為如今使用的 CNN 和深度學(xué)習(xí)模型奠定了基礎(chǔ)。 2012 年,來自多倫多大學(xué)的團隊帶著一個 CNN 模型參加了圖像識別競賽。 這個名為 AlexNet 的模型顯著降低了圖像識別的錯誤率。 在這一次突破后,錯誤率已經(jīng)下降到僅僅百分之幾的水平。
圖像處理利用算法來更改圖像,包括銳化、平滑、過濾或增強。但計算機 視覺不同,因為它并不更改圖像,而是理解它所發(fā)現(xiàn)的內(nèi)容并執(zhí)行任務(wù),例如進行標記。在某些情況下,可以利用圖像處理來修改圖像,以使計算機 視覺系統(tǒng)能夠更好地理解圖像。在其他情況下,可以利用計算機 視覺來識別圖像或圖像的某些部分,然后利用圖像處理進一步修改圖像。
1、IBM 什么是計算機 視覺? 2、維基百科 計算機 視覺 3、Amazon 什么是計算機 視覺 4、《動手學(xué)深度學(xué)習(xí)》 第13章節(jié):計算機 視覺