卷積神經網絡 (CNN) 能夠針對多種應用場合執行分割、分類和檢測:

循環神經網絡(RNN)

循環神經網絡(RNN)與 CNN 類似,但可以處理一系列圖像,以找到它們之間的聯系。

就像人類辨別遠距離的圖像一樣,CNN 首先辨別硬邊緣和簡單的形狀,然后一邊運行預測迭代,一邊填充信息。CNN 用來分析單張圖像,而 RNN 可以分析視頻并了解圖像之間的關系。

計算機 視覺為何重要?

在體育、汽車、農業、零售、銀行、施工和保險等行業,計算機 視覺應用非常廣泛。得益于目前機器用于識別物體的圖像處理器 – 卷積神經網絡 (CNN),各種由 AI 驅動的機器紛紛開始采用仿人眼技術來獲得更多助力。CNN 已成為當今自動駕駛汽車、石油勘探聚變能源研究領域的“眼睛”。它們還有助于在醫學成像領域快速發現疾病并挽救生命。

數十年來,傳統的計算機 視覺和圖像處理技術已經應用于眾多應用和研究工作。然而,現代 AI 技術采用人工神經網絡,能夠實現更高的性能準確性;高性能計算依托 GPU 取得長足進步,實現超人的準確性,從而在運輸、零售、制造、醫療健康和金融服務等行業廣泛應用。

在將圖像和視頻分類為精細離散的類別和分類方面,如同醫學計算機軸向斷層掃描或 CAT 掃描中隨時間推移而產生的微小變化,傳統或基于 AI 的計算機 視覺系統遠勝于人類。在這個意義上,計算機 視覺將人類有可能完成的任務自動化,但其準確性和速度要高得多。

當前和潛在的應用多種多樣,因此計算機 視覺技術和解決方案的增長預測相當驚人,這點不足為奇。一項市場調研表明,到 2023 年,該市場將以驚人的 47% 的年增長率增長,屆時將在全球達到 250 億美元。在整個計算機科學范疇內,計算機 視覺是熱門、活躍的研發領域之一。

計算機 視覺可以執行哪些常見任務?

許多組織沒有資源資助計算機 視覺實驗室以及創建深度學習模型和神經網絡。 他們可能還缺乏處理海量視覺數據所需的算力。 IBM 等公司正在通過提供計算機 視覺軟件開發服務,助他們一臂之力。 這些服務交付預先構建的學習模型,可以從云端獲取,因此還可以緩解對計算資源的需求。 用戶通過應用程序編程接口 (API) 連接到服務,并使用它們來開發計算機 視覺應用程序。

以下示例展示了一些常見的計算機 視覺任務:

img視頻分類 與圖像分類不同的是,分類的對象不再是靜止的圖像,而是一個由多幀圖像構成的、包含語音數據、包含運動信息等的視頻對象,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么、包含什么,還需要結合不同幀,知道上下文的關聯信息。

img物體檢測 可以使用圖像分類來識別一類特定圖像,然后檢測圖像或視頻中出現的這類圖像并制成表格。 例如,檢測裝配線上的損壞,或者識別需要維護的機械裝置。

img對象跟蹤會跟蹤檢測到的對象。 此任務通常對按順序捕獲或在實時視頻源中捕獲的圖像執行。 例如,自主駕駛汽車不僅需要對行人、其他車輛、道路基礎設施等對象進行分類和檢測,還必須能夠在行駛過程中跟蹤它們以避免發生碰撞并遵守交通規則。

img– __基于內容的圖像檢索__ 利用計算機 視覺,根據圖像內容從大型數據存儲中瀏覽、搜索和檢索圖像,而不是根據與圖像關聯的元數據標記。 這個任務可以包含自動圖像注解,以取代手動圖像標記。 這些任務可用于數字資產管理系統,可以提高搜索和檢索的準確性。

計算機 視覺的歷史

60 多年來,科學家和工程師一直在嘗試開發各種方法,讓機器能夠看到和理解視覺數據。 在 1959 年的第一次實驗中,神經生理學家向一只貓展示一組圖像,試圖喚起貓大腦的反應。 他們發現貓會先對硬邊緣或線條做出反應,從科學角度來說,這意味著圖像處理從簡單的形狀開始,例如直邊。

大約在同一時期,第一個計算機圖像掃描技術成功地開發出來,使計算機能夠將圖像數字化并獲取圖像。 1963 年,計算機能夠將二維圖像轉換為三維形式,標志著第二個里程碑的實現。 在 20 世紀 60 年代,人工智能作為一個學術域研究誕生了,同時也標志著人們開始探求依靠人工智能解決人類視覺問題的方法。

1974 年,光學字符識別 (OCR) 技術走向市場,它能夠識別以任何字體或字型打印的文字,例如各類證件、各類單據。同樣,智能字符識別 (ICR) 能夠使用神經網絡識別手寫文字。此后,OCR 和 ICR 廣泛地運用到文件和發票處理車牌識別移動支付機器翻譯和其他常見領域。

1982 年,神經系統科學家 David Marr 證實了視覺分層工作原理,并推出了使機器能夠檢測邊緣、角落、曲線和類似的基本形狀的算法。 與此同時,計算機科學家 Kunihiko Fukushima 開發了一個能夠識別模式的細胞網絡。 這個網絡稱為 Neocognitron,它在一個神經網絡中包含了多個卷積層。

到 2000 年,物體識別成為研究重點,2001 年,第一個實時人臉識別 應用誕生。 在 21 世紀初,逐漸形成了視覺數據集標記和注釋的標準化實踐。 2010 年,ImageNet 數據集公開可用。 該數據集包含上千種物體的數百萬張標記的圖像,為如今使用的 CNN 和深度學習模型奠定了基礎。 2012 年,來自多倫多大學的團隊帶著一個 CNN 模型參加了圖像識別競賽。 這個名為 AlexNet 的模型顯著降低了圖像識別的錯誤率。 在這一次突破后,錯誤率已經下降到僅僅百分之幾的水平。

計算機 視覺與圖像處理之間有什么區別?

圖像處理利用算法來更改圖像,包括銳化、平滑、過濾或增強。但計算機 視覺不同,因為它并不更改圖像,而是理解它所發現的內容并執行任務,例如進行標記。在某些情況下,可以利用圖像處理來修改圖像,以使計算機 視覺系統能夠更好地理解圖像。在其他情況下,可以利用計算機 視覺來識別圖像或圖像的某些部分,然后利用圖像處理進一步修改圖像。

計算機 視覺有哪些應用場景?

  1. 自動駕駛汽車:自動駕駛技術是計算機 視覺領域的一顆璀璨明珠。通過車載攝像頭、雷達和激光雷達等傳感器,自動駕駛汽車能夠感知周圍環境,利用計算機視覺算法識別行人、車輛、交通信號和車道標記等。這些系統將視覺數據轉化為決策指令,實現車輛的自主導航和安全行駛。
  2. 醫療影像分析:在醫療領域,計算機 視覺技術的應用正在革新疾病診斷的方式。醫生可以利用計算機視覺輔助分析醫學影像,如X射線、CT掃描和MRI圖像,以識別和診斷疾病。計算機 視覺系統能夠檢測到人眼難以察覺的微小異常,從而提高診斷的準確性和效率。
  3. 工業檢測:計算機 視覺在制造業中的應用提高了產品質量檢測的自動化水平。通過視覺檢測系統,可以自動識別產品表面的缺陷或尺寸偏差,確保產品質量符合標準。這些系統在提高生產效率的同時,也降低了人工檢測的成本和出錯率。
  4. 安防監控:計算機 視覺技術在安防監控領域的應用提高了安全防護的智能化水平。智能監控系統能夠自動識別異常行為并發出警報,如未經授權的入侵或遺留物品。這些系統為公共場所和私人物業提供了額外的安全保障。
  5. 農業自動化:在農業領域,計算機 視覺技術的應用正在推動農業生產的自動化和智能化。無人機和地面機器人搭載的攝像頭可以捕捉田間的高分辨率圖像,通過計算機 視覺算法分析作物健康狀況,識別病蟲害,并指導自動收割機器人完成精確收割。
  6. 零售業:計算機 視覺技術在零售業的應用優化了顧客體驗并提高了運營效率。通過分析店內攝像頭捕捉的視頻流,零售商可以進行客流統計、貨架商品監控,甚至實現自助結賬。這些應用幫助零售商更好地了解顧客行為,優化庫存管理。
  7. 人臉識別:計算機 視覺技術在人臉識別領域的應用已經廣泛用于安全和身份驗證。從邊境控制到手機解鎖,再到電子支付驗證,計算機視覺提供了一種高效、安全的身份確認方式。這項技術在提高安全性的同時,也為用戶帶來了極大的便利。
  8. 智能制造:計算機 視覺在智能制造中的應用是工業自動化的重要推動力。通過視覺引導,機器人可以精準地完成組裝任務;通過視覺檢測,可以確保產品質量;通過視覺監控,可以實現設備的預測性維護。計算機視覺技術的應用提高了生產線的靈活性和效率,降低了生產成本。

參考資料

1、IBM 什么是計算機 視覺? 2、維基百科 計算機 視覺 3、Amazon 什么是計算機 視覺 4、《動手學深度學習》 第13章節:計算機 視覺

一站搜索、試用、比較全球API!
冪簡集成已收錄 5527種API!
試用API,一次比較多個渠道