不同的計算機視覺問題。資料來源:斯坦福講座幻燈片。第 11 講:檢測和細分

在了解基礎知識后,我們來探討一下您可以用于將視覺數據分析集成到新產品或現有產品中的現成API和解決方案

圖像識別 API:功能和定價

計算機視覺產品通常是客戶可以通過機器學習即服務(MLaaS)平臺訪問的功能之一。MLaaS是基于云的平臺,提供數據預處理、模型訓練和評估工具,以及視覺、文本、音頻、視頻數據或語音分析。這些平臺既適用于經驗豐富的數據科學家,也適用于初學者。它們還可以與云存儲解決方案集成。

提供商提供各種視覺數據處理功能,以解決特定行業的常見用例。圖像分類、對象檢測、視覺產品搜索、處理包含打印或手寫文本的文檔、醫學圖像分析等任務,在大多數情況下,都可以按需付費。

讓我們概述其中的一些,重點關注兩個主要方面:

1) 系統可識別的實體類型

2) 定價。

谷歌:Cloud Vision和AutoML API,解決各種計算機視覺任務

谷歌通過谷歌云提供REST和RPC API,推出了兩款計算機視覺產品:Vision API和AutoML Vision。

Cloud Vision API 允許開發人員集成以下計算機視覺功能:對象檢測、成人內容識別、光學字符識別(OCR)和圖像標注(注釋)。

您可以檢測:

人臉和面部特征識別:可以識別面部特征(如眼睛、鼻子、嘴巴)并為面部和圖像屬性(如喜悅、驚訝、悲傷、憤怒)提供置信度評分。但不支持單獨的人臉識別。

實體(標簽)檢測:可以檢測和提取圖像中實體的信息,涵蓋廣泛的類別。標簽可以代表一般對象、產品、地點、動物種類、活動等。API支持英文標簽,但可以使用Cloud Translation API將其翻譯成其他語言。

徽標識別:識別流行產品徽標的特征。

光學字符識別(OCR):檢測圖像、PDF或TIFF文件中的打印和手寫文本。

知名地標識別:允許檢測圖像中的自然和人造結構。

成人內容檢測:評估內容是否屬于成人、欺騙、暴力、醫療或挑逗性五個類別,并返回每個類別在圖像中出現的可能性分數。

網絡參考:返回圖像的網絡參考,如描述、實體ID、完全匹配的圖像、包含匹配圖像的頁面、視覺上相似的圖像和最佳猜測標簽。

圖像屬性識別:識別諸如主色調等特征。

AutoML Vision是谷歌的另一款計算機視覺產品,允許用戶訓練機器學習模型,根據自定義標簽對圖像進行分類。用戶可以直接從計算機上傳已標注的圖像。如果圖像未標注但已按每個標簽的文件夾分類,該工具將自動分配這些標簽。用戶還可以請求人工操作員為其數據集進行標注。目前,該產品處于測試階段。

谷歌允許用戶查看API如何分析他們選擇的圖像。

https://lh3.googleusercontent.com/YLZnr2zLFdH2ljOsU6XxUmXsBud1x_pLlw8e0LIB3D0KWzrxhg_4dHGRF8vmUQwKZ7L9ukNpaEijS6deK_r42z00j7rxttm-qJ9ZkD4YSxPGDaEgIqqkaKv3QobsrnVlM494lugG
API 根據五個類別分析圖像。圖源:Wallcoo.net

定價。?Vision API ?的用戶按圖像計費,特別是按可計費單位計費——即每個應用于圖像的功能。每月前1000個單位是免費的。從第1001個單位到5,000,000個單位,費用從1.50到3.50不等。每月5,000,001至20,000,000個單位的標簽檢測費用為1.00,其余功能的費用為每圖像0.60。您可以查看其價格計算器以獲取詳細信息。

AutoML Vision 定價取決于所使用的功能。例如,使用圖像分類的價格取決于所需的訓練量(每小時 20 USD)、請求的人工標記量、圖像數量和預測類型(在線或批量)。在線預測在 1000 張圖像后計費。分析 1001—5000000 張圖像的成本為每 1000 張圖像 3 USD。如果您選擇批量預測,則每個賬戶的第一個節點小時免費(一次),然后每個節點小時 2.02 USD。

Amazon Rekognition:無需機器學習專業知識即可集成圖像和視頻分析

Amazon Rekognition允許為應用程序嵌入圖像和視頻分析功能。該服務基于與Amazon Photos服務相同的圖像和視頻數據分析技術,用戶無需具備機器學習專業知識。

通過 Recognition API 功能,您可以執行以下任務:

識別實體、對象和活動:檢測標簽——對象(如人、車、家具、衣物、寵物)、場景(如森林、海灘、城市街道)或概念(如戶外)、活動(如踢足球、滑冰)。

識別和分析人臉:在照片或視頻中檢測人物,檢測面部特征、表情,為檢測到的面部及其屬性提供置信度評分百分比,并保存面部元數據。還可以將一張圖像中的人臉與另一張圖像中檢測到的人臉進行比較。

識別名人:在視頻和圖像中識別著名人物。

捕捉動作:服務允許您跟蹤視頻中人物的行走路徑、位置,并檢測其面部特征。

檢測不安全內容:Amazon Rekognition 識別裸體、暗示性內容(內衣或泳裝)、暴力(如物理武器)和令人不安的場景(如尸體、上吊)。

檢測圖像中的文本:檢測和識別文本,如字幕、街道名稱、產品名稱和車牌號。

https://lh5.googleusercontent.com/6jz87FFwziQg2qNtK8bN3EmF-XHvG27_iutfwTLecRyVma1b7zlbk7D6OC9a6c3f6wKT7t0XT2PaWZ8dXKI7zD_Fmy1_j2WvTwHGATniT6LARAHYYiMH5rkR_vHfSD865y_Terqi
檢測圖像中的多個對象。來源:Amazon Rekognition 文檔 

定價。 亞馬遜為其識別服務提供了免費套餐。用戶需根據他們分析的媒體文件數量付費,且定價因地區而異,例如,來自愛爾蘭和北弗吉尼亞的客戶將支付略有不同的費用。您可以使用定價頁面來獲取報價

對于新用戶,在首年內,每月可免費分析1000分鐘的視頻、5000張圖像,并存儲最多1000條面部元數據。

以下以北弗吉尼亞(美國東部)的客戶為例說明費用情況:

分析存檔視頻的費用為每分鐘0.10美元(按秒計費);直播視頻分析的費用為每分鐘0.12美元。面部元數據的存儲費用為每月每1000條記錄0.01美元。

圖像分析定價根據處理的圖像數量有所降低。前100萬張圖像的處理費用為1.00美元,接下來的900萬張圖像為0.80美元,再接下來的9000萬張圖像為0.60美元。如果您的月工作量超過1億張圖像,則需支付0.40美元。面部元數據的存儲費用為每1000條記錄0.01美元。

IBM Watson Visual Recognition:使用現成模型滿足多種用例或開發自定義模型

IBM在IBM Cloud上提供了Watson Visual Recognition服務,該服務依賴深度學習算法來分析圖像中的場景、對象和其他內容。

用戶可以在Watson Studio內部或外部構建、訓練和測試自定義模型。

https://lh4.googleusercontent.com/k3F_pi_NShyFAo6EoPdLYNhLFLGKV15sGydbtv_3RtitKAHt-D6t4ONof-vO_x-r-MSeqT9bHyw7g7zE3aAgIFCG5QBMe_-CTfO2Nc3oAggxOFr_mAMM7d4Dg3bVRcoBU8sAxQQZ
汽車玻璃維修公司 Belron 的定制模型演示。來源:IBM

Beta 版中提供的另一個功能使用戶能夠訓練對象檢測模型。

預訓練模型包括:

通用模型 – 提供來自數千個類的默認分類

顯式模型  判斷圖像是否適合一般用途

食品模型 – 識別圖像中的食物項目

Text model (文本模型) – 從自然場景圖像中提取文本。

此外,開發者可以使用Core ML API將自定義模型集成到iOS應用中,并在Watson Studio的筆記本中進行云協作環境工作。

定價。IBM提供了兩種定價計劃——Lite和Standard。

Lite:用戶每月可免費使用自定義和預訓練模型分析1000張圖像,并免費創建和重新訓練兩個自定義模型。作為特別促銷優惠,還提供Core ML導出功能。

Standard:圖像分類和自定義圖像分類每張圖像費用為0.002,訓練一個自定義模型每張圖像費用為0.10。該計劃還包括免費的Core ML導出功能。

Microsoft:圖像、視頻和數字文檔處理

Microsoft Azure Cloud用戶可以從Microsoft的認知服務中選擇多種功能。視覺服務分為六大類,涵蓋圖像和視頻分析、面部檢測、手寫和打印文本識別與提取。這些API均為RESTful接口。

以下是Microsoft認知服務功能的簡要列表:

面部檢測:在單張圖像中檢測多達100個人物及其位置,識別包括年齡、性別、情緒、頭部姿勢、微笑、妝容或面部毛發等屬性。為每個面部檢測27個關鍵點 (Face API)。

成人內容檢測:使用 Computer Vision API 檢測圖像是否色情或具有挑逗性。

品牌識別:檢測圖像中的品牌,包括其大致位置(Computer Vision API )。該功能僅提供英文版本。

地標檢測:如果圖像中檢測到地標,則進行識別(Computer Vision API )。

名人識別:如果圖像中存在名人,則進行識別(Computer Vision API )。

圖像屬性定義:定義圖像的強調色、主色調以及是否為黑白(Computer Vision API )。

圖像內容描述與分類:用完整句子描述圖像內容并進行分類(Computer Vision API )

文檔信息提?。?/strong>從文檔、收據和表單中提取文本、鍵值對和表格(表單識別器服務)。

文本識別:識別數字手寫、常見多邊形形狀以及墨跡文檔的布局坐標(墨跡識別器服務)。

https://lh4.googleusercontent.com/q53QyqhgftQIO87lDXSQMpnbyhaUQZj81Hcg-1NDVE_VoLg-23LwPdquwVsyUmh-obbelvsSRaVakJU-yRKNb2Qfblczv701VSAtYyVJ1OkQQ0ZuMSr84vAvk1EzUNC_ZZf0PJ9l
使用表單識別器處理的數字文檔的演示。來源:Microsoft Azure

定價。 服務費用取決于所使用的API、地區以及交易數量(而非API調用次數)。例如,使用面部識別API進行最多100萬次交易,每1000次交易的費用為1美元。若交易次數超過1億次,則每1000次交易的費用降至0.4美元。使用計算機視覺API檢測成人內容,在最多100萬次交易的情況下,每1000次交易的費用為1.5美元;若交易次數達到或超過1億次,則每1000次交易的費用為0.65美元。

Clarifai:為不同業務需求量身定制的自定義和預構建模型

Clarifai開發了14個預構建的計算機視覺模型,用于識別視覺數據。該服務可通過Clarifai API訪問。Clarifai強調其計算機視覺服務的易用性:用戶只需將輸入(圖像或視頻)發送到服務,即可獲得預測結果。預測結果的類型取決于所運行的模型。

每個預構建模型都能識別給定的圖像屬性和所含概念。使用現成的模型,您可以實現以下功能:

https://lh5.googleusercontent.com/fktWRXAeLvZ2qH329j43QJaTG7bEnZQc5UxmP9WlA_8wBS0XlsNsBJ5WLrKba2O9BDu7W3codmX6tCDqihOcjeNWOUVCLlM67nv-PkKOt2pnz3xzb2_wUgc5j0vCW68ApWMcs4sF
General 模型的 Demo。來源:Clarifai

該公司還通過提供能夠“識別”相關概念的模型,來考慮旅游、酒店和婚禮策劃等業務的特殊性。此外,還提供基于特定圖像和概念的訓練模型。

定價。 Clarifai的定價基于使用量,為客戶提供三種定價計劃選擇——社區版、基礎版(隨用隨付,月結賬單)和企業及公共部門版(價格按需提供)。這些計劃服務涵蓋了機器學習操作、托管、咨詢、移動SDK、基礎設施等更多內容。

社區版:包括5000次免費操作、10個免費自定義概念、10000張免費輸入圖像等其他功能。

基礎版:用戶可訓練自定義模型,每1000個模型版本費用為1.2美元。使用預建模型進行預測的費用為每1000次操作1.2美元,而使用自定義模型進行預測則為每1000次操作3.2美元。圖像搜索費用為每1000次操作1.2美元;添加或編輯輸入圖像的費用同樣為每1000次操作1.2美元。

Zebra Medical Vision:專為放射科醫生提供的醫療圖像分析工具

醫療行業的專家同樣能夠利用圖像識別工具。Zebra Medical Vision提供實時分析醫學圖像(如計算機斷層掃描和X光片)的解決方案。該公司利用數百萬張成像掃描的專有數據庫,結合機器學習和深度學習工具,開發用于管理放射科醫生工作流程的軟件。其解決方案專注于識別特定病癥,并有一項功能用于標記和優先處理病例。能夠檢測CT掃描中的腦、心血管、肺、肝和骨骼疾病,X光掃描中的40種不同病癥,以及2D乳腺X光片中的乳腺癌。Zebra Medical Vision符合HIPAA和GDPR標準。

定價:Zebra的AI1一體化解決方案的費用高達每次掃描1美元。

您還可以考慮DeepAI、Hive、Nanonets、Imagga等其他供應商的工具。Sightengine的圖像和視頻審核API、xModerator的圖像審核服務,以及Face++ AI Open Platform的面部和身體識別API和SDK,也可能非常適合您的需求。

如何選擇圖像識別 API?

市面上存在大量商業化的圖像識別及其他計算機視覺任務API,因此選擇合適的API以滿足您的需求和要求至關重要。您可以根據以下標準評估各產品:

視覺分析功能:瀏覽產品頁面和文檔,了解API能夠識別和檢測的實體類型。文檔通常包含更詳細的信息,因此建議仔細閱讀。

視覺數據類型和分析模式:API或產品是否支持圖像分析、視頻分析或兩者兼有?同時,供應商會明確提供哪種類型的預測(批量和在線)。

計費方式:供應商提供基于使用量的定價,并公開大部分定價信息,因此您可以根據預計的工作量估算每個解決方案的成本。

API 使用情況。只有當開發人員知道如何使用 API 時,它們才會變得有用。文檔中將提供有關如何啟用API、進行API調用以及響應示例的教程。

支持服務:必須提供24/7的技術支持,通過多個渠道(電話、電子郵件、論壇等)進行。供應商通常會提供多種支持計劃供購買。

原文鏈接:https://www.altexsoft.com/blog/image-recognition-apis/

#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費