不同的計(jì)算機(jī)視覺(jué)問(wèn)題。資料來(lái)源:斯坦福講座幻燈片。第 11 講:檢測(cè)和細(xì)分

在了解基礎(chǔ)知識(shí)后,我們來(lái)探討一下您可以用于將視覺(jué)數(shù)據(jù)分析集成到新產(chǎn)品或現(xiàn)有產(chǎn)品中的現(xiàn)成API和解決方案

圖像識(shí)別 API:功能和定價(jià)

計(jì)算機(jī)視覺(jué)產(chǎn)品通常是客戶可以通過(guò)機(jī)器學(xué)習(xí)即服務(wù)(MLaaS)平臺(tái)訪問(wèn)的功能之一。MLaaS是基于云的平臺(tái),提供數(shù)據(jù)預(yù)處理、模型訓(xùn)練和評(píng)估工具,以及視覺(jué)、文本、音頻、視頻數(shù)據(jù)或語(yǔ)音分析。這些平臺(tái)既適用于經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家,也適用于初學(xué)者。它們還可以與云存儲(chǔ)解決方案集成。

提供商提供各種視覺(jué)數(shù)據(jù)處理功能,以解決特定行業(yè)的常見(jiàn)用例。圖像分類、對(duì)象檢測(cè)、視覺(jué)產(chǎn)品搜索、處理包含打印或手寫(xiě)文本的文檔、醫(yī)學(xué)圖像分析等任務(wù),在大多數(shù)情況下,都可以按需付費(fèi)。

讓我們概述其中的一些,重點(diǎn)關(guān)注兩個(gè)主要方面:

1) 系統(tǒng)可識(shí)別的實(shí)體類型

2) 定價(jià)。

谷歌:Cloud Vision和AutoML API,解決各種計(jì)算機(jī)視覺(jué)任務(wù)

谷歌通過(guò)谷歌云提供REST和RPC API,推出了兩款計(jì)算機(jī)視覺(jué)產(chǎn)品:Vision API和AutoML Vision。

Cloud Vision API 允許開(kāi)發(fā)人員集成以下計(jì)算機(jī)視覺(jué)功能:對(duì)象檢測(cè)、成人內(nèi)容識(shí)別、光學(xué)字符識(shí)別(OCR)和圖像標(biāo)注(注釋)。

您可以檢測(cè):

人臉和面部特征識(shí)別:可以識(shí)別面部特征(如眼睛、鼻子、嘴巴)并為面部和圖像屬性(如喜悅、驚訝、悲傷、憤怒)提供置信度評(píng)分。但不支持單獨(dú)的人臉識(shí)別。

實(shí)體(標(biāo)簽)檢測(cè):可以檢測(cè)和提取圖像中實(shí)體的信息,涵蓋廣泛的類別。標(biāo)簽可以代表一般對(duì)象、產(chǎn)品、地點(diǎn)、動(dòng)物種類、活動(dòng)等。API支持英文標(biāo)簽,但可以使用Cloud Translation API將其翻譯成其他語(yǔ)言。

徽標(biāo)識(shí)別:識(shí)別流行產(chǎn)品徽標(biāo)的特征。

光學(xué)字符識(shí)別(OCR):檢測(cè)圖像、PDF或TIFF文件中的打印和手寫(xiě)文本。

知名地標(biāo)識(shí)別:允許檢測(cè)圖像中的自然和人造結(jié)構(gòu)。

成人內(nèi)容檢測(cè):評(píng)估內(nèi)容是否屬于成人、欺騙、暴力、醫(yī)療或挑逗性五個(gè)類別,并返回每個(gè)類別在圖像中出現(xiàn)的可能性分?jǐn)?shù)。

網(wǎng)絡(luò)參考:返回圖像的網(wǎng)絡(luò)參考,如描述、實(shí)體ID、完全匹配的圖像、包含匹配圖像的頁(yè)面、視覺(jué)上相似的圖像和最佳猜測(cè)標(biāo)簽。

圖像屬性識(shí)別:識(shí)別諸如主色調(diào)等特征。

AutoML Vision是谷歌的另一款計(jì)算機(jī)視覺(jué)產(chǎn)品,允許用戶訓(xùn)練機(jī)器學(xué)習(xí)模型,根據(jù)自定義標(biāo)簽對(duì)圖像進(jìn)行分類。用戶可以直接從計(jì)算機(jī)上傳已標(biāo)注的圖像。如果圖像未標(biāo)注但已按每個(gè)標(biāo)簽的文件夾分類,該工具將自動(dòng)分配這些標(biāo)簽。用戶還可以請(qǐng)求人工操作員為其數(shù)據(jù)集進(jìn)行標(biāo)注。目前,該產(chǎn)品處于測(cè)試階段。

谷歌允許用戶查看API如何分析他們選擇的圖像。

https://lh3.googleusercontent.com/YLZnr2zLFdH2ljOsU6XxUmXsBud1x_pLlw8e0LIB3D0KWzrxhg_4dHGRF8vmUQwKZ7L9ukNpaEijS6deK_r42z00j7rxttm-qJ9ZkD4YSxPGDaEgIqqkaKv3QobsrnVlM494lugG
API 根據(jù)五個(gè)類別分析圖像。圖源:Wallcoo.net

定價(jià)。?Vision API ?的用戶按圖像計(jì)費(fèi),特別是按可計(jì)費(fèi)單位計(jì)費(fèi)——即每個(gè)應(yīng)用于圖像的功能。每月前1000個(gè)單位是免費(fèi)的。從第1001個(gè)單位到5,000,000個(gè)單位,費(fèi)用從1.50到3.50不等。每月5,000,001至20,000,000個(gè)單位的標(biāo)簽檢測(cè)費(fèi)用為1.00,其余功能的費(fèi)用為每圖像0.60。您可以查看其價(jià)格計(jì)算器以獲取詳細(xì)信息。

AutoML Vision 定價(jià)取決于所使用的功能。例如,使用圖像分類的價(jià)格取決于所需的訓(xùn)練量(每小時(shí) 20 USD)、請(qǐng)求的人工標(biāo)記量、圖像數(shù)量和預(yù)測(cè)類型(在線或批量)。在線預(yù)測(cè)在 1000 張圖像后計(jì)費(fèi)。分析 1001—5000000 張圖像的成本為每 1000 張圖像 3 USD。如果您選擇批量預(yù)測(cè),則每個(gè)賬戶的第一個(gè)節(jié)點(diǎn)小時(shí)免費(fèi)(一次),然后每個(gè)節(jié)點(diǎn)小時(shí) 2.02 USD。

Amazon Rekognition:無(wú)需機(jī)器學(xué)習(xí)專業(yè)知識(shí)即可集成圖像和視頻分析

Amazon Rekognition允許為應(yīng)用程序嵌入圖像和視頻分析功能。該服務(wù)基于與Amazon Photos服務(wù)相同的圖像和視頻數(shù)據(jù)分析技術(shù),用戶無(wú)需具備機(jī)器學(xué)習(xí)專業(yè)知識(shí)。

通過(guò) Recognition API 功能,您可以執(zhí)行以下任務(wù):

識(shí)別實(shí)體、對(duì)象和活動(dòng):檢測(cè)標(biāo)簽——對(duì)象(如人、車、家具、衣物、寵物)、場(chǎng)景(如森林、海灘、城市街道)或概念(如戶外)、活動(dòng)(如踢足球、滑冰)。

識(shí)別和分析人臉:在照片或視頻中檢測(cè)人物,檢測(cè)面部特征、表情,為檢測(cè)到的面部及其屬性提供置信度評(píng)分百分比,并保存面部元數(shù)據(jù)。還可以將一張圖像中的人臉與另一張圖像中檢測(cè)到的人臉進(jìn)行比較。

識(shí)別名人:在視頻和圖像中識(shí)別著名人物。

捕捉動(dòng)作:服務(wù)允許您跟蹤視頻中人物的行走路徑、位置,并檢測(cè)其面部特征。

檢測(cè)不安全內(nèi)容:Amazon Rekognition 識(shí)別裸體、暗示性內(nèi)容(內(nèi)衣或泳裝)、暴力(如物理武器)和令人不安的場(chǎng)景(如尸體、上吊)。

檢測(cè)圖像中的文本:檢測(cè)和識(shí)別文本,如字幕、街道名稱、產(chǎn)品名稱和車牌號(hào)。

https://lh5.googleusercontent.com/6jz87FFwziQg2qNtK8bN3EmF-XHvG27_iutfwTLecRyVma1b7zlbk7D6OC9a6c3f6wKT7t0XT2PaWZ8dXKI7zD_Fmy1_j2WvTwHGATniT6LARAHYYiMH5rkR_vHfSD865y_Terqi
檢測(cè)圖像中的多個(gè)對(duì)象。來(lái)源:Amazon Rekognition 文檔 

定價(jià)。 亞馬遜為其識(shí)別服務(wù)提供了免費(fèi)套餐。用戶需根據(jù)他們分析的媒體文件數(shù)量付費(fèi),且定價(jià)因地區(qū)而異,例如,來(lái)自愛(ài)爾蘭和北弗吉尼亞的客戶將支付略有不同的費(fèi)用。您可以使用定價(jià)頁(yè)面來(lái)獲取報(bào)價(jià)

對(duì)于新用戶,在首年內(nèi),每月可免費(fèi)分析1000分鐘的視頻、5000張圖像,并存儲(chǔ)最多1000條面部元數(shù)據(jù)。

以下以北弗吉尼亞(美國(guó)東部)的客戶為例說(shuō)明費(fèi)用情況:

分析存檔視頻的費(fèi)用為每分鐘0.10美元(按秒計(jì)費(fèi));直播視頻分析的費(fèi)用為每分鐘0.12美元。面部元數(shù)據(jù)的存儲(chǔ)費(fèi)用為每月每1000條記錄0.01美元。

圖像分析定價(jià)根據(jù)處理的圖像數(shù)量有所降低。前100萬(wàn)張圖像的處理費(fèi)用為1.00美元,接下來(lái)的900萬(wàn)張圖像為0.80美元,再接下來(lái)的9000萬(wàn)張圖像為0.60美元。如果您的月工作量超過(guò)1億張圖像,則需支付0.40美元。面部元數(shù)據(jù)的存儲(chǔ)費(fèi)用為每1000條記錄0.01美元。

IBM Watson Visual Recognition:使用現(xiàn)成模型滿足多種用例或開(kāi)發(fā)自定義模型

IBM在IBM Cloud上提供了Watson Visual Recognition服務(wù),該服務(wù)依賴深度學(xué)習(xí)算法來(lái)分析圖像中的場(chǎng)景、對(duì)象和其他內(nèi)容。

用戶可以在Watson Studio內(nèi)部或外部構(gòu)建、訓(xùn)練和測(cè)試自定義模型。

https://lh4.googleusercontent.com/k3F_pi_NShyFAo6EoPdLYNhLFLGKV15sGydbtv_3RtitKAHt-D6t4ONof-vO_x-r-MSeqT9bHyw7g7zE3aAgIFCG5QBMe_-CTfO2Nc3oAggxOFr_mAMM7d4Dg3bVRcoBU8sAxQQZ
汽車玻璃維修公司 Belron 的定制模型演示。來(lái)源:IBM

Beta 版中提供的另一個(gè)功能使用戶能夠訓(xùn)練對(duì)象檢測(cè)模型。

預(yù)訓(xùn)練模型包括:

通用模型 – 提供來(lái)自數(shù)千個(gè)類的默認(rèn)分類

顯式模型  判斷圖像是否適合一般用途

食品模型 – 識(shí)別圖像中的食物項(xiàng)目

Text model (文本模型) – 從自然場(chǎng)景圖像中提取文本。

此外,開(kāi)發(fā)者可以使用Core ML API將自定義模型集成到iOS應(yīng)用中,并在Watson Studio的筆記本中進(jìn)行云協(xié)作環(huán)境工作。

定價(jià)。IBM提供了兩種定價(jià)計(jì)劃——Lite和Standard。

Lite:用戶每月可免費(fèi)使用自定義和預(yù)訓(xùn)練模型分析1000張圖像,并免費(fèi)創(chuàng)建和重新訓(xùn)練兩個(gè)自定義模型。作為特別促銷優(yōu)惠,還提供Core ML導(dǎo)出功能。

Standard:圖像分類和自定義圖像分類每張圖像費(fèi)用為0.002,訓(xùn)練一個(gè)自定義模型每張圖像費(fèi)用為0.10。該計(jì)劃還包括免費(fèi)的Core ML導(dǎo)出功能。

Microsoft:圖像、視頻和數(shù)字文檔處理

Microsoft Azure Cloud用戶可以從Microsoft的認(rèn)知服務(wù)中選擇多種功能。視覺(jué)服務(wù)分為六大類,涵蓋圖像和視頻分析、面部檢測(cè)、手寫(xiě)和打印文本識(shí)別與提取。這些API均為RESTful接口。

以下是Microsoft認(rèn)知服務(wù)功能的簡(jiǎn)要列表:

面部檢測(cè):在單張圖像中檢測(cè)多達(dá)100個(gè)人物及其位置,識(shí)別包括年齡、性別、情緒、頭部姿勢(shì)、微笑、妝容或面部毛發(fā)等屬性。為每個(gè)面部檢測(cè)27個(gè)關(guān)鍵點(diǎn) (Face API)。

成人內(nèi)容檢測(cè):使用 Computer Vision API 檢測(cè)圖像是否色情或具有挑逗性。

品牌識(shí)別:檢測(cè)圖像中的品牌,包括其大致位置(Computer Vision API )。該功能僅提供英文版本

地標(biāo)檢測(cè):如果圖像中檢測(cè)到地標(biāo),則進(jìn)行識(shí)別(Computer Vision API )。

名人識(shí)別:如果圖像中存在名人,則進(jìn)行識(shí)別(Computer Vision API )。

圖像屬性定義:定義圖像的強(qiáng)調(diào)色、主色調(diào)以及是否為黑白(Computer Vision API )。

圖像內(nèi)容描述與分類:用完整句子描述圖像內(nèi)容并進(jìn)行分類(Computer Vision API )

文檔信息提取:從文檔、收據(jù)和表單中提取文本、鍵值對(duì)和表格(表單識(shí)別器服務(wù))。

文本識(shí)別:識(shí)別數(shù)字手寫(xiě)、常見(jiàn)多邊形形狀以及墨跡文檔的布局坐標(biāo)(墨跡識(shí)別器服務(wù))。

https://lh4.googleusercontent.com/q53QyqhgftQIO87lDXSQMpnbyhaUQZj81Hcg-1NDVE_VoLg-23LwPdquwVsyUmh-obbelvsSRaVakJU-yRKNb2Qfblczv701VSAtYyVJ1OkQQ0ZuMSr84vAvk1EzUNC_ZZf0PJ9l
使用表單識(shí)別器處理的數(shù)字文檔的演示。來(lái)源:Microsoft Azure

定價(jià)。 服務(wù)費(fèi)用取決于所使用的API、地區(qū)以及交易數(shù)量(而非API調(diào)用次數(shù))。例如,使用面部識(shí)別API進(jìn)行最多100萬(wàn)次交易,每1000次交易的費(fèi)用為1美元。若交易次數(shù)超過(guò)1億次,則每1000次交易的費(fèi)用降至0.4美元。使用計(jì)算機(jī)視覺(jué)API檢測(cè)成人內(nèi)容,在最多100萬(wàn)次交易的情況下,每1000次交易的費(fèi)用為1.5美元;若交易次數(shù)達(dá)到或超過(guò)1億次,則每1000次交易的費(fèi)用為0.65美元。

Clarifai:為不同業(yè)務(wù)需求量身定制的自定義和預(yù)構(gòu)建模型

Clarifai開(kāi)發(fā)了14個(gè)預(yù)構(gòu)建的計(jì)算機(jī)視覺(jué)模型,用于識(shí)別視覺(jué)數(shù)據(jù)。該服務(wù)可通過(guò)Clarifai API訪問(wèn)。Clarifai強(qiáng)調(diào)其計(jì)算機(jī)視覺(jué)服務(wù)的易用性:用戶只需將輸入(圖像或視頻)發(fā)送到服務(wù),即可獲得預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果的類型取決于所運(yùn)行的模型。

每個(gè)預(yù)構(gòu)建模型都能識(shí)別給定的圖像屬性和所含概念。使用現(xiàn)成的模型,您可以實(shí)現(xiàn)以下功能:

https://lh5.googleusercontent.com/fktWRXAeLvZ2qH329j43QJaTG7bEnZQc5UxmP9WlA_8wBS0XlsNsBJ5WLrKba2O9BDu7W3codmX6tCDqihOcjeNWOUVCLlM67nv-PkKOt2pnz3xzb2_wUgc5j0vCW68ApWMcs4sF
General 模型的 Demo。來(lái)源:Clarifai

該公司還通過(guò)提供能夠“識(shí)別”相關(guān)概念的模型,來(lái)考慮旅游、酒店和婚禮策劃等業(yè)務(wù)的特殊性此外,還提供基于特定圖像和概念的訓(xùn)練模型。

定價(jià)。 Clarifai的定價(jià)基于使用量,為客戶提供三種定價(jià)計(jì)劃選擇——社區(qū)版、基礎(chǔ)版(隨用隨付,月結(jié)賬單)和企業(yè)及公共部門版(價(jià)格按需提供)。這些計(jì)劃服務(wù)涵蓋了機(jī)器學(xué)習(xí)操作、托管、咨詢、移動(dòng)SDK、基礎(chǔ)設(shè)施等更多內(nèi)容。

社區(qū)版:包括5000次免費(fèi)操作、10個(gè)免費(fèi)自定義概念、10000張免費(fèi)輸入圖像等其他功能。

基礎(chǔ)版:用戶可訓(xùn)練自定義模型,每1000個(gè)模型版本費(fèi)用為1.2美元。使用預(yù)建模型進(jìn)行預(yù)測(cè)的費(fèi)用為每1000次操作1.2美元,而使用自定義模型進(jìn)行預(yù)測(cè)則為每1000次操作3.2美元。圖像搜索費(fèi)用為每1000次操作1.2美元;添加或編輯輸入圖像的費(fèi)用同樣為每1000次操作1.2美元。

Zebra Medical Vision:專為放射科醫(yī)生提供的醫(yī)療圖像分析工具

醫(yī)療行業(yè)的專家同樣能夠利用圖像識(shí)別工具。Zebra Medical Vision提供實(shí)時(shí)分析醫(yī)學(xué)圖像(如計(jì)算機(jī)斷層掃描和X光片)的解決方案。該公司利用數(shù)百萬(wàn)張成像掃描的專有數(shù)據(jù)庫(kù),結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)工具,開(kāi)發(fā)用于管理放射科醫(yī)生工作流程的軟件。其解決方案專注于識(shí)別特定病癥,并有一項(xiàng)功能用于標(biāo)記和優(yōu)先處理病例。能夠檢測(cè)CT掃描中的腦、心血管、肺、肝和骨骼疾病,X光掃描中的40種不同病癥,以及2D乳腺X光片中的乳腺癌。Zebra Medical Vision符合HIPAA和GDPR標(biāo)準(zhǔn)。

定價(jià):Zebra的AI1一體化解決方案的費(fèi)用高達(dá)每次掃描1美元。

您還可以考慮DeepAI、Hive、Nanonets、Imagga等其他供應(yīng)商的工具。Sightengine的圖像和視頻審核API、xModerator的圖像審核服務(wù),以及Face++ AI Open Platform的面部和身體識(shí)別API和SDK,也可能非常適合您的需求。

如何選擇圖像識(shí)別 API?

市面上存在大量商業(yè)化的圖像識(shí)別及其他計(jì)算機(jī)視覺(jué)任務(wù)API,因此選擇合適的API以滿足您的需求和要求至關(guān)重要。您可以根據(jù)以下標(biāo)準(zhǔn)評(píng)估各產(chǎn)品:

視覺(jué)分析功能:瀏覽產(chǎn)品頁(yè)面和文檔,了解API能夠識(shí)別和檢測(cè)的實(shí)體類型。文檔通常包含更詳細(xì)的信息,因此建議仔細(xì)閱讀。

視覺(jué)數(shù)據(jù)類型和分析模式:API或產(chǎn)品是否支持圖像分析、視頻分析或兩者兼有?同時(shí),供應(yīng)商會(huì)明確提供哪種類型的預(yù)測(cè)(批量和在線)。

計(jì)費(fèi)方式:供應(yīng)商提供基于使用量的定價(jià),并公開(kāi)大部分定價(jià)信息,因此您可以根據(jù)預(yù)計(jì)的工作量估算每個(gè)解決方案的成本。

API 使用情況。只有當(dāng)開(kāi)發(fā)人員知道如何使用 API 時(shí),它們才會(huì)變得有用。文檔中將提供有關(guān)如何啟用API、進(jìn)行API調(diào)用以及響應(yīng)示例的教程。

支持服務(wù):必須提供24/7的技術(shù)支持,通過(guò)多個(gè)渠道(電話、電子郵件、論壇等)進(jìn)行。供應(yīng)商通常會(huì)提供多種支持計(jì)劃供購(gòu)買。

原文鏈接:https://www.altexsoft.com/blog/image-recognition-apis/

上一篇:

遠(yuǎn)程醫(yī)療API:構(gòu)建遠(yuǎn)程醫(yī)療護(hù)理工具

下一篇:

第三方應(yīng)用的 PMS API 數(shù)據(jù):如何成為領(lǐng)先 PMS 的集成合作伙伴
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)