圖像內(nèi)容理解-百度智能云
專用API
【更新時(shí)間: 2024.06.25】
圖像理解視覺大模型,可多維度識(shí)別與理解圖片內(nèi)容,包括人、物、行為、場(chǎng)景、文字等,支持輸出對(duì)圖片內(nèi)容的一句話描述,同時(shí)返回圖片的分類標(biāo)簽、文字內(nèi)容等信息
|
瀏覽次數(shù)
142
采購(gòu)人數(shù)
1
試用次數(shù)
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是百度智能云的圖像內(nèi)容理解?
圖像內(nèi)容理解是一種基于先進(jìn)視覺大模型的技術(shù),能夠多維度地識(shí)別并理解圖片中的豐富信息。它不僅能夠分析圖片中的人、物體、行為、場(chǎng)景以及文字,還能通過(guò)整合這些信息,輸出對(duì)整個(gè)圖片內(nèi)容的精確描述。這種技術(shù)通常與強(qiáng)大的語(yǔ)言處理模型結(jié)合,使得機(jī)器能夠進(jìn)行看圖問(wèn)答、視覺推理等復(fù)雜任務(wù),為用戶提供一種類似人類的視覺理解能力。
什么是百度智能云的圖像內(nèi)容理解接口?
百度智能云的圖像內(nèi)容理解有哪些核心功能?
圖片理解與內(nèi)容描述
多維度理解圖片內(nèi)容,支持輸出對(duì)圖片內(nèi)容的一句話描述,結(jié)合大語(yǔ)言模型,可應(yīng)用于看圖問(wèn)答、視覺推理等場(chǎng)景
|
物體和場(chǎng)景全識(shí)別
識(shí)別動(dòng)物、植物、商品、建筑、風(fēng)景、動(dòng)漫、食材、公眾人物等10萬(wàn)個(gè)常見物體及場(chǎng)景,支持拼接返回大類及細(xì)分類名稱
|
圖片文字全識(shí)別
檢測(cè)并識(shí)別圖片內(nèi)的全部文字信息,涵蓋文檔、證件等常見場(chǎng)景,支持輸出文字內(nèi)容及文字位置
|
百度智能云的圖像內(nèi)容理解的核心優(yōu)勢(shì)是什么?
內(nèi)容準(zhǔn)確
依托圖像理解視覺大模型,可精準(zhǔn)提煉出對(duì)圖片的描述,提供更精細(xì)、精準(zhǔn)的理解服務(wù)
|
服務(wù)穩(wěn)定
提供高可靠性、彈性可伸縮、高并發(fā)承載的公有云服務(wù),服務(wù)可用性高達(dá)99.9%以上
|
簡(jiǎn)單易用
標(biāo)準(zhǔn)化接口封裝,調(diào)用簡(jiǎn)單,只需上傳單張圖片,秒級(jí)別獲取識(shí)別結(jié)果
|
在哪些場(chǎng)景會(huì)用到百度智能云的圖像內(nèi)容理解?
多模態(tài)組件提供
支持作為 AI 能力組件,結(jié)合大語(yǔ)言模型無(wú)縫理解圖像信息,讓大模型真正具備“視覺感官”,補(bǔ)齊大語(yǔ)言模型的視覺推理能力
|
|
趣味看圖對(duì)話
結(jié)合大語(yǔ)言模型,可基于圖片內(nèi)容進(jìn)行問(wèn)答對(duì)話,提高用戶交互體驗(yàn),廣泛應(yīng)用于智能手機(jī)廠商、拍照識(shí)圖、趣味科普等場(chǎng)景
|
|
內(nèi)容智能推薦
基于模型為圖片添加的標(biāo)簽,可推薦相關(guān)的話題或用戶,支持用于自動(dòng)標(biāo)簽、圖片分類和內(nèi)容推薦等場(chǎng)景
|
|


1. 成為開發(fā)者
三步完成賬號(hào)的基本注冊(cè)與認(rèn)證:
STEP1:點(diǎn)擊百度AI開放平臺(tái)導(dǎo)航右側(cè)的控制臺(tái),選擇需要使用的AI服務(wù)項(xiàng)。若為未登錄狀態(tài),將跳轉(zhuǎn)至登錄界面,請(qǐng)您使用百度賬號(hào)登錄。如還未持有百度賬戶,可以點(diǎn)擊此處注冊(cè)百度賬戶。
STEP2:首次使用,登錄后將會(huì)進(jìn)入開發(fā)者認(rèn)證頁(yè)面,請(qǐng)?zhí)顚懴嚓P(guān)信息完成開發(fā)者認(rèn)證。注:(如您之前已經(jīng)是百度云用戶或百度開發(fā)者中心用戶,此步可略過(guò))。
STEP3:通過(guò)控制臺(tái)左側(cè)導(dǎo)航,選擇產(chǎn)品服務(wù)-人工智能,進(jìn)入具體AI服務(wù)項(xiàng)的控制面板(如文字識(shí)別、人臉識(shí)別),進(jìn)行相關(guān)業(yè)務(wù)操作。
2. 創(chuàng)建應(yīng)用
賬號(hào)登錄成功,您需要?jiǎng)?chuàng)建應(yīng)用才可正式調(diào)用AI能力。應(yīng)用是您調(diào)用API服務(wù)的基本操作單元,您可以基于應(yīng)用創(chuàng)建成功后獲取的API Key及Secret Key,進(jìn)行接口調(diào)用操作,及相關(guān)配置。
以人臉識(shí)別為例,您可按照下圖所示的操作流程,完成創(chuàng)建操作。
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣 點(diǎn)擊上圖中的「創(chuàng)建應(yīng)用」,即可進(jìn)入應(yīng)用創(chuàng)建界面,如下圖所示:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣 創(chuàng)建應(yīng)用需填寫的內(nèi)容如下:
應(yīng)用名稱: 必填項(xiàng),用于標(biāo)識(shí)您所創(chuàng)建的應(yīng)用的名稱,支持中英文、數(shù)字、下劃線及中橫線,此名稱一經(jīng)創(chuàng)建完畢,不可修改;
接口選擇: 必填項(xiàng),每個(gè)應(yīng)用可以勾選業(yè)務(wù)所需的所有AI服務(wù)的接口權(quán)限(僅可勾選具備免費(fèi)試用權(quán)限的接口能力),應(yīng)用權(quán)限可跨服務(wù)勾選,創(chuàng)建應(yīng)用完畢,此應(yīng)用即具備了所勾選服務(wù)的調(diào)用權(quán)限;
包名綁定: 選填項(xiàng),如果您需要使用OCR、AR及語(yǔ)音客戶端SDK服務(wù)(iOS/Android),需要綁定包名信息,以便生成授權(quán)License,上圖中勾選了「通用文字識(shí)別」權(quán)限后,即展現(xiàn)此項(xiàng)。 注:人臉識(shí)別客戶端SDK需要單獨(dú)申請(qǐng)使用,無(wú)需在此配置;
應(yīng)用描述: 必填項(xiàng),對(duì)此應(yīng)用的業(yè)務(wù)場(chǎng)景進(jìn)行描述。
以上內(nèi)容根據(jù)您的需要,填寫完畢后,即可點(diǎn)擊「立即創(chuàng)建」,完成應(yīng)用的創(chuàng)建。應(yīng)用創(chuàng)建完畢后,您可以點(diǎn)擊左側(cè)導(dǎo)航中的「應(yīng)用列表」,進(jìn)行應(yīng)用查看,如下圖紅框部分所示:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣
溫馨提示:每項(xiàng)服務(wù)最多創(chuàng)建100個(gè)應(yīng)用,同一賬號(hào)下,每項(xiàng)服務(wù)都有一定請(qǐng)求限額,該限額所有應(yīng)用共享。每項(xiàng)服務(wù)的請(qǐng)求限額可以在該服務(wù)控制臺(tái)的概覽頁(yè)查看,通常包含調(diào)用量請(qǐng)求限額與QPS限額。
3. 獲取密鑰
在您創(chuàng)建完畢應(yīng)用后,平臺(tái)將會(huì)分配給您此應(yīng)用的相關(guān)憑證,主要為AppID、API Key、Secret Key。以上三個(gè)信息是您應(yīng)用實(shí)際開發(fā)的主要憑證,每個(gè)應(yīng)用之間各不相同,請(qǐng)您妥善保管。下圖為示例內(nèi)容:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣
4. 生成簽名
您需要使用創(chuàng)建應(yīng)用所分配到的AppID、API Key及Secret Key,進(jìn)行Access Token(用戶身份驗(yàn)證和授權(quán)的憑證)的生成,方法詳見 Access Token獲取,我們?yōu)槟鷾?zhǔn)備了幾種常見語(yǔ)言的請(qǐng)求示例代碼。
溫馨提示:Access Token的有效期為30天(以秒為單位),請(qǐng)您集成時(shí)注意在程序中定期請(qǐng)求新的token。
5. 啟動(dòng)開發(fā)
目前AI產(chǎn)品主要有兩種方式使用:API與SDK,您可以選擇各產(chǎn)品的文檔,查看具體使用方法及參數(shù)。 語(yǔ)音識(shí)別 | 語(yǔ)音合成 | 文字識(shí)別 | 人臉識(shí)別 | 人體分析 | 圖像識(shí)別 | 圖像搜索 | 圖像增強(qiáng)與特效 | 車輛分析| 圖像審核 | 語(yǔ)言與知識(shí) | 文本審核 | 增強(qiáng)現(xiàn)實(shí)AR
同時(shí),我們也為您提供集成多項(xiàng)能力的解決方案,如 智能對(duì)話平臺(tái)UNIT | 智能創(chuàng)作平臺(tái),您可以查看文檔了解具體使用方法。
SDK下載可以直接點(diǎn)擊這里進(jìn)入,選擇您需要的SDK進(jìn)行下載。其中,人臉客戶端SDK需要申請(qǐng)才可使用,請(qǐng)直接:點(diǎn)擊此處申請(qǐng)
詳情參考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3




安全合規(guī)可信的云服務(wù) |
||||


1. 成為開發(fā)者
三步完成賬號(hào)的基本注冊(cè)與認(rèn)證:
STEP1:點(diǎn)擊百度AI開放平臺(tái)導(dǎo)航右側(cè)的控制臺(tái),選擇需要使用的AI服務(wù)項(xiàng)。若為未登錄狀態(tài),將跳轉(zhuǎn)至登錄界面,請(qǐng)您使用百度賬號(hào)登錄。如還未持有百度賬戶,可以點(diǎn)擊此處注冊(cè)百度賬戶。
STEP2:首次使用,登錄后將會(huì)進(jìn)入開發(fā)者認(rèn)證頁(yè)面,請(qǐng)?zhí)顚懴嚓P(guān)信息完成開發(fā)者認(rèn)證。注:(如您之前已經(jīng)是百度云用戶或百度開發(fā)者中心用戶,此步可略過(guò))。
STEP3:通過(guò)控制臺(tái)左側(cè)導(dǎo)航,選擇產(chǎn)品服務(wù)-人工智能,進(jìn)入具體AI服務(wù)項(xiàng)的控制面板(如文字識(shí)別、人臉識(shí)別),進(jìn)行相關(guān)業(yè)務(wù)操作。
2. 創(chuàng)建應(yīng)用
賬號(hào)登錄成功,您需要?jiǎng)?chuàng)建應(yīng)用才可正式調(diào)用AI能力。應(yīng)用是您調(diào)用API服務(wù)的基本操作單元,您可以基于應(yīng)用創(chuàng)建成功后獲取的API Key及Secret Key,進(jìn)行接口調(diào)用操作,及相關(guān)配置。
以人臉識(shí)別為例,您可按照下圖所示的操作流程,完成創(chuàng)建操作。
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣 點(diǎn)擊上圖中的「創(chuàng)建應(yīng)用」,即可進(jìn)入應(yīng)用創(chuàng)建界面,如下圖所示:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣 創(chuàng)建應(yīng)用需填寫的內(nèi)容如下:
應(yīng)用名稱: 必填項(xiàng),用于標(biāo)識(shí)您所創(chuàng)建的應(yīng)用的名稱,支持中英文、數(shù)字、下劃線及中橫線,此名稱一經(jīng)創(chuàng)建完畢,不可修改;
接口選擇: 必填項(xiàng),每個(gè)應(yīng)用可以勾選業(yè)務(wù)所需的所有AI服務(wù)的接口權(quán)限(僅可勾選具備免費(fèi)試用權(quán)限的接口能力),應(yīng)用權(quán)限可跨服務(wù)勾選,創(chuàng)建應(yīng)用完畢,此應(yīng)用即具備了所勾選服務(wù)的調(diào)用權(quán)限;
包名綁定: 選填項(xiàng),如果您需要使用OCR、AR及語(yǔ)音客戶端SDK服務(wù)(iOS/Android),需要綁定包名信息,以便生成授權(quán)License,上圖中勾選了「通用文字識(shí)別」權(quán)限后,即展現(xiàn)此項(xiàng)。 注:人臉識(shí)別客戶端SDK需要單獨(dú)申請(qǐng)使用,無(wú)需在此配置;
應(yīng)用描述: 必填項(xiàng),對(duì)此應(yīng)用的業(yè)務(wù)場(chǎng)景進(jìn)行描述。
以上內(nèi)容根據(jù)您的需要,填寫完畢后,即可點(diǎn)擊「立即創(chuàng)建」,完成應(yīng)用的創(chuàng)建。應(yīng)用創(chuàng)建完畢后,您可以點(diǎn)擊左側(cè)導(dǎo)航中的「應(yīng)用列表」,進(jìn)行應(yīng)用查看,如下圖紅框部分所示:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣
溫馨提示:每項(xiàng)服務(wù)最多創(chuàng)建100個(gè)應(yīng)用,同一賬號(hào)下,每項(xiàng)服務(wù)都有一定請(qǐng)求限額,該限額所有應(yīng)用共享。每項(xiàng)服務(wù)的請(qǐng)求限額可以在該服務(wù)控制臺(tái)的概覽頁(yè)查看,通常包含調(diào)用量請(qǐng)求限額與QPS限額。
3. 獲取密鑰
在您創(chuàng)建完畢應(yīng)用后,平臺(tái)將會(huì)分配給您此應(yīng)用的相關(guān)憑證,主要為AppID、API Key、Secret Key。以上三個(gè)信息是您應(yīng)用實(shí)際開發(fā)的主要憑證,每個(gè)應(yīng)用之間各不相同,請(qǐng)您妥善保管。下圖為示例內(nèi)容:
兩種入口只是展現(xiàn)形式不同,相關(guān)AI服務(wù)模塊內(nèi)容完全一樣
4. 生成簽名
您需要使用創(chuàng)建應(yīng)用所分配到的AppID、API Key及Secret Key,進(jìn)行Access Token(用戶身份驗(yàn)證和授權(quán)的憑證)的生成,方法詳見 Access Token獲取,我們?yōu)槟鷾?zhǔn)備了幾種常見語(yǔ)言的請(qǐng)求示例代碼。
溫馨提示:Access Token的有效期為30天(以秒為單位),請(qǐng)您集成時(shí)注意在程序中定期請(qǐng)求新的token。
5. 啟動(dòng)開發(fā)
目前AI產(chǎn)品主要有兩種方式使用:API與SDK,您可以選擇各產(chǎn)品的文檔,查看具體使用方法及參數(shù)。 語(yǔ)音識(shí)別 | 語(yǔ)音合成 | 文字識(shí)別 | 人臉識(shí)別 | 人體分析 | 圖像識(shí)別 | 圖像搜索 | 圖像增強(qiáng)與特效 | 車輛分析| 圖像審核 | 語(yǔ)言與知識(shí) | 文本審核 | 增強(qiáng)現(xiàn)實(shí)AR
同時(shí),我們也為您提供集成多項(xiàng)能力的解決方案,如 智能對(duì)話平臺(tái)UNIT | 智能創(chuàng)作平臺(tái),您可以查看文檔了解具體使用方法。
SDK下載可以直接點(diǎn)擊這里進(jìn)入,選擇您需要的SDK進(jìn)行下載。其中,人臉客戶端SDK需要申請(qǐng)才可使用,請(qǐng)直接:點(diǎn)擊此處申請(qǐng)
詳情參考:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3






安全合規(guī)可信的云服務(wù) |
||||


|
|
|
|
|
|
|
|
|
|
|
|