![]() |
通義聽悟
專用API
【更新時(shí)間: 2024.08.19】
通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。
|
瀏覽次數(shù)
155
采購人數(shù)
2
試用次數(shù)
0
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 使用指南
- 常見 FAQ
- 關(guān)于我們
- 相關(guān)推薦


什么是通義聽悟?
通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。
什么是通義聽悟接口?
通義聽悟有哪些核心功能?
- 語音轉(zhuǎn)寫:支持將實(shí)時(shí)音頻流或音視頻文件中的語音轉(zhuǎn)寫為文字,支持多種語言包括中文、英文、粵語、中英混和日語,能夠?qū)?duì)話中的不同人物進(jìn)行區(qū)分,支持兩人或多人對(duì)話的識(shí)別。
- 章節(jié)速覽:基于不同的交流話題對(duì)音視頻內(nèi)容進(jìn)行章節(jié)劃分,為每個(gè)章節(jié)提供一句話的總結(jié)標(biāo)題,用簡(jiǎn)短文字(約250字)概括章節(jié)內(nèi)容。
- 大模型摘要:對(duì)完整的音視頻內(nèi)容進(jìn)行總結(jié),對(duì)不同發(fā)言人的說話內(nèi)容進(jìn)行分別總結(jié),需配合“語音轉(zhuǎn)寫”中的“說話人分離”功能,識(shí)別對(duì)話中的顯性和隱性問題,并提煉回答內(nèi)容。
- 智能紀(jì)要:從對(duì)話中提取關(guān)鍵詞,識(shí)別對(duì)話中的待辦事項(xiàng),提取關(guān)鍵句,幫助用戶快速定位重要信息,分析對(duì)話內(nèi)容,識(shí)別出是面試、演講還是會(huì)議等場(chǎng)景。
- PPT抽取和總結(jié):從視頻文件中抽取出現(xiàn)的PPT內(nèi)容,對(duì)每頁P(yáng)PT的講解語音進(jìn)行摘要總結(jié),并與PPT內(nèi)容相互對(duì)應(yīng)。
- 文本翻譯:支持中英、中日雙向?qū)崟r(shí)互譯,將音視頻文件中的語音轉(zhuǎn)寫為文字后,支持中英、中日雙向互譯
通義聽悟的核心優(yōu)勢(shì)是什么?
-
語音、語言、視覺多模態(tài),17個(gè)AI功能靈活搭配:支持音視頻信息處理與提取,所需的多種AI能力,除語音識(shí)別、翻譯、發(fā)言人識(shí)別外,還包括全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等功能。
-
對(duì)接速度快,省時(shí)省力:一套接口的參數(shù)化配置,即可開啟不同場(chǎng)景中所需的AI能力,降低構(gòu)建AI場(chǎng)景化服務(wù)的API對(duì)接成本,省時(shí)省力。
-
穩(wěn)定服務(wù):支持自定義主動(dòng)消息推送通知與狀態(tài)查詢,提供多種異常情況處理機(jī)制,方便業(yè)務(wù)方進(jìn)行上層業(yè)務(wù)邏輯處理。
在哪些場(chǎng)景會(huì)用到通義聽悟?
-
實(shí)時(shí)會(huì)議記錄:線上、線下會(huì)議使用通義聽悟?qū)崟r(shí)呈現(xiàn)多語言字幕;會(huì)后檢索關(guān)鍵內(nèi)容,可結(jié)合錄音反復(fù)聽取其中含義。完整會(huì)議錄音和語音轉(zhuǎn)文字結(jié)果,保證會(huì)議內(nèi)容不被遺漏;音頻與轉(zhuǎn)寫結(jié)果逐字對(duì)應(yīng),確保紀(jì)要撰寫理解正確。待辦事項(xiàng)提取可輔助會(huì)后任務(wù)跟進(jìn)。
-
錄音轉(zhuǎn)寫;使用智能工牌、手機(jī)、錄音筆進(jìn)行的錄音,可通過通義聽悟進(jìn)行離線轉(zhuǎn)寫,并可分離發(fā)言人、查看全文概要、章節(jié)速覽、發(fā)言總結(jié)。對(duì)門店服務(wù)、電話坐席進(jìn)行內(nèi)容分析與總結(jié)。
-
面試:實(shí)時(shí)記錄一對(duì)一溝通交流的內(nèi)容,避免因記錄導(dǎo)致交流不暢或遺漏訪談內(nèi)容,提高訪談效率和面試體驗(yàn)。
-
拜訪紀(jì)要:智能紀(jì)要關(guān)鍵詞和重點(diǎn)內(nèi)容提取幫助銷售人員快速了解交流重點(diǎn);章節(jié)速覽還原交流過程;待辦事項(xiàng)保證客戶的每項(xiàng)要求都不遺漏、可跟進(jìn)。
-
企業(yè)培訓(xùn):實(shí)時(shí)添加語言字幕,并能將培訓(xùn)關(guān)鍵詞、主題進(jìn)行提取,方便后續(xù)檢索與定位。方便無法實(shí)時(shí)參加的人員在后續(xù)進(jìn)行回看,提升培訓(xùn)內(nèi)容在企業(yè)內(nèi)部的持續(xù)價(jià)值。
-
教學(xué)視頻分析:批量上傳教學(xué)視頻文件,可轉(zhuǎn)寫文字、知識(shí)點(diǎn)提取、教學(xué)內(nèi)容分割,方便快速檢索、定位、回看教學(xué)視頻,學(xué)習(xí)更輕松。通過關(guān)鍵詞總結(jié),可分析教師授課的知識(shí)點(diǎn)覆蓋度。
-
外語資料學(xué)習(xí):英文或日語的音視頻教學(xué)內(nèi)容,實(shí)時(shí)轉(zhuǎn)寫并翻譯成中文,拓寬學(xué)生的知識(shí)來源。尤其在出國留學(xué)的準(zhǔn)備期,對(duì)提升聽力有很大幫助


快速入門
本文檔介紹快速入門體驗(yàn),幫助您快速體驗(yàn)通義聽悟能力。
入門流程
準(zhǔn)備賬號(hào)
1:注冊(cè)阿里云賬號(hào),請(qǐng)參見注冊(cè)阿里云賬號(hào)。
2:個(gè)人實(shí)名認(rèn)證,請(qǐng)參見個(gè)人實(shí)名認(rèn)證。
3:(僅使用舊版接口或MQ回調(diào)才需要該步驟)創(chuàng)建并授權(quán)RAM用戶,請(qǐng)參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請(qǐng)參見什么是訪問控制。聯(lián)系主賬戶在RAM控制臺(tái)按以下步驟授權(quán),使用通義聽悟管控臺(tái)時(shí)需要讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表的權(quán)限,會(huì)出現(xiàn)下圖提示:
創(chuàng)建AccessKey
1:創(chuàng)建阿里云賬號(hào)的AccessKey,登錄RAM訪問控制臺(tái),使用阿里云賬號(hào)創(chuàng)建AccessKey。
2:創(chuàng)建RAM用戶的AccessKey(可選)使用阿里云賬號(hào)登錄RAM訪問控制臺(tái),為RAM用戶創(chuàng)建AccessKey。




達(dá)摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅(qū)動(dòng)力,面向未來開展基礎(chǔ)科學(xué)和創(chuàng)新性技術(shù)研究。希望打通應(yīng)用基礎(chǔ)研究和產(chǎn)業(yè)應(yīng)用,探索技術(shù)產(chǎn)品化、產(chǎn)品市場(chǎng)化的轉(zhuǎn)換路徑。
達(dá)摩院在數(shù)字技術(shù)領(lǐng)域取得了一系列技術(shù)突破并實(shí)現(xiàn)規(guī)?;瘧?yīng)用,構(gòu)建了全方位的人工智能基礎(chǔ)能力,推出了業(yè)界領(lǐng)先的通義系列大模型,孵化出平頭哥半導(dǎo)體公司等。接下來,達(dá)摩院將繼續(xù)聚焦中長(zhǎng)期科學(xué)技術(shù)研究,重點(diǎn)布局人工智能、集成電路等前沿領(lǐng)域。
發(fā)展歷程
- 2023年2月,天眼查App顯示,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,注冊(cè)資本由1000萬人民幣增至3億人民幣,增幅2900%。
- 2023年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院開放域自然對(duì)話合成算法”備案通過,應(yīng)用于對(duì)話生成場(chǎng)景,服務(wù)于智能對(duì)話類的企業(yè)端客戶,利用對(duì)話意圖理解、對(duì)話內(nèi)容生成等技術(shù),通過API提供對(duì)話生成功能,備案號(hào)為網(wǎng)信算備330110507206401230019號(hào);“達(dá)摩院圖像合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于圖像合成類的企業(yè)端客戶,通過API提供文字信息轉(zhuǎn)化為圖像信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230027號(hào);“達(dá)摩院交互式多能型合成算法”備案通過,應(yīng)用于開放域多模態(tài)內(nèi)容生成場(chǎng)景,服務(wù)于問答、咨詢類的企業(yè)端客戶,通過API提供根據(jù)用戶輸入生成多模態(tài)信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230035號(hào)。
- 2023年7月,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,周明卸任法定代表人、執(zhí)行董事兼總經(jīng)理,由張建鋒接任。
- 2023年8月,該公司達(dá)摩院語音合成算法、達(dá)摩院虛擬試衣合成算法、達(dá)摩院人臉融合合成算法備案通過。
- 2024年2月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院服飾上身合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對(duì)應(yīng)服飾商品的廣告圖,備案號(hào)為網(wǎng)信算備330110507206401240055號(hào)。
- 2024年4月,該公司達(dá)摩院?jiǎn)螆D生成3D合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達(dá)到利用單張圖像生成3D模型的效果。備案號(hào)為網(wǎng)信算備330110507206401240063號(hào)。
- 2024年4月,該公司達(dá)摩院人物姿態(tài)編輯合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的骨架圖和人物圖,生成人物姿態(tài)編輯后的結(jié)果圖像。備案號(hào)為網(wǎng)信算備330110507206401240071號(hào)。
- 2024年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司達(dá)摩院人物舞蹈視頻合成算法備案通過,主要功能是應(yīng)用于視頻生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的人物參考圖和所選的預(yù)設(shè)姿態(tài)序列,生成指定姿態(tài)序列下的人物舞蹈視頻。備案號(hào)為330110507206401240089號(hào)。


快速入門
本文檔介紹快速入門體驗(yàn),幫助您快速體驗(yàn)通義聽悟能力。
入門流程
準(zhǔn)備賬號(hào)
1:注冊(cè)阿里云賬號(hào),請(qǐng)參見注冊(cè)阿里云賬號(hào)。
2:個(gè)人實(shí)名認(rèn)證,請(qǐng)參見個(gè)人實(shí)名認(rèn)證。
3:(僅使用舊版接口或MQ回調(diào)才需要該步驟)創(chuàng)建并授權(quán)RAM用戶,請(qǐng)參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請(qǐng)參見什么是訪問控制。聯(lián)系主賬戶在RAM控制臺(tái)按以下步驟授權(quán),使用通義聽悟管控臺(tái)時(shí)需要讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表的權(quán)限,會(huì)出現(xiàn)下圖提示:
創(chuàng)建AccessKey
1:創(chuàng)建阿里云賬號(hào)的AccessKey,登錄RAM訪問控制臺(tái),使用阿里云賬號(hào)創(chuàng)建AccessKey。
2:創(chuàng)建RAM用戶的AccessKey(可選)使用阿里云賬號(hào)登錄RAM訪問控制臺(tái),為RAM用戶創(chuàng)建AccessKey。






達(dá)摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅(qū)動(dòng)力,面向未來開展基礎(chǔ)科學(xué)和創(chuàng)新性技術(shù)研究。希望打通應(yīng)用基礎(chǔ)研究和產(chǎn)業(yè)應(yīng)用,探索技術(shù)產(chǎn)品化、產(chǎn)品市場(chǎng)化的轉(zhuǎn)換路徑。
達(dá)摩院在數(shù)字技術(shù)領(lǐng)域取得了一系列技術(shù)突破并實(shí)現(xiàn)規(guī)?;瘧?yīng)用,構(gòu)建了全方位的人工智能基礎(chǔ)能力,推出了業(yè)界領(lǐng)先的通義系列大模型,孵化出平頭哥半導(dǎo)體公司等。接下來,達(dá)摩院將繼續(xù)聚焦中長(zhǎng)期科學(xué)技術(shù)研究,重點(diǎn)布局人工智能、集成電路等前沿領(lǐng)域。
發(fā)展歷程
- 2023年2月,天眼查App顯示,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,注冊(cè)資本由1000萬人民幣增至3億人民幣,增幅2900%。
- 2023年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院開放域自然對(duì)話合成算法”備案通過,應(yīng)用于對(duì)話生成場(chǎng)景,服務(wù)于智能對(duì)話類的企業(yè)端客戶,利用對(duì)話意圖理解、對(duì)話內(nèi)容生成等技術(shù),通過API提供對(duì)話生成功能,備案號(hào)為網(wǎng)信算備330110507206401230019號(hào);“達(dá)摩院圖像合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于圖像合成類的企業(yè)端客戶,通過API提供文字信息轉(zhuǎn)化為圖像信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230027號(hào);“達(dá)摩院交互式多能型合成算法”備案通過,應(yīng)用于開放域多模態(tài)內(nèi)容生成場(chǎng)景,服務(wù)于問答、咨詢類的企業(yè)端客戶,通過API提供根據(jù)用戶輸入生成多模態(tài)信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230035號(hào)。
- 2023年7月,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,周明卸任法定代表人、執(zhí)行董事兼總經(jīng)理,由張建鋒接任。
- 2023年8月,該公司達(dá)摩院語音合成算法、達(dá)摩院虛擬試衣合成算法、達(dá)摩院人臉融合合成算法備案通過。
- 2024年2月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院服飾上身合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對(duì)應(yīng)服飾商品的廣告圖,備案號(hào)為網(wǎng)信算備330110507206401240055號(hào)。
- 2024年4月,該公司達(dá)摩院?jiǎn)螆D生成3D合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達(dá)到利用單張圖像生成3D模型的效果。備案號(hào)為網(wǎng)信算備330110507206401240063號(hào)。
- 2024年4月,該公司達(dá)摩院人物姿態(tài)編輯合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的骨架圖和人物圖,生成人物姿態(tài)編輯后的結(jié)果圖像。備案號(hào)為網(wǎng)信算備330110507206401240071號(hào)。
- 2024年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司達(dá)摩院人物舞蹈視頻合成算法備案通過,主要功能是應(yīng)用于視頻生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的人物參考圖和所選的預(yù)設(shè)姿態(tài)序列,生成指定姿態(tài)序列下的人物舞蹈視頻。備案號(hào)為330110507206401240089號(hào)。


-
朗新科技合作案例: 朗新科技接入百煉大模型服務(wù)平臺(tái)后,對(duì)通義千問基礎(chǔ)模型能力進(jìn)行場(chǎng)景基模效果驗(yàn)證,并進(jìn)行了電力行業(yè)問答數(shù)據(jù)效果調(diào)優(yōu)、智能問數(shù)場(chǎng)景中NL2SQL模型微調(diào)、plugin階段參數(shù)API處理增強(qiáng)優(yōu)化。通過通義千問電力行業(yè)知識(shí)政策問答、電力賬單解讀、數(shù)據(jù)問答等場(chǎng)景中實(shí)現(xiàn)更智能化的用戶服務(wù)新模式。
-
阿里云“伙伴千問計(jì)劃”: 阿里云發(fā)布了“通義千問伙伴計(jì)劃”階段性成果,與朗新、亞信、數(shù)字政通、藍(lán)凌、千方等60余家伙伴共同驗(yàn)證了“通義千問”大模型的30余個(gè)行業(yè)應(yīng)用場(chǎng)景,涵蓋協(xié)同辦公、文化旅游、財(cái)務(wù)ERP、電力、政務(wù)、醫(yī)保、交通、制造、金融、軟件開發(fā)等行業(yè),涉及智能問答、文章摘要、文案寫作、代碼輔助、知識(shí)庫升級(jí)等場(chǎng)景。
-
藍(lán)凌軟件合作案例: 藍(lán)凌軟件對(duì)“通義千問”大模型在知識(shí)問答場(chǎng)景的應(yīng)用進(jìn)行了探索。相較于傳統(tǒng)的數(shù)據(jù)收集與訓(xùn)練方法,其訓(xùn)練效率提高了十倍;而在企業(yè)搜索引擎場(chǎng)景中,與傳統(tǒng)詞搜索相比,搜索效率也提高了3倍以上。
-
中國一汽、新東方、長(zhǎng)安汽車合作案例: 中國一汽、新東方、長(zhǎng)安汽車等也宣布了與通義大模型的合作成果。
-
中國科學(xué)院國家天文臺(tái)合作案例: 中國科學(xué)院國家天文臺(tái)人工智能組基于通義千問開發(fā)了新一代天文大模型“星語3.0”,這是大模型首次應(yīng)用于天文觀測(cè)領(lǐng)域。
-
陜煤建新煤礦合作案例: 陜煤建新煤礦等十余座礦山推出由通義支持的新型礦山重大風(fēng)險(xiǎn)識(shí)別處置系統(tǒng),成為大模型在礦山場(chǎng)景的首次規(guī)模化落地。