![]() |
通義聽悟
專用API
【更新時間: 2024.08.19】
通義聽悟API服務,在語音識別、翻譯和發言人識別的基礎上,提煉全文摘要、章節速覽、發言總結、待辦事項、PPT、問答、關鍵詞等內容,對人與人交流的音視頻進行分析與精簡,幫助使用者快速了解音視頻主要內容。
咨詢
去服務商官網采購>
|
瀏覽次數
155
采購人數
2
試用次數
0
試用
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 使用指南
- 常見 FAQ
- 關于我們
- 相關推薦


什么是通義聽悟?
通義聽悟API服務,在語音識別、翻譯和發言人識別的基礎上,提煉全文摘要、章節速覽、發言總結、待辦事項、PPT、問答、關鍵詞等內容,對人與人交流的音視頻進行分析與精簡,幫助使用者快速了解音視頻主要內容。
什么是通義聽悟接口?
通義聽悟有哪些核心功能?
- 語音轉寫:支持將實時音頻流或音視頻文件中的語音轉寫為文字,支持多種語言包括中文、英文、粵語、中英混和日語,能夠將對話中的不同人物進行區分,支持兩人或多人對話的識別。
- 章節速覽:基于不同的交流話題對音視頻內容進行章節劃分,為每個章節提供一句話的總結標題,用簡短文字(約250字)概括章節內容。
- 大模型摘要:對完整的音視頻內容進行總結,對不同發言人的說話內容進行分別總結,需配合“語音轉寫”中的“說話人分離”功能,識別對話中的顯性和隱性問題,并提煉回答內容。
- 智能紀要:從對話中提取關鍵詞,識別對話中的待辦事項,提取關鍵句,幫助用戶快速定位重要信息,分析對話內容,識別出是面試、演講還是會議等場景。
- PPT抽取和總結:從視頻文件中抽取出現的PPT內容,對每頁PPT的講解語音進行摘要總結,并與PPT內容相互對應。
- 文本翻譯:支持中英、中日雙向實時互譯,將音視頻文件中的語音轉寫為文字后,支持中英、中日雙向互譯
通義聽悟的核心優勢是什么?
-
語音、語言、視覺多模態,17個AI功能靈活搭配:支持音視頻信息處理與提取,所需的多種AI能力,除語音識別、翻譯、發言人識別外,還包括全文摘要、章節速覽、發言總結、待辦事項、PPT、問答、關鍵詞等功能。
-
對接速度快,省時省力:一套接口的參數化配置,即可開啟不同場景中所需的AI能力,降低構建AI場景化服務的API對接成本,省時省力。
-
穩定服務:支持自定義主動消息推送通知與狀態查詢,提供多種異常情況處理機制,方便業務方進行上層業務邏輯處理。
在哪些場景會用到通義聽悟?
-
實時會議記錄:線上、線下會議使用通義聽悟實時呈現多語言字幕;會后檢索關鍵內容,可結合錄音反復聽取其中含義。完整會議錄音和語音轉文字結果,保證會議內容不被遺漏;音頻與轉寫結果逐字對應,確保紀要撰寫理解正確。待辦事項提取可輔助會后任務跟進。
-
錄音轉寫;使用智能工牌、手機、錄音筆進行的錄音,可通過通義聽悟進行離線轉寫,并可分離發言人、查看全文概要、章節速覽、發言總結。對門店服務、電話坐席進行內容分析與總結。
-
面試:實時記錄一對一溝通交流的內容,避免因記錄導致交流不暢或遺漏訪談內容,提高訪談效率和面試體驗。
-
拜訪紀要:智能紀要關鍵詞和重點內容提取幫助銷售人員快速了解交流重點;章節速覽還原交流過程;待辦事項保證客戶的每項要求都不遺漏、可跟進。
-
企業培訓:實時添加語言字幕,并能將培訓關鍵詞、主題進行提取,方便后續檢索與定位。方便無法實時參加的人員在后續進行回看,提升培訓內容在企業內部的持續價值。
-
教學視頻分析:批量上傳教學視頻文件,可轉寫文字、知識點提取、教學內容分割,方便快速檢索、定位、回看教學視頻,學習更輕松。通過關鍵詞總結,可分析教師授課的知識點覆蓋度。
-
外語資料學習:英文或日語的音視頻教學內容,實時轉寫并翻譯成中文,拓寬學生的知識來源。尤其在出國留學的準備期,對提升聽力有很大幫助


快速入門
本文檔介紹快速入門體驗,幫助您快速體驗通義聽悟能力。
入門流程
準備賬號
1:注冊阿里云賬號,請參見注冊阿里云賬號。
2:個人實名認證,請參見個人實名認證。
3:(僅使用舊版接口或MQ回調才需要該步驟)創建并授權RAM用戶,請參見創建RAM用戶。關于RAM用戶的更多信息,請參見什么是訪問控制。聯系主賬戶在RAM控制臺按以下步驟授權,使用通義聽悟管控臺時需要讀取對象存儲OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對象存儲OSS和Rocket MQ的列表的權限,會出現下圖提示:
創建AccessKey
1:創建阿里云賬號的AccessKey,登錄RAM訪問控制臺,使用阿里云賬號創建AccessKey。
2:創建RAM用戶的AccessKey(可選)使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創建AccessKey。




達摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅動力,面向未來開展基礎科學和創新性技術研究。希望打通應用基礎研究和產業應用,探索技術產品化、產品市場化的轉換路徑。
達摩院在數字技術領域取得了一系列技術突破并實現規模化應用,構建了全方位的人工智能基礎能力,推出了業界領先的通義系列大模型,孵化出平頭哥半導體公司等。接下來,達摩院將繼續聚焦中長期科學技術研究,重點布局人工智能、集成電路等前沿領域。
發展歷程
- 2023年2月,天眼查App顯示,阿里巴巴達摩院(杭州)科技有限公司發生工商變更,注冊資本由1000萬人民幣增至3億人民幣,增幅2900%。
- 2023年6月,阿里巴巴達摩院(杭州)科技有限公司的“達摩院開放域自然對話合成算法”備案通過,應用于對話生成場景,服務于智能對話類的企業端客戶,利用對話意圖理解、對話內容生成等技術,通過API提供對話生成功能,備案號為網信算備330110507206401230019號;“達摩院圖像合成算法”備案通過,應用于圖像生成場景,服務于圖像合成類的企業端客戶,通過API提供文字信息轉化為圖像信息的功能,備案號為網信算備330110507206401230027號;“達摩院交互式多能型合成算法”備案通過,應用于開放域多模態內容生成場景,服務于問答、咨詢類的企業端客戶,通過API提供根據用戶輸入生成多模態信息的功能,備案號為網信算備330110507206401230035號。
- 2023年7月,阿里巴巴達摩院(杭州)科技有限公司發生工商變更,周明卸任法定代表人、執行董事兼總經理,由張建鋒接任。
- 2023年8月,該公司達摩院語音合成算法、達摩院虛擬試衣合成算法、達摩院人臉融合合成算法備案通過。
- 2024年2月,阿里巴巴達摩院(杭州)科技有限公司的“達摩院服飾上身合成算法”備案通過,應用于圖像生成場景,服務于企業端客戶,根據用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對應服飾商品的廣告圖,備案號為網信算備330110507206401240055號。
- 2024年4月,該公司達摩院單圖生成3D合成算法備案通過,主要應用于圖像生成場景,服務于企業端客戶,根據用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達到利用單張圖像生成3D模型的效果。備案號為網信算備330110507206401240063號。
- 2024年4月,該公司達摩院人物姿態編輯合成算法備案通過,主要應用于圖像生成場景,服務于企業端客戶,根據用戶輸入的骨架圖和人物圖,生成人物姿態編輯后的結果圖像。備案號為網信算備330110507206401240071號。
- 2024年6月,阿里巴巴達摩院(杭州)科技有限公司達摩院人物舞蹈視頻合成算法備案通過,主要功能是應用于視頻生成場景,服務于企業端客戶,根據用戶輸入的人物參考圖和所選的預設姿態序列,生成指定姿態序列下的人物舞蹈視頻。備案號為330110507206401240089號。


快速入門
本文檔介紹快速入門體驗,幫助您快速體驗通義聽悟能力。
入門流程
準備賬號
1:注冊阿里云賬號,請參見注冊阿里云賬號。
2:個人實名認證,請參見個人實名認證。
3:(僅使用舊版接口或MQ回調才需要該步驟)創建并授權RAM用戶,請參見創建RAM用戶。關于RAM用戶的更多信息,請參見什么是訪問控制。聯系主賬戶在RAM控制臺按以下步驟授權,使用通義聽悟管控臺時需要讀取對象存儲OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對象存儲OSS和Rocket MQ的列表的權限,會出現下圖提示:
創建AccessKey
1:創建阿里云賬號的AccessKey,登錄RAM訪問控制臺,使用阿里云賬號創建AccessKey。
2:創建RAM用戶的AccessKey(可選)使用阿里云賬號登錄RAM訪問控制臺,為RAM用戶創建AccessKey。






達摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅動力,面向未來開展基礎科學和創新性技術研究。希望打通應用基礎研究和產業應用,探索技術產品化、產品市場化的轉換路徑。
達摩院在數字技術領域取得了一系列技術突破并實現規模化應用,構建了全方位的人工智能基礎能力,推出了業界領先的通義系列大模型,孵化出平頭哥半導體公司等。接下來,達摩院將繼續聚焦中長期科學技術研究,重點布局人工智能、集成電路等前沿領域。
發展歷程
- 2023年2月,天眼查App顯示,阿里巴巴達摩院(杭州)科技有限公司發生工商變更,注冊資本由1000萬人民幣增至3億人民幣,增幅2900%。
- 2023年6月,阿里巴巴達摩院(杭州)科技有限公司的“達摩院開放域自然對話合成算法”備案通過,應用于對話生成場景,服務于智能對話類的企業端客戶,利用對話意圖理解、對話內容生成等技術,通過API提供對話生成功能,備案號為網信算備330110507206401230019號;“達摩院圖像合成算法”備案通過,應用于圖像生成場景,服務于圖像合成類的企業端客戶,通過API提供文字信息轉化為圖像信息的功能,備案號為網信算備330110507206401230027號;“達摩院交互式多能型合成算法”備案通過,應用于開放域多模態內容生成場景,服務于問答、咨詢類的企業端客戶,通過API提供根據用戶輸入生成多模態信息的功能,備案號為網信算備330110507206401230035號。
- 2023年7月,阿里巴巴達摩院(杭州)科技有限公司發生工商變更,周明卸任法定代表人、執行董事兼總經理,由張建鋒接任。
- 2023年8月,該公司達摩院語音合成算法、達摩院虛擬試衣合成算法、達摩院人臉融合合成算法備案通過。
- 2024年2月,阿里巴巴達摩院(杭州)科技有限公司的“達摩院服飾上身合成算法”備案通過,應用于圖像生成場景,服務于企業端客戶,根據用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對應服飾商品的廣告圖,備案號為網信算備330110507206401240055號。
- 2024年4月,該公司達摩院單圖生成3D合成算法備案通過,主要應用于圖像生成場景,服務于企業端客戶,根據用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達到利用單張圖像生成3D模型的效果。備案號為網信算備330110507206401240063號。
- 2024年4月,該公司達摩院人物姿態編輯合成算法備案通過,主要應用于圖像生成場景,服務于企業端客戶,根據用戶輸入的骨架圖和人物圖,生成人物姿態編輯后的結果圖像。備案號為網信算備330110507206401240071號。
- 2024年6月,阿里巴巴達摩院(杭州)科技有限公司達摩院人物舞蹈視頻合成算法備案通過,主要功能是應用于視頻生成場景,服務于企業端客戶,根據用戶輸入的人物參考圖和所選的預設姿態序列,生成指定姿態序列下的人物舞蹈視頻。備案號為330110507206401240089號。


-
朗新科技合作案例: 朗新科技接入百煉大模型服務平臺后,對通義千問基礎模型能力進行場景基模效果驗證,并進行了電力行業問答數據效果調優、智能問數場景中NL2SQL模型微調、plugin階段參數API處理增強優化。通過通義千問電力行業知識政策問答、電力賬單解讀、數據問答等場景中實現更智能化的用戶服務新模式。
-
阿里云“伙伴千問計劃”: 阿里云發布了“通義千問伙伴計劃”階段性成果,與朗新、亞信、數字政通、藍凌、千方等60余家伙伴共同驗證了“通義千問”大模型的30余個行業應用場景,涵蓋協同辦公、文化旅游、財務ERP、電力、政務、醫保、交通、制造、金融、軟件開發等行業,涉及智能問答、文章摘要、文案寫作、代碼輔助、知識庫升級等場景。
-
藍凌軟件合作案例: 藍凌軟件對“通義千問”大模型在知識問答場景的應用進行了探索。相較于傳統的數據收集與訓練方法,其訓練效率提高了十倍;而在企業搜索引擎場景中,與傳統詞搜索相比,搜索效率也提高了3倍以上。
-
中國一汽、新東方、長安汽車合作案例: 中國一汽、新東方、長安汽車等也宣布了與通義大模型的合作成果。
-
中國科學院國家天文臺合作案例: 中國科學院國家天文臺人工智能組基于通義千問開發了新一代天文大模型“星語3.0”,這是大模型首次應用于天文觀測領域。
-
陜煤建新煤礦合作案例: 陜煤建新煤礦等十余座礦山推出由通義支持的新型礦山重大風險識別處置系統,成為大模型在礦山場景的首次規模化落地。