通義聽悟

通義聽悟

專用API
【更新時(shí)間: 2024.08.19】 通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。
瀏覽次數(shù)
155
采購人數(shù)
2
試用次數(shù)
0
! SLA: N/A
! 響應(yīng): N/A
! 適用于個(gè)人&企業(yè)
試用
收藏
×
完成
取消
×
書簽名稱
確定
<
產(chǎn)品介紹
>

什么是通義聽悟?

通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。


關(guān)于通義聽悟API的圖片 的圖像結(jié)果

什么是通義聽悟接口?

由服務(wù)使用方的應(yīng)用程序發(fā)起,以Restful風(fēng)格為主、通過公網(wǎng)HTTP協(xié)議調(diào)用通義聽悟,從而實(shí)現(xiàn)程序的自動(dòng)化交互,提高服務(wù)效率。

通義聽悟有哪些核心功能?

  1. 語音轉(zhuǎn)寫:支持將實(shí)時(shí)音頻流或音視頻文件中的語音轉(zhuǎn)寫為文字,支持多種語言包括中文、英文、粵語、中英混和日語,能夠?qū)?duì)話中的不同人物進(jìn)行區(qū)分,支持兩人或多人對(duì)話的識(shí)別。
  2. 章節(jié)速覽:基于不同的交流話題對(duì)音視頻內(nèi)容進(jìn)行章節(jié)劃分,為每個(gè)章節(jié)提供一句話的總結(jié)標(biāo)題,用簡(jiǎn)短文字(約250字)概括章節(jié)內(nèi)容。
  3. 大模型摘要:對(duì)完整的音視頻內(nèi)容進(jìn)行總結(jié),對(duì)不同發(fā)言人的說話內(nèi)容進(jìn)行分別總結(jié),需配合“語音轉(zhuǎn)寫”中的“說話人分離”功能,識(shí)別對(duì)話中的顯性和隱性問題,并提煉回答內(nèi)容。
  4. 智能紀(jì)要:從對(duì)話中提取關(guān)鍵詞,識(shí)別對(duì)話中的待辦事項(xiàng),提取關(guān)鍵句,幫助用戶快速定位重要信息,分析對(duì)話內(nèi)容,識(shí)別出是面試、演講還是會(huì)議等場(chǎng)景。
  5. PPT抽取和總結(jié):從視頻文件中抽取出現(xiàn)的PPT內(nèi)容,對(duì)每頁P(yáng)PT的講解語音進(jìn)行摘要總結(jié),并與PPT內(nèi)容相互對(duì)應(yīng)。
  6. 文本翻譯:支持中英、中日雙向?qū)崟r(shí)互譯,將音視頻文件中的語音轉(zhuǎn)寫為文字后,支持中英、中日雙向互譯

通義聽悟的核心優(yōu)勢(shì)是什么?

  1. 語音、語言、視覺多模態(tài),17個(gè)AI功能靈活搭配:支持音視頻信息處理與提取,所需的多種AI能力,除語音識(shí)別、翻譯、發(fā)言人識(shí)別外,還包括全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等功能。

     

  2. 對(duì)接速度快,省時(shí)省力:一套接口的參數(shù)化配置,即可開啟不同場(chǎng)景中所需的AI能力,降低構(gòu)建AI場(chǎng)景化服務(wù)的API對(duì)接成本,省時(shí)省力。

     

  3. 穩(wěn)定服務(wù):支持自定義主動(dòng)消息推送通知與狀態(tài)查詢,提供多種異常情況處理機(jī)制,方便業(yè)務(wù)方進(jìn)行上層業(yè)務(wù)邏輯處理。

     

在哪些場(chǎng)景會(huì)用到通義聽悟?

  1. 實(shí)時(shí)會(huì)議記錄:線上、線下會(huì)議使用通義聽悟?qū)崟r(shí)呈現(xiàn)多語言字幕;會(huì)后檢索關(guān)鍵內(nèi)容,可結(jié)合錄音反復(fù)聽取其中含義。完整會(huì)議錄音和語音轉(zhuǎn)文字結(jié)果,保證會(huì)議內(nèi)容不被遺漏;音頻與轉(zhuǎn)寫結(jié)果逐字對(duì)應(yīng),確保紀(jì)要撰寫理解正確。待辦事項(xiàng)提取可輔助會(huì)后任務(wù)跟進(jìn)。

     

  2. 錄音轉(zhuǎn)寫;使用智能工牌、手機(jī)、錄音筆進(jìn)行的錄音,可通過通義聽悟進(jìn)行離線轉(zhuǎn)寫,并可分離發(fā)言人、查看全文概要、章節(jié)速覽、發(fā)言總結(jié)。對(duì)門店服務(wù)、電話坐席進(jìn)行內(nèi)容分析與總結(jié)。

     

  3. 面試:實(shí)時(shí)記錄一對(duì)一溝通交流的內(nèi)容,避免因記錄導(dǎo)致交流不暢或遺漏訪談內(nèi)容,提高訪談效率和面試體驗(yàn)。

     

  4. 拜訪紀(jì)要:智能紀(jì)要關(guān)鍵詞和重點(diǎn)內(nèi)容提取幫助銷售人員快速了解交流重點(diǎn);章節(jié)速覽還原交流過程;待辦事項(xiàng)保證客戶的每項(xiàng)要求都不遺漏、可跟進(jìn)。

     

  5. 企業(yè)培訓(xùn):實(shí)時(shí)添加語言字幕,并能將培訓(xùn)關(guān)鍵詞、主題進(jìn)行提取,方便后續(xù)檢索與定位。方便無法實(shí)時(shí)參加的人員在后續(xù)進(jìn)行回看,提升培訓(xùn)內(nèi)容在企業(yè)內(nèi)部的持續(xù)價(jià)值。

  6. 教學(xué)視頻分析:批量上傳教學(xué)視頻文件,可轉(zhuǎn)寫文字、知識(shí)點(diǎn)提取、教學(xué)內(nèi)容分割,方便快速檢索、定位、回看教學(xué)視頻,學(xué)習(xí)更輕松。通過關(guān)鍵詞總結(jié),可分析教師授課的知識(shí)點(diǎn)覆蓋度。

     

  7. 外語資料學(xué)習(xí):英文或日語的音視頻教學(xué)內(nèi)容,實(shí)時(shí)轉(zhuǎn)寫并翻譯成中文,拓寬學(xué)生的知識(shí)來源。尤其在出國留學(xué)的準(zhǔn)備期,對(duì)提升聽力有很大幫助

<
使用指南
>

快速入門
本文檔介紹快速入門體驗(yàn),幫助您快速體驗(yàn)通義聽悟能力。
入門流程

準(zhǔn)備賬號(hào)
1:注冊(cè)阿里云賬號(hào),請(qǐng)參見注冊(cè)阿里云賬號(hào)。

2:個(gè)人實(shí)名認(rèn)證,請(qǐng)參見個(gè)人實(shí)名認(rèn)證。

3:(僅使用舊版接口或MQ回調(diào)才需要該步驟)創(chuàng)建并授權(quán)RAM用戶,請(qǐng)參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請(qǐng)參見什么是訪問控制。聯(lián)系主賬戶在RAM控制臺(tái)按以下步驟授權(quán),使用通義聽悟管控臺(tái)時(shí)需要讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表的權(quán)限,會(huì)出現(xiàn)下圖提示:

創(chuàng)建AccessKey
1:創(chuàng)建阿里云賬號(hào)的AccessKey,登錄RAM訪問控制臺(tái),使用阿里云賬號(hào)創(chuàng)建AccessKey。
2:創(chuàng)建RAM用戶的AccessKey(可選)使用阿里云賬號(hào)登錄RAM訪問控制臺(tái),為RAM用戶創(chuàng)建AccessKey。

<
產(chǎn)品問答
>
?
如何注銷賬號(hào)?
第一步:點(diǎn)擊首頁右上角頭像中的「賬號(hào)中心」。 img 第二步:點(diǎn)擊左側(cè)「賬號(hào)安全」,滑到底部后點(diǎn)擊「開始注銷」。 img 第三步:在彈出的「驗(yàn)證身份」彈窗中,完成賬號(hào)身份驗(yàn)證,建議優(yōu)先選擇手機(jī)號(hào)碼驗(yàn)證。也可以使用其他驗(yàn)證方式。 img 第四步:仔細(xì)閱讀以下須知和鏈接中的協(xié)議。勾選:我已了解《阿里云賬號(hào)注銷協(xié)議》后,點(diǎn)擊下一步。 img 第五步:確認(rèn)注銷后,系統(tǒng)檢查賬號(hào)是否滿足注銷條件,檢查可能需要3-5分鐘。 img 第六步 資源檢查通過后,點(diǎn)擊「確認(rèn)注銷」按鈕。 img 第七步 在二次確認(rèn)注銷彈窗中,再次點(diǎn)擊「確認(rèn)注銷」。 img 系統(tǒng)對(duì)賬號(hào)進(jìn)行注銷操作后即可注銷成功。 警告:賬號(hào)注銷中,請(qǐng)不要在此期間進(jìn)行其它操作,否則可能導(dǎo)致賬號(hào)注銷失敗。 img 微信小程序如何切換同個(gè)手機(jī)號(hào)下的不同賬號(hào)? 第一步:電腦打開通義聽悟https://tingwu.aliyun.com/點(diǎn)擊登錄按鈕,使用手機(jī)號(hào)登錄 img 第二步:選擇微信小程序登錄的賬號(hào)進(jìn)行登錄(通常是最近登錄的賬號(hào))。 img 第三步:點(diǎn)擊首頁右上角頭像中的賬號(hào)中心。 img 第四步:點(diǎn)擊左側(cè)基本信息,在三方賬號(hào)綁定處點(diǎn)擊「修改」,并解除微信綁定。 img img 第五步:回到微信小程序并使用手機(jī)號(hào)登錄,即可選擇需要登錄的賬號(hào)。 img
?
支持轉(zhuǎn)寫和翻譯哪些語言?
通義聽悟語音轉(zhuǎn)文字,目前支持中文、英語、日語、粵語和中英文自由說五種語言。 音視頻語言為中文時(shí),支持翻譯為英語、日語;音視頻語言為英語、日語時(shí),支持翻譯為中文;音視頻語言為中英文自由說時(shí),支持翻譯為中文、英語。 粵語暫不支持翻譯功能。
?
支持英譯中、日譯中嗎?
當(dāng)音視頻語言為英語或日語時(shí),通義聽悟可以將識(shí)別結(jié)果翻譯為中文。
?
支持哪些文件格式?
通義聽悟支持將多種格式的本地音視頻文件以及阿里云盤文件轉(zhuǎn)文字。本地文件最多可同時(shí)轉(zhuǎn)寫50個(gè),阿里云盤文件最多可同時(shí)轉(zhuǎn)寫20個(gè)。單個(gè)文件最長(zhǎng)6小時(shí)。 視頻支持 : mp4、wmv、m4v、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg格式,單個(gè)不超過 6G; 音頻支持 : mp3、wav、m4a、wma、aac、ogg、amr、flac、aiff格式,單個(gè)不超過 500M。
?
采樣率是什么?
音頻采樣率是指錄音設(shè)備在單位時(shí)間內(nèi)對(duì)模擬信號(hào)采樣的多少,采樣頻率越高,機(jī)械波的波形就越真實(shí)越自然,即音質(zhì)越好。 通義聽悟目前支持16k及以上的音頻采樣率,如果你的文件音頻采樣率低于這一數(shù)值,則無法使用文件轉(zhuǎn)寫功能。 (常見的音頻采樣率均在16k以上,電話錄音的音頻采樣率可能為8k)
?
如何查看文件的采樣率?
Macbook可以在訪達(dá)中使用鼠標(biāo)右鍵單擊文件,選擇「查看簡(jiǎn)介」,在「更多信息 - 采樣速率」中即可查看。
?
支持哪些播客鏈接?
點(diǎn)擊這里查看播客頻道List,列表中的播客頻道均可支持轉(zhuǎn)寫。 RSS源可在原作者內(nèi)容官網(wǎng)頁、蘋果播客等網(wǎng)站中找到。
?
播客鏈接無法識(shí)別怎么辦?
由于服務(wù)條款限制,無法支持對(duì)優(yōu)酷、抖音、愛奇藝、騰訊視頻、嗶哩嗶哩等網(wǎng)站鏈接的直接解析,可嘗試下載視頻后再使用。 (請(qǐng)確認(rèn)下載內(nèi)容已獲得原權(quán)利人授權(quán),且下載行為符合相關(guān)平臺(tái)要求,如您未經(jīng)許可的下載行為侵犯他人權(quán)益,需由您自行完全承擔(dān)責(zé)任,通義聽悟不承擔(dān)任何責(zé)任。)
?
結(jié)束錄音或上傳文件后如何查看記錄?
錄音結(jié)束或文件轉(zhuǎn)寫成功后,記錄將會(huì)自動(dòng)出現(xiàn)在我的記錄列表中,可以隨時(shí)查看。
?
記錄太多,如何找到我想看的內(nèi)容?
記錄支持搜索,你可以在首頁上方搜索框中輸入關(guān)鍵詞,搜索歷史記錄。
?
播放音視頻沒有聲音怎么辦?
如果你的電腦開啟代理,可能會(huì)導(dǎo)致無法正常播放。請(qǐng)按照以下步驟,檢查并關(guān)閉代理后重試。 Macbook 第一步:打開電腦中的系統(tǒng)偏好設(shè)置,選擇網(wǎng)絡(luò),點(diǎn)擊高級(jí)。 image 第二步:在設(shè)置頁面中選擇代理,確保以下框內(nèi)選項(xiàng)都沒有被勾選。確認(rèn)后,點(diǎn)擊好,即完成設(shè)置。 image Windows 第一步:點(diǎn)擊控制面板>Internet選項(xiàng)>Internet屬性。在 Internet 屬性的設(shè)置頁面中,選擇連接。在局域網(wǎng)(LAN)設(shè)置處,點(diǎn)擊局域網(wǎng)設(shè)置。 image 第二步:在代理服務(wù)器處,確認(rèn)為L(zhǎng)AN使用代理服務(wù)器沒有被勾選。檢查完畢后,選擇確定,即完成設(shè)置。 img
<
關(guān)于我們
>
通義千問是由阿里云自主研發(fā)的大語言模型,用于理解和分析用戶輸入的自然語言,在不同領(lǐng)域和任務(wù)為用戶提供服務(wù)和幫助。您可以通過提供盡可能清晰詳細(xì)的指令,來獲取符合您預(yù)期的結(jié)果。通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。
聯(lián)系信息
服務(wù)時(shí)間: 00:00--24:00
電話號(hào)碼: 86 571 8502 2600
郵箱: tingwu_contact@service.alibaba.com

達(dá)摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅(qū)動(dòng)力,面向未來開展基礎(chǔ)科學(xué)和創(chuàng)新性技術(shù)研究。希望打通應(yīng)用基礎(chǔ)研究和產(chǎn)業(yè)應(yīng)用,探索技術(shù)產(chǎn)品化、產(chǎn)品市場(chǎng)化的轉(zhuǎn)換路徑。

 

達(dá)摩院在數(shù)字技術(shù)領(lǐng)域取得了一系列技術(shù)突破并實(shí)現(xiàn)規(guī)?;瘧?yīng)用,構(gòu)建了全方位的人工智能基礎(chǔ)能力,推出了業(yè)界領(lǐng)先的通義系列大模型,孵化出平頭哥半導(dǎo)體公司等。接下來,達(dá)摩院將繼續(xù)聚焦中長(zhǎng)期科學(xué)技術(shù)研究,重點(diǎn)布局人工智能、集成電路等前沿領(lǐng)域。

 

 

發(fā)展歷程

  • 2023年2月,天眼查App顯示,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,注冊(cè)資本由1000萬人民幣增至3億人民幣,增幅2900%。
  • 2023年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院開放域自然對(duì)話合成算法”備案通過,應(yīng)用于對(duì)話生成場(chǎng)景,服務(wù)于智能對(duì)話類的企業(yè)端客戶,利用對(duì)話意圖理解、對(duì)話內(nèi)容生成等技術(shù),通過API提供對(duì)話生成功能,備案號(hào)為網(wǎng)信算備330110507206401230019號(hào);“達(dá)摩院圖像合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于圖像合成類的企業(yè)端客戶,通過API提供文字信息轉(zhuǎn)化為圖像信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230027號(hào);“達(dá)摩院交互式多能型合成算法”備案通過,應(yīng)用于開放域多模態(tài)內(nèi)容生成場(chǎng)景,服務(wù)于問答、咨詢類的企業(yè)端客戶,通過API提供根據(jù)用戶輸入生成多模態(tài)信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230035號(hào)。
  • 2023年7月,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,周明卸任法定代表人、執(zhí)行董事兼總經(jīng)理,由張建鋒接任。
  • 2023年8月,該公司達(dá)摩院語音合成算法、達(dá)摩院虛擬試衣合成算法、達(dá)摩院人臉融合合成算法備案通過。
  • 2024年2月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院服飾上身合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對(duì)應(yīng)服飾商品的廣告圖,備案號(hào)為網(wǎng)信算備330110507206401240055號(hào)。
  • 2024年4月,該公司達(dá)摩院?jiǎn)螆D生成3D合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達(dá)到利用單張圖像生成3D模型的效果。備案號(hào)為網(wǎng)信算備330110507206401240063號(hào)。
  • 2024年4月,該公司達(dá)摩院人物姿態(tài)編輯合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的骨架圖和人物圖,生成人物姿態(tài)編輯后的結(jié)果圖像。備案號(hào)為網(wǎng)信算備330110507206401240071號(hào)。
  • 2024年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司達(dá)摩院人物舞蹈視頻合成算法備案通過,主要功能是應(yīng)用于視頻生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的人物參考圖和所選的預(yù)設(shè)姿態(tài)序列,生成指定姿態(tài)序列下的人物舞蹈視頻。備案號(hào)為330110507206401240089號(hào)。
<
最可能同場(chǎng)景使用的其他API
>
API接口列表
<
使用指南
>

快速入門
本文檔介紹快速入門體驗(yàn),幫助您快速體驗(yàn)通義聽悟能力。
入門流程

準(zhǔn)備賬號(hào)
1:注冊(cè)阿里云賬號(hào),請(qǐng)參見注冊(cè)阿里云賬號(hào)。

2:個(gè)人實(shí)名認(rèn)證,請(qǐng)參見個(gè)人實(shí)名認(rèn)證。

3:(僅使用舊版接口或MQ回調(diào)才需要該步驟)創(chuàng)建并授權(quán)RAM用戶,請(qǐng)參見創(chuàng)建RAM用戶。關(guān)于RAM用戶的更多信息,請(qǐng)參見什么是訪問控制。聯(lián)系主賬戶在RAM控制臺(tái)按以下步驟授權(quán),使用通義聽悟管控臺(tái)時(shí)需要讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表。如果RAM子賬戶沒有讀取對(duì)象存儲(chǔ)OSS和Rocket MQ的列表的權(quán)限,會(huì)出現(xiàn)下圖提示:

創(chuàng)建AccessKey
1:創(chuàng)建阿里云賬號(hào)的AccessKey,登錄RAM訪問控制臺(tái),使用阿里云賬號(hào)創(chuàng)建AccessKey。
2:創(chuàng)建RAM用戶的AccessKey(可選)使用阿里云賬號(hào)登錄RAM訪問控制臺(tái),為RAM用戶創(chuàng)建AccessKey。

<
依賴服務(wù)
>
<
產(chǎn)品問答
>
?
如何注銷賬號(hào)?
第一步:點(diǎn)擊首頁右上角頭像中的「賬號(hào)中心」。 img 第二步:點(diǎn)擊左側(cè)「賬號(hào)安全」,滑到底部后點(diǎn)擊「開始注銷」。 img 第三步:在彈出的「驗(yàn)證身份」彈窗中,完成賬號(hào)身份驗(yàn)證,建議優(yōu)先選擇手機(jī)號(hào)碼驗(yàn)證。也可以使用其他驗(yàn)證方式。 img 第四步:仔細(xì)閱讀以下須知和鏈接中的協(xié)議。勾選:我已了解《阿里云賬號(hào)注銷協(xié)議》后,點(diǎn)擊下一步。 img 第五步:確認(rèn)注銷后,系統(tǒng)檢查賬號(hào)是否滿足注銷條件,檢查可能需要3-5分鐘。 img 第六步 資源檢查通過后,點(diǎn)擊「確認(rèn)注銷」按鈕。 img 第七步 在二次確認(rèn)注銷彈窗中,再次點(diǎn)擊「確認(rèn)注銷」。 img 系統(tǒng)對(duì)賬號(hào)進(jìn)行注銷操作后即可注銷成功。 警告:賬號(hào)注銷中,請(qǐng)不要在此期間進(jìn)行其它操作,否則可能導(dǎo)致賬號(hào)注銷失敗。 img 微信小程序如何切換同個(gè)手機(jī)號(hào)下的不同賬號(hào)? 第一步:電腦打開通義聽悟https://tingwu.aliyun.com/點(diǎn)擊登錄按鈕,使用手機(jī)號(hào)登錄 img 第二步:選擇微信小程序登錄的賬號(hào)進(jìn)行登錄(通常是最近登錄的賬號(hào))。 img 第三步:點(diǎn)擊首頁右上角頭像中的賬號(hào)中心。 img 第四步:點(diǎn)擊左側(cè)基本信息,在三方賬號(hào)綁定處點(diǎn)擊「修改」,并解除微信綁定。 img img 第五步:回到微信小程序并使用手機(jī)號(hào)登錄,即可選擇需要登錄的賬號(hào)。 img
?
支持轉(zhuǎn)寫和翻譯哪些語言?
通義聽悟語音轉(zhuǎn)文字,目前支持中文、英語、日語、粵語和中英文自由說五種語言。 音視頻語言為中文時(shí),支持翻譯為英語、日語;音視頻語言為英語、日語時(shí),支持翻譯為中文;音視頻語言為中英文自由說時(shí),支持翻譯為中文、英語。 粵語暫不支持翻譯功能。
?
支持英譯中、日譯中嗎?
當(dāng)音視頻語言為英語或日語時(shí),通義聽悟可以將識(shí)別結(jié)果翻譯為中文。
?
支持哪些文件格式?
通義聽悟支持將多種格式的本地音視頻文件以及阿里云盤文件轉(zhuǎn)文字。本地文件最多可同時(shí)轉(zhuǎn)寫50個(gè),阿里云盤文件最多可同時(shí)轉(zhuǎn)寫20個(gè)。單個(gè)文件最長(zhǎng)6小時(shí)。 視頻支持 : mp4、wmv、m4v、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg格式,單個(gè)不超過 6G; 音頻支持 : mp3、wav、m4a、wma、aac、ogg、amr、flac、aiff格式,單個(gè)不超過 500M。
?
采樣率是什么?
音頻采樣率是指錄音設(shè)備在單位時(shí)間內(nèi)對(duì)模擬信號(hào)采樣的多少,采樣頻率越高,機(jī)械波的波形就越真實(shí)越自然,即音質(zhì)越好。 通義聽悟目前支持16k及以上的音頻采樣率,如果你的文件音頻采樣率低于這一數(shù)值,則無法使用文件轉(zhuǎn)寫功能。 (常見的音頻采樣率均在16k以上,電話錄音的音頻采樣率可能為8k)
?
如何查看文件的采樣率?
Macbook可以在訪達(dá)中使用鼠標(biāo)右鍵單擊文件,選擇「查看簡(jiǎn)介」,在「更多信息 - 采樣速率」中即可查看。
?
支持哪些播客鏈接?
點(diǎn)擊這里查看播客頻道List,列表中的播客頻道均可支持轉(zhuǎn)寫。 RSS源可在原作者內(nèi)容官網(wǎng)頁、蘋果播客等網(wǎng)站中找到。
?
播客鏈接無法識(shí)別怎么辦?
由于服務(wù)條款限制,無法支持對(duì)優(yōu)酷、抖音、愛奇藝、騰訊視頻、嗶哩嗶哩等網(wǎng)站鏈接的直接解析,可嘗試下載視頻后再使用。 (請(qǐng)確認(rèn)下載內(nèi)容已獲得原權(quán)利人授權(quán),且下載行為符合相關(guān)平臺(tái)要求,如您未經(jīng)許可的下載行為侵犯他人權(quán)益,需由您自行完全承擔(dān)責(zé)任,通義聽悟不承擔(dān)任何責(zé)任。)
?
結(jié)束錄音或上傳文件后如何查看記錄?
錄音結(jié)束或文件轉(zhuǎn)寫成功后,記錄將會(huì)自動(dòng)出現(xiàn)在我的記錄列表中,可以隨時(shí)查看。
?
記錄太多,如何找到我想看的內(nèi)容?
記錄支持搜索,你可以在首頁上方搜索框中輸入關(guān)鍵詞,搜索歷史記錄。
?
播放音視頻沒有聲音怎么辦?
如果你的電腦開啟代理,可能會(huì)導(dǎo)致無法正常播放。請(qǐng)按照以下步驟,檢查并關(guān)閉代理后重試。 Macbook 第一步:打開電腦中的系統(tǒng)偏好設(shè)置,選擇網(wǎng)絡(luò),點(diǎn)擊高級(jí)。 image 第二步:在設(shè)置頁面中選擇代理,確保以下框內(nèi)選項(xiàng)都沒有被勾選。確認(rèn)后,點(diǎn)擊好,即完成設(shè)置。 image Windows 第一步:點(diǎn)擊控制面板>Internet選項(xiàng)>Internet屬性。在 Internet 屬性的設(shè)置頁面中,選擇連接。在局域網(wǎng)(LAN)設(shè)置處,點(diǎn)擊局域網(wǎng)設(shè)置。 image 第二步:在代理服務(wù)器處,確認(rèn)為L(zhǎng)AN使用代理服務(wù)器沒有被勾選。檢查完畢后,選擇確定,即完成設(shè)置。 img
<
關(guān)于我們
>
通義千問是由阿里云自主研發(fā)的大語言模型,用于理解和分析用戶輸入的自然語言,在不同領(lǐng)域和任務(wù)為用戶提供服務(wù)和幫助。您可以通過提供盡可能清晰詳細(xì)的指令,來獲取符合您預(yù)期的結(jié)果。通義聽悟API服務(wù),在語音識(shí)別、翻譯和發(fā)言人識(shí)別的基礎(chǔ)上,提煉全文摘要、章節(jié)速覽、發(fā)言總結(jié)、待辦事項(xiàng)、PPT、問答、關(guān)鍵詞等內(nèi)容,對(duì)人與人交流的音視頻進(jìn)行分析與精簡(jiǎn),幫助使用者快速了解音視頻主要內(nèi)容。
聯(lián)系信息
服務(wù)時(shí)間: 00:00--24:00
電話號(hào)碼: 86 571 8502 2600
郵箱: tingwu_contact@service.alibaba.com

達(dá)摩院成立于2017年10月,致力于探索科技未知,以人類愿景為驅(qū)動(dòng)力,面向未來開展基礎(chǔ)科學(xué)和創(chuàng)新性技術(shù)研究。希望打通應(yīng)用基礎(chǔ)研究和產(chǎn)業(yè)應(yīng)用,探索技術(shù)產(chǎn)品化、產(chǎn)品市場(chǎng)化的轉(zhuǎn)換路徑。

 

達(dá)摩院在數(shù)字技術(shù)領(lǐng)域取得了一系列技術(shù)突破并實(shí)現(xiàn)規(guī)?;瘧?yīng)用,構(gòu)建了全方位的人工智能基礎(chǔ)能力,推出了業(yè)界領(lǐng)先的通義系列大模型,孵化出平頭哥半導(dǎo)體公司等。接下來,達(dá)摩院將繼續(xù)聚焦中長(zhǎng)期科學(xué)技術(shù)研究,重點(diǎn)布局人工智能、集成電路等前沿領(lǐng)域。

 

 

發(fā)展歷程

  • 2023年2月,天眼查App顯示,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,注冊(cè)資本由1000萬人民幣增至3億人民幣,增幅2900%。
  • 2023年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院開放域自然對(duì)話合成算法”備案通過,應(yīng)用于對(duì)話生成場(chǎng)景,服務(wù)于智能對(duì)話類的企業(yè)端客戶,利用對(duì)話意圖理解、對(duì)話內(nèi)容生成等技術(shù),通過API提供對(duì)話生成功能,備案號(hào)為網(wǎng)信算備330110507206401230019號(hào);“達(dá)摩院圖像合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于圖像合成類的企業(yè)端客戶,通過API提供文字信息轉(zhuǎn)化為圖像信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230027號(hào);“達(dá)摩院交互式多能型合成算法”備案通過,應(yīng)用于開放域多模態(tài)內(nèi)容生成場(chǎng)景,服務(wù)于問答、咨詢類的企業(yè)端客戶,通過API提供根據(jù)用戶輸入生成多模態(tài)信息的功能,備案號(hào)為網(wǎng)信算備330110507206401230035號(hào)。
  • 2023年7月,阿里巴巴達(dá)摩院(杭州)科技有限公司發(fā)生工商變更,周明卸任法定代表人、執(zhí)行董事兼總經(jīng)理,由張建鋒接任。
  • 2023年8月,該公司達(dá)摩院語音合成算法、達(dá)摩院虛擬試衣合成算法、達(dá)摩院人臉融合合成算法備案通過。
  • 2024年2月,阿里巴巴達(dá)摩院(杭州)科技有限公司的“達(dá)摩院服飾上身合成算法”備案通過,應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶上傳的服飾參考圖和模特圖,將服飾圖里的服飾融合到模特身上,生成對(duì)應(yīng)服飾商品的廣告圖,備案號(hào)為網(wǎng)信算備330110507206401240055號(hào)。
  • 2024年4月,該公司達(dá)摩院?jiǎn)螆D生成3D合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的需要被3D生成的單張單體物體的圖片,生成該物體的任意視角下的圖像,達(dá)到利用單張圖像生成3D模型的效果。備案號(hào)為網(wǎng)信算備330110507206401240063號(hào)。
  • 2024年4月,該公司達(dá)摩院人物姿態(tài)編輯合成算法備案通過,主要應(yīng)用于圖像生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的骨架圖和人物圖,生成人物姿態(tài)編輯后的結(jié)果圖像。備案號(hào)為網(wǎng)信算備330110507206401240071號(hào)。
  • 2024年6月,阿里巴巴達(dá)摩院(杭州)科技有限公司達(dá)摩院人物舞蹈視頻合成算法備案通過,主要功能是應(yīng)用于視頻生成場(chǎng)景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的人物參考圖和所選的預(yù)設(shè)姿態(tài)序列,生成指定姿態(tài)序列下的人物舞蹈視頻。備案號(hào)為330110507206401240089號(hào)。
<
合作案例
>
  1. 朗新科技合作案例: 朗新科技接入百煉大模型服務(wù)平臺(tái)后,對(duì)通義千問基礎(chǔ)模型能力進(jìn)行場(chǎng)景基模效果驗(yàn)證,并進(jìn)行了電力行業(yè)問答數(shù)據(jù)效果調(diào)優(yōu)、智能問數(shù)場(chǎng)景中NL2SQL模型微調(diào)、plugin階段參數(shù)API處理增強(qiáng)優(yōu)化。通過通義千問電力行業(yè)知識(shí)政策問答、電力賬單解讀、數(shù)據(jù)問答等場(chǎng)景中實(shí)現(xiàn)更智能化的用戶服務(wù)新模式。

  2. 阿里云“伙伴千問計(jì)劃”: 阿里云發(fā)布了“通義千問伙伴計(jì)劃”階段性成果,與朗新、亞信、數(shù)字政通、藍(lán)凌、千方等60余家伙伴共同驗(yàn)證了“通義千問”大模型的30余個(gè)行業(yè)應(yīng)用場(chǎng)景,涵蓋協(xié)同辦公、文化旅游、財(cái)務(wù)ERP、電力、政務(wù)、醫(yī)保、交通、制造、金融、軟件開發(fā)等行業(yè),涉及智能問答、文章摘要、文案寫作、代碼輔助、知識(shí)庫升級(jí)等場(chǎng)景。

  3. 藍(lán)凌軟件合作案例: 藍(lán)凌軟件對(duì)“通義千問”大模型在知識(shí)問答場(chǎng)景的應(yīng)用進(jìn)行了探索。相較于傳統(tǒng)的數(shù)據(jù)收集與訓(xùn)練方法,其訓(xùn)練效率提高了十倍;而在企業(yè)搜索引擎場(chǎng)景中,與傳統(tǒng)詞搜索相比,搜索效率也提高了3倍以上。

  4. 中國一汽、新東方、長(zhǎng)安汽車合作案例: 中國一汽、新東方、長(zhǎng)安汽車等也宣布了與通義大模型的合作成果。

  5. 中國科學(xué)院國家天文臺(tái)合作案例: 中國科學(xué)院國家天文臺(tái)人工智能組基于通義千問開發(fā)了新一代天文大模型“星語3.0”,這是大模型首次應(yīng)用于天文觀測(cè)領(lǐng)域。

  6. 陜煤建新煤礦合作案例: 陜煤建新煤礦等十余座礦山推出由通義支持的新型礦山重大風(fēng)險(xiǎn)識(shí)別處置系統(tǒng),成為大模型在礦山場(chǎng)景的首次規(guī)模化落地。

<
最可能同場(chǎng)景使用的其他API
>