Amazon 文本數據提取服務-Textract

Amazon 文本數據提取服務-Textract

專用API
【更新時間: 2024.06.18】 Amazon Textract是一種機器學習服務,能夠自動從掃描的文檔中提取文本、手寫內容、布局元素和數據。它超越了傳統的光學字符識別,能夠識別、理解和提取文檔中的特定數據。Textract文本提取器支持多種文檔格式。
瀏覽次數
79
采購人數
0
試用次數
0
! SLA: N/A
! 響應: N/A
! 適用于個人&企業
收藏
×
完成
取消
×
書簽名稱
確定
<
產品介紹
>

什么是Textract的Amazon 文本數據提取服務?

Amazon Textract 是一種高度先進的文本提取器,它使用機器學習技術從掃描文檔中自動提取文本、手寫內容、布局元素和數據。這項服務超越了傳統的OCR技術,能夠識別文本、理解和提取文檔中的具體數據,從而顯著提高了數據處理的效率和準確性。

 

Textract文本提取器支持多種文檔格式,包括PDF、TIFF、PNG和JPEG,使其成為金融服務、醫療保健、公共部門等多個領域的理想選擇。用戶可以通過AWS管理控制臺、AWS CLI或AWS SDK輕松使用這項服務,快速提取關鍵業務數據,如金融表格中的抵押貸款利率、申請人姓名和發票總額。

 

此外,Textract文本提取器還提供了強大的自定義功能,允許用戶根據自己的業務需求定制預訓練模型,以滿足特定的文檔處理需求。這意味著用戶可以快速自動化文檔處理流程,無論是處理貸款還是從發票和收據中提取信息,都能夠在幾分鐘內完成,而不是之前的幾小時甚至幾天。

什么是Textract的Amazon 文本數據提取服務接口?

由服務使用方的應用程序發起,以Restful風格為主、通過公網HTTP協議調用Textract的Amazon 文本數據提取服務,從而實現程序的自動化交互,提高服務效率。

Textract的Amazon 文本數據提取服務有哪些核心功能?

一、文本、手寫和布局元素提取

Amazon Textract能夠從文檔中提取文本、手寫內容和布局元素,如段落、標題、列表、頁眉、頁腳等

二、邊界框坐標返回

所有提取的數據都會返回邊界框坐標(多邊形框架),幫助用戶確定每一段已識別的數據在文檔中的具體位置

三、置信度分數

Amazon Textract還為它識別的所有內容返回置信度分數,以便用戶可以根據這些分數就如何使用結果做出明智的決定

四、自定義查詢

允許用戶自定義預訓練的模型,以提高特定業務文檔類型的提取準確性
五、光學字符識別(OCR)

自動從文檔和圖像中檢測并識別打印文本和手寫文本,應用OCR提升辦公效率
六、表格數據提取

能夠識別文檔中的表格,并保留表格的結構和其中的數據關聯

Textract的Amazon 文本數據提取服務的技術原理是什么?

Amazon Textract 是一種機器學習(ML)服務,它作為強大的textract文本提取器,從掃描的文檔(如 PDF)中自動提取文本、手寫內容、布局元素和數據。與傳統的光學字符識別技術(OCR)不同,textract文本提取器可以識別、理解并提取文檔中的特定數據。在當今的商業環境中,許多公司都需要從掃描文檔(如 PDF、圖片、表格和表單)中手動提取數據,或依賴需要手動配置的簡單OCR軟件,這些軟件在表單發生變化時往往需要重新配置。為了避免這些昂貴且耗時的手動流程,textract文本提取器使用 ML 來讀取和處理任何類型的文檔,可以精確地提取文本、手寫字、表格和其他數據,而不需要任何手動工作。
 
作為應用程序開發中不可或缺的開放API,textract文本提取器提供了實用的文本API,使您可以使用我們的預訓練或自定義功能來快速自動處理文檔。無論是自動處理貸款還是從發票和收據中提取信息,textract文本提取器都能助您輕松實現業務需求。與傳統方法相比,textract文本提取器可以在幾分鐘內提取數據,而不再需要耗費幾小時甚至幾天的時間,顯著提高了工作效率。

 

Textract的Amazon 文本數據提取服務的核心優勢是什么?

高精度文本識別

textract文本提取器不僅僅是OCR,它能識別、理解并提取文檔中的特定數據,包括表格數據提取和簽名檢測

支持多種文檔格式

textract文本提取器支持PDF、TIFF、PNG和JPEG等多種文檔格式,適用于金融服務、醫療保健、公共部門等多個領域

易于集成

用戶可以通過AWS管理控制臺、AWS CLI或AWS SDK輕松使用textract文本提取器,快速提取關鍵業務數據

自定義預訓練模型

textract文本提取器允許用戶自定義預訓練功能,以滿足特定的文檔處理需求。

快速處理能力

textract文本提取器可以在幾分鐘內提取數據,而不再需要耗費幾小時甚至幾天的時間。

數據安全與合規

使用數據隱私、加密和合規性標準安全地自動處理數據。

在哪些場景會用到Textract的Amazon 文本數據提取服務?

1. 金融服務

準確提取有關金融科技的抵押貸款利率、申請人姓名和發票總額等各種金融表格的關鍵業務數據,以在數分鐘內處理貸款和抵押貸款申請。

2. 醫護及生命科學

從健康攝食表單、保險金申請和預授權表單中提取重要患者數據,結合醫療大模型可以更好地為患者和保險公司服務。保持數據在其原始上下文中組織有序,免去對輸出的人工審查。

3. 公共部門

輕松地從政府相關表格中提取相關數據,例如小企業貸款、聯邦稅表或商業申請,具有高度的準確性。

<
產品價格
>
按實際使用量付費模式

您按月付費,計費依據是您處理的文本的字符數量。Amazon Polly 的標準語音定價為:對于超出免費套餐的語音或語音標記請求,每 100 萬個字符 4.00 USD。Amazon Polly 的神經語音定價為:對于超出免費套餐的語音或請求的語音標記,每 100 萬個字符 16.00 USD。Amazon Polly 的長格式語音定價為:對于超出免費套餐的語音或請求的語音標記,每 100 萬個字符 100.00 USD。 Amazon Polly 的生成式語音定價為:對于超出免費套餐的語音請求,每 100 萬個字符 30 USD。

每月數百萬個字符

對于 Amazon Polly 的標準語音,從您提交第一個 Polly 語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 500 萬個字符服務。對于神經語音,從您提交第一個語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 100 萬個字符服務。對于長格式語音,從您提交第一個 Polly 語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 50 萬個字符服務。 對于生成式語音,從您提交第一個 Polly 語音請求起 12 個月內,針對該類請求,免費套餐每個月提供 10 萬字符的服務。

<
使用指南
>
Step 1 - Sign up for an Amazon Web Services account
設置并登錄您的 AWS 賬戶 觀看網絡研討會并閱讀文檔 登錄 Polly 控制臺并開始構建。
<
產品問答
>
?
目前,哪些區域提供 Amazon Polly 服務?
請參閱 AWS 區域服務列表了解支持 Amazon Polly 標準語音的所有區域。這些區域的以下子集支持神經語音:美國東部(弗吉尼亞北部)、美國西部(俄勒岡)、加拿大(中部)、亞太地區(東京)、亞太地區(首爾)、亞太地區(新加坡)、亞太地區(悉尼)、非洲(開普敦)、歐洲(倫敦)、歐洲(法蘭克福)、歐洲(愛爾蘭)亞太地區和 AWS GovCloud (美國西部)。
?
如何開始使用 Amazon Polly?
您只需登錄到您的 AWS 賬戶,前往 Amazon Polly 控制臺(AWS 控制臺的一部分),即可開始使用該產品。接下來,您可以使用控制臺輸入任何文本并收聽生成的語音,或將其另存為音頻文件。
?
Amazon Polly 支持哪些音頻格式?
借助 Amazon Polly,您可以近乎實時地將音頻流式傳輸給您的用戶。Amazon Polly 還提供多種采樣率供您選擇,便于您為應用程序優化帶寬和音頻質量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音頻流格式。
?
Amazon Polly 是否有 AWS 服務限制?
為了幫助保證 AWS 資源的可用性并最大限度降低新客戶的賬單風險,AWS 對每個賬戶均設置有服務限制。使用 Amazon Polly 為應用程序提供高質量語音輸出功能時,需遵循默認的服務限制,包括對限制設置、操作和語音合成標記語言 (SSML) 的使用的限制。有關詳情,請參閱《Amazon Polly 開發人員指南》中的 Limits in Amazon Polly。將 Polly Amazon 與其他 AWS 服務(例如可以高效進行批處理的 AWS Batch)結合使用,您可以在這些服務的限制內充分利用 Amazon Polly。
?
Amazon Polly 支持哪些編程語言?
Amazon Polly 支持 AWS 軟件開發工具包中包含的所有編程語言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)以及 AWS 移動軟件開發工具包中包含的所有編程語言 (iOS/Android)。Amazon Polly 還支持 HTTP API,因此您可以實施自己的訪問層。
?
每個文檔可以提出多少查詢?
查詢是基于每頁處理的,可以通過同步或異步操作使用查詢提取信息。對于同步操作,每頁最多支持15個查詢。對于異步操作,每頁最多支持30個查詢
?
如何從Amazon Textract獲得最佳結果?
確保文檔使用Amazon Textract支持的語言(目前為英文、西班牙文、意大利文、葡萄牙文、法文、德文。手寫、發票和收據、身份證件和查詢處理僅支持英文)。提供盡可能高質量的圖像,理想情況下至少為150 DPI。如果文檔已經是Amazon Textract支持的文件格式(PDF、JPG、PNG),則在上傳到Amazon Textract之前不要進行轉換或下采樣
?
Amazon Textract是否與AWS CloudTrail一起工作?
是的,Amazon Textract支持將以下操作作為CloudTrail事件記錄 - DetectDocumentText、AnalyzeDocument、StartDocumentTextDetection、StartDocumentAnalysis、GetDocumentTextDetection和GetDocumentAnalysis
?
Amazon Textract的Analyze Document API有哪些特性?
Analyze Document API具有以下特性:表單、表格、查詢、自定義查詢、簽名和布局。你可以獨立使用這些特性,或將它們組合使用。使用表單提取數據(例如“姓名”和關聯值“Jane Smith”)。使用表格提取組織在列和行中的表格數據。使用查詢以自然語言問題的形式指定你需要從文檔中提取的信息(例如,“客戶名稱是什么?”),并將答案(例如,“Jane Doe”)作為響應的一部分返回
<
關于我們
>
亞馬遜云科技(Amazon Web Services,簡稱AWS)是全球領先的云計算服務提供商,提供包括計算、存儲、數據庫、分析、機器學習、物聯網、移動、安全、混合云、虛擬和增強現實等在內的廣泛服務。AWS在全球34個地理區域內運營108個可用區,服務超過200個國家和地區,幫助企業、開發者和政府機構構建靈活、可靠、可擴展的云基礎設施。作為亞馬遜公司的一部分,AWS致力于提供創新的云解決方案,支持客戶實現數字化轉型。
聯系信息
服務時間: 早9:00-晚8:00 (法定假期除外)
電話號碼: +86 (10) 1010 0866
網頁在線客服: 咨詢

AWS 云計算

Amazon Web Services(AWS)是全球最全面、應用最廣泛的云,從全球數據中心提供超過 200 項功能齊全的服務。數百萬客戶(包括增長最快速的初創公司、最大型企業和主要的政府機構)都在使用 AWS 來降低成本、提高敏捷性并加速創新。

 

最多的功能
從計算、存儲和數據庫等基礎設施技術,到機器學習、人工智能、數據湖和分析以及物聯網等新興技術,AWS 提供的服務以及其中的功能比其他任何云服務提供商的都要多得多。這使得將現有應用程序遷移到云中并構建您可以想象的幾乎任何東西都變得更快、更容易且更具成本效益。

AWS 的這些服務還具有最為多樣復雜的功能。例如,AWS 提供了種類繁多的數據庫,這些數據庫是為不同類型的應用程序專門構建的,因此您可以選擇適合作業的工具來獲得最佳的成本和性能。

 

最大的客戶和合作伙伴社區
AWS 擁有最大且最具活力的社區,在全球擁有數百萬活躍客戶和成千上萬個合作伙伴。幾乎所有行業和規模的客戶(包括初創公司、企業和公共部門組織)都在 AWS 上運行所有可能的使用案例。AWS 合作伙伴網絡 (APN) 包括專注于 AWS 服務的數千個系統集成商和成千上萬個將其技術應用到 AWS 中的獨立軟件供應商 (ISV)。

 

最安全
AWS 旨在成為當今市場上最靈活、最安全的云計算環境。我們的核心基礎設施是為了滿足軍事、全球的銀行和其他高度敏感性組織的安全要求而構建。一組深度云安全工具對此提供支持,其中包括超過 300 項安全、合規性和監管服務及功能,以及對 143 項安全標準和合規性認證的支持。

 

最快的創新速度
借助 AWS,您可以利用最新技術更快地進行實驗和創新。我們將不斷加快創新步伐,以發明您可用于轉變業務的全新技術。例如,在 2014 年,AWS 通過推出 AWS Lambda 在無服務器計算領域開創了先河,該平臺使開發人員無需預置或管理服務器即可運行其代碼。AWS 構建了 Amazon SageMaker,這是一種完全托管的機器學習服務,可讓日常開發人員和科學家無需任何前置經驗即可運用機器學習。

 

最成熟的運營專業能力
AWS 具有無與倫比的經驗、成熟度、可靠性、安全性和性能,您可以將其用于最重要的應用程序。在超過 17 年的時間中,AWS 一直在為運行各種使用案例的全球數百萬客戶提供云服務。在所有云服務提供商中,AWS 擁有最豐富的大規模運營經驗。

 

AWS 區域的全球網絡
AWS 擁有覆蓋范圍領先的全球云基礎設施。Gartner 已將 AWS 區域/可用區模型
視為一種值得推薦運行方式,適用于要求高可用性的企業應用程序。

<
最可能同場景使用的其他API
>
API接口列表
<
產品價格
>
按實際使用量付費模式

您按月付費,計費依據是您處理的文本的字符數量。Amazon Polly 的標準語音定價為:對于超出免費套餐的語音或語音標記請求,每 100 萬個字符 4.00 USD。Amazon Polly 的神經語音定價為:對于超出免費套餐的語音或請求的語音標記,每 100 萬個字符 16.00 USD。Amazon Polly 的長格式語音定價為:對于超出免費套餐的語音或請求的語音標記,每 100 萬個字符 100.00 USD。 Amazon Polly 的生成式語音定價為:對于超出免費套餐的語音請求,每 100 萬個字符 30 USD。

每月數百萬個字符

對于 Amazon Polly 的標準語音,從您提交第一個 Polly 語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 500 萬個字符服務。對于神經語音,從您提交第一個語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 100 萬個字符服務。對于長格式語音,從您提交第一個 Polly 語音或語音標記請求起 12 個月內,針對該類請求,免費套餐每個月提供 50 萬個字符服務。 對于生成式語音,從您提交第一個 Polly 語音請求起 12 個月內,針對該類請求,免費套餐每個月提供 10 萬字符的服務。

<
使用指南
>
Step 1 - Sign up for an Amazon Web Services account
設置并登錄您的 AWS 賬戶 觀看網絡研討會并閱讀文檔 登錄 Polly 控制臺并開始構建。
<
依賴服務
>
<
產品問答
>
?
目前,哪些區域提供 Amazon Polly 服務?
請參閱 AWS 區域服務列表了解支持 Amazon Polly 標準語音的所有區域。這些區域的以下子集支持神經語音:美國東部(弗吉尼亞北部)、美國西部(俄勒岡)、加拿大(中部)、亞太地區(東京)、亞太地區(首爾)、亞太地區(新加坡)、亞太地區(悉尼)、非洲(開普敦)、歐洲(倫敦)、歐洲(法蘭克福)、歐洲(愛爾蘭)亞太地區和 AWS GovCloud (美國西部)。
?
如何開始使用 Amazon Polly?
您只需登錄到您的 AWS 賬戶,前往 Amazon Polly 控制臺(AWS 控制臺的一部分),即可開始使用該產品。接下來,您可以使用控制臺輸入任何文本并收聽生成的語音,或將其另存為音頻文件。
?
Amazon Polly 支持哪些音頻格式?
借助 Amazon Polly,您可以近乎實時地將音頻流式傳輸給您的用戶。Amazon Polly 還提供多種采樣率供您選擇,便于您為應用程序優化帶寬和音頻質量。Amazon Polly 支持 MP3、Vorbis 和原始 PCM 音頻流格式。
?
Amazon Polly 是否有 AWS 服務限制?
為了幫助保證 AWS 資源的可用性并最大限度降低新客戶的賬單風險,AWS 對每個賬戶均設置有服務限制。使用 Amazon Polly 為應用程序提供高質量語音輸出功能時,需遵循默認的服務限制,包括對限制設置、操作和語音合成標記語言 (SSML) 的使用的限制。有關詳情,請參閱《Amazon Polly 開發人員指南》中的 Limits in Amazon Polly。將 Polly Amazon 與其他 AWS 服務(例如可以高效進行批處理的 AWS Batch)結合使用,您可以在這些服務的限制內充分利用 Amazon Polly。
?
Amazon Polly 支持哪些編程語言?
Amazon Polly 支持 AWS 軟件開發工具包中包含的所有編程語言(Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++)以及 AWS 移動軟件開發工具包中包含的所有編程語言 (iOS/Android)。Amazon Polly 還支持 HTTP API,因此您可以實施自己的訪問層。
?
每個文檔可以提出多少查詢?
查詢是基于每頁處理的,可以通過同步或異步操作使用查詢提取信息。對于同步操作,每頁最多支持15個查詢。對于異步操作,每頁最多支持30個查詢
?
如何從Amazon Textract獲得最佳結果?
確保文檔使用Amazon Textract支持的語言(目前為英文、西班牙文、意大利文、葡萄牙文、法文、德文。手寫、發票和收據、身份證件和查詢處理僅支持英文)。提供盡可能高質量的圖像,理想情況下至少為150 DPI。如果文檔已經是Amazon Textract支持的文件格式(PDF、JPG、PNG),則在上傳到Amazon Textract之前不要進行轉換或下采樣
?
Amazon Textract是否與AWS CloudTrail一起工作?
是的,Amazon Textract支持將以下操作作為CloudTrail事件記錄 - DetectDocumentText、AnalyzeDocument、StartDocumentTextDetection、StartDocumentAnalysis、GetDocumentTextDetection和GetDocumentAnalysis
?
Amazon Textract的Analyze Document API有哪些特性?
Analyze Document API具有以下特性:表單、表格、查詢、自定義查詢、簽名和布局。你可以獨立使用這些特性,或將它們組合使用。使用表單提取數據(例如“姓名”和關聯值“Jane Smith”)。使用表格提取組織在列和行中的表格數據。使用查詢以自然語言問題的形式指定你需要從文檔中提取的信息(例如,“客戶名稱是什么?”),并將答案(例如,“Jane Doe”)作為響應的一部分返回
<
關于我們
>
亞馬遜云科技(Amazon Web Services,簡稱AWS)是全球領先的云計算服務提供商,提供包括計算、存儲、數據庫、分析、機器學習、物聯網、移動、安全、混合云、虛擬和增強現實等在內的廣泛服務。AWS在全球34個地理區域內運營108個可用區,服務超過200個國家和地區,幫助企業、開發者和政府機構構建靈活、可靠、可擴展的云基礎設施。作為亞馬遜公司的一部分,AWS致力于提供創新的云解決方案,支持客戶實現數字化轉型。
聯系信息
服務時間: 早9:00-晚8:00 (法定假期除外)
電話號碼: +86 (10) 1010 0866
網頁在線客服: 咨詢

AWS 云計算

Amazon Web Services(AWS)是全球最全面、應用最廣泛的云,從全球數據中心提供超過 200 項功能齊全的服務。數百萬客戶(包括增長最快速的初創公司、最大型企業和主要的政府機構)都在使用 AWS 來降低成本、提高敏捷性并加速創新。

 

最多的功能
從計算、存儲和數據庫等基礎設施技術,到機器學習、人工智能、數據湖和分析以及物聯網等新興技術,AWS 提供的服務以及其中的功能比其他任何云服務提供商的都要多得多。這使得將現有應用程序遷移到云中并構建您可以想象的幾乎任何東西都變得更快、更容易且更具成本效益。

AWS 的這些服務還具有最為多樣復雜的功能。例如,AWS 提供了種類繁多的數據庫,這些數據庫是為不同類型的應用程序專門構建的,因此您可以選擇適合作業的工具來獲得最佳的成本和性能。

 

最大的客戶和合作伙伴社區
AWS 擁有最大且最具活力的社區,在全球擁有數百萬活躍客戶和成千上萬個合作伙伴。幾乎所有行業和規模的客戶(包括初創公司、企業和公共部門組織)都在 AWS 上運行所有可能的使用案例。AWS 合作伙伴網絡 (APN) 包括專注于 AWS 服務的數千個系統集成商和成千上萬個將其技術應用到 AWS 中的獨立軟件供應商 (ISV)。

 

最安全
AWS 旨在成為當今市場上最靈活、最安全的云計算環境。我們的核心基礎設施是為了滿足軍事、全球的銀行和其他高度敏感性組織的安全要求而構建。一組深度云安全工具對此提供支持,其中包括超過 300 項安全、合規性和監管服務及功能,以及對 143 項安全標準和合規性認證的支持。

 

最快的創新速度
借助 AWS,您可以利用最新技術更快地進行實驗和創新。我們將不斷加快創新步伐,以發明您可用于轉變業務的全新技術。例如,在 2014 年,AWS 通過推出 AWS Lambda 在無服務器計算領域開創了先河,該平臺使開發人員無需預置或管理服務器即可運行其代碼。AWS 構建了 Amazon SageMaker,這是一種完全托管的機器學習服務,可讓日常開發人員和科學家無需任何前置經驗即可運用機器學習。

 

最成熟的運營專業能力
AWS 具有無與倫比的經驗、成熟度、可靠性、安全性和性能,您可以將其用于最重要的應用程序。在超過 17 年的時間中,AWS 一直在為運行各種使用案例的全球數百萬客戶提供云服務。在所有云服務提供商中,AWS 擁有最豐富的大規模運營經驗。

 

AWS 區域的全球網絡
AWS 擁有覆蓋范圍領先的全球云基礎設施。Gartner 已將 AWS 區域/可用區模型
視為一種值得推薦運行方式,適用于要求高可用性的企業應用程序。

<
合作案例
>
engie ascender caratlane
<
最可能同場景使用的其他API
>