31:42: 90% of Americans now live within 5 miles of a vaccination site.

44:28: The American job plan is going to create millions of good paying jobs.

47:59: No one working 40 hours a week should live below the poverty line.

48:22: American jobs finally be the biggest increase in non defense research and development.

49:21: The National Institute of Health, the NIH, should create a similar advanced research Projects agency for Health.

50:31: It would have a singular purpose to develop breakthroughs to prevent, detect and treat diseases like Alzheimer's, diabetes and cancer.

51:29: I wanted to lay out before the Congress my plan.

52:19: When this nation made twelve years of public education universal in the last century, it made us the best educated, best prepared nation in the world.

54:25: The American Family's Plan guarantees four additional years of public education for every person in America, starting as early as we can.

57:08: American Family's Plan will provide access to quality, affordable childcare.

61:58: I will not impose any tax increase on people making less than $400,000.

67:34: He said the U.S. will become an Arsenal for vaccines for other countries.

74:12: After 20 years of value, Valor and sacrifice, it's time to bring those troops home.

76:01: We have to come together to heal the soul of this nation.

80:02: Gun violence has become an epidemic in America.

84:23: If you believe we need to secure the border, pass it.

85:00: Congress needs to pass legislation this year to finally secure protection for dreamers.

87:02: If we want to restore the soul of America, we need to protect the right to vote.

此外,其他摘要模型可以將冗長的音頻、視頻或文本輸入內(nèi)容分解成更簡潔的摘要。

文本摘要如何工作?

在過去的幾十年里,人們開發(fā)了一連串的文本摘要方法,因此要回答文本摘要是如何工作的,答案并不單一。 盡管如此,這些方法仍可根據(jù)其應(yīng)對文本摘要挑戰(zhàn)的一般方法進(jìn)行分類。

也許最明確和最有用的區(qū)分是提取式和抽象式文本摘要方法。 提取法旨在從文本中提取最相關(guān)的信息。 提取式文本摘要法是這兩種方法中較為傳統(tǒng)的一種,部分原因是與抽象式方法相比,提取式文本摘要法相對簡單。

抽象方法則試圖生成能準(zhǔn)確概括原文的新文本。 我們已經(jīng)可以看出,這是一個更加困難的問題–不局限于簡單地返回原始文本的子集,有很大程度的自由度。 不過,這種困難也有好處。 盡管抽象方法相對復(fù)雜,但它能產(chǎn)生更靈活、更忠實的摘要,尤其是在大語言模型時代。

提取文本摘要方法

如上所述,提取式文本摘要方法的工作原理是識別和提取文本中的突出信息。 因此,各種提取方法構(gòu)成了確定哪些信息是重要信息(因此應(yīng)該提取)的不同方式。

例如,基于詞頻的方法傾向于根據(jù)不同詞語的使用頻率對文本中的句子進(jìn)行重要性排序。 對于每個句子,詞匯表中的每個詞都有一個權(quán)重項,權(quán)重通常是該詞本身的重要性和該詞在整個文檔中出現(xiàn)的頻率的函數(shù)。 利用這些權(quán)重,就可以確定并返回每個句子的重要性。

基于圖形的方法是用數(shù)學(xué)圖形語言來處理文本文檔。 在這種圖式中,每個句子表示為一個節(jié)點,如果認(rèn)為句子相似,則將節(jié)點連接起來。 至于什么是 “相似”,這同樣取決于不同的具體算法和方法。 例如,一種實現(xiàn)方法可能會使用 TF-IDF 向量間余弦相似度的閾值。 一般來說,文檔中與所有其他句子 “最相似 “的句子(即中心度最高的句子)被認(rèn)為具有最多的摘要信息,因此會被提取并放入摘要中。 基于圖的方法的一個顯著例子是 TextRank,它是谷歌 pagerank 算法的一個版本(該算法決定在谷歌搜索中顯示哪些結(jié)果),已被調(diào)整用于摘要(而不是對最重要的句子進(jìn)行排名)。 基于圖的方法未來可能會受益于圖神經(jīng)網(wǎng)絡(luò)的進(jìn)步。

抽象文本摘要方法

抽象方法旨在生成一種新穎的摘要,對文本中的信息進(jìn)行適當(dāng)?shù)目偨Y(jié)。 雖然抽象文本摘要有語言學(xué)方法,但深度學(xué)習(xí)(將摘要視為 seq2seq 問題)在過去幾年中已證明在這方面非常強(qiáng)大。 因此,Transformer 的發(fā)明對抽象文本摘要領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響,正如它對許多其他領(lǐng)域產(chǎn)生的影響一樣。

最近,大語言模型尤其被應(yīng)用于文本摘要問題。 對大型語言模型新興能力的觀察證明,大型語言模型是能夠勝任各種任務(wù)(包括摘要)的代理。 也就是說,雖然 LLM 沒有直接接受過總結(jié)任務(wù)的訓(xùn)練,但隨著其規(guī)模的擴(kuò)大,它們會成為有能力的通用生成式人工智能模型,從而具備執(zhí)行總結(jié)和許多其他任務(wù)的能力。

最近,人們探索了基于 LLM 的摘要特定方法,使用預(yù)先訓(xùn)練好的 LLM 和人類反饋強(qiáng)化學(xué)習(xí)(RLHF),這是將 GPT 演化成 ChatGPT 的核心技術(shù)(例如這里和這里)。 該方案遵循典型的 RLHF 訓(xùn)練方法,即利用人類反饋訓(xùn)練獎勵模型,然后通過 PPO 更新 RL 策略。 簡而言之,RLHF 可以改進(jìn)模型,使其更容易根據(jù)人類的期望(在本例中,人類對 “好 “摘要的期望)調(diào)整輸出。

文本摘要領(lǐng)域仍是一個持續(xù)研究的領(lǐng)域,根據(jù)已經(jīng)完成的工作,我們可以探索一些自然的擴(kuò)展。 例如,我們可以考慮使用人工智能反饋強(qiáng)化學(xué)習(xí)(RLAIF)來代替 RLHF,后者在更廣泛的情況下已被證明能提高性能。

文本摘要的最佳應(yīng)用程序接口

既然我們已經(jīng)討論了什么是 NLP 文本摘要及其工作原理,那么我們就來比較一下目前最好用的一些文本摘要 API、AI 摘要器和 AI 摘要模型。 請注意,其中一些 API 支持對已有的文本(如研究論文)進(jìn)行文本摘要,而另一些 API 則在音頻或視頻流轉(zhuǎn)錄(如播客或虛擬會議)的基礎(chǔ)上執(zhí)行文本摘要。

AssemblyAI 的總結(jié)模型

AssemblyAI 是一家語音人工智能公司,致力于開發(fā)能夠理解和處理人類語音的新型人工智能系統(tǒng)。 該公司的人工智能總結(jié)模型在音頻和視頻方面取得了最先進(jìn)的成果。 此外,AssemblyAI 還為特定行業(yè)用例建立了其他摘要模型,包括信息性、會話性和朗朗上口。 摘要可以項目符號、要點、段落或標(biāo)題的形式返回(見上圖示例)。

LeMUR 是 AssemblyAI 的大型語言模型框架,它還可以幫助產(chǎn)品團(tuán)隊處理定制摘要格式的請求。

此外,AssemblyAI 還提供了一種稱為 “自動章節(jié) “的摘要模型,該模型可在音頻或視頻流數(shù)據(jù)的基礎(chǔ)上應(yīng)用文本摘要,并為每個章節(jié)提供帶有時間戳的一段摘要和單句標(biāo)題。 這一過程是文本摘要在 AssemblyAI 中的獨特應(yīng)用。

AssemblyAI 的人工智能模型被播客、電話、虛擬會議平臺、對話智能人工智能平臺等領(lǐng)域的頂級產(chǎn)品團(tuán)隊所采用。 該公司最近還發(fā)布了Conformer-2,這是一個在110萬小時的英語音頻數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來的自動語音識別人工智能模型,它能使首先用Conformer-2處理過的轉(zhuǎn)錄生成的摘要更加準(zhǔn)確和有用。

plnia 的文本摘要 API

plnia 文本摘要 API 可生成靜態(tài)文檔或其他已有文本的摘要。 除文本摘要外,plnia 還提供情感分析、關(guān)鍵詞提取、濫用語言檢查等功能。 希望測試 plnia 的開發(fā)人員可以注冊 10 天的免費試用;包含文本摘要的計劃起價為每月 19 美元。

Microsoft Azure 文本摘要

作為文本分析套件的一部分,Azure 的文本摘要 API 可對文章、論文或文檔進(jìn)行提取摘要。 入門要求包括 Azure 訂閱和 Visual Studio IDE。 使用 API 的價格是現(xiàn)收現(xiàn)付,但價格因使用量和其他所需功能而異。

MeaningCloud 的自動總結(jié)功能

MeaningCloud 的自動摘要應(yīng)用程序接口(Automatic Summarization API)可讓用戶通過提取最相關(guān)的句子并使用這些句子來構(gòu)建概要,從而總結(jié)出任何文檔的含義。 API 是多語言的,因此無論文本使用哪種語言,用戶都可以使用 API。 想要測試 API 的用戶必須先注冊一個免費的開發(fā)者賬戶,然后根據(jù)使用情況,使用 API 的價格從 0-999 美元/月不等。

NLP 云摘要應(yīng)用程序接口

NLP Cloud 提供多種文本理解和 NLP API,包括文本摘要,此外還支持社區(qū)人工智能模型的微調(diào)和部署,以進(jìn)一步提高準(zhǔn)確性。 開發(fā)人員還可以建立自己的自定義模型,并將其訓(xùn)練和部署到生產(chǎn)中。 價格從 0 美元到 499 美元/月不等,視使用情況而定。

NLP文本摘要API常見問題有哪些?

  1. 什么是NLP文本摘要API?
    NLP文本摘要API是一種利用自然語言處理技術(shù)自動將長文本轉(zhuǎn)換成簡短摘要的應(yīng)用程序接口。它通過分析文本內(nèi)容,提取關(guān)鍵信息,生成簡潔的摘要。
  2. NLP文本摘要API適用于哪些場景?
    適用于新聞?wù)⑽恼赂庞[、報告簡化、會議記錄摘要、社交媒體內(nèi)容概括等多種需要文本簡化的場景。
  3. 如何接入NLP文本摘要API?
    通常需要在應(yīng)用程序中集成API,通過發(fā)送HTTP請求并將文本作為輸入?yún)?shù),API會返回摘要結(jié)果。
  4. NLP文本摘要API的準(zhǔn)確性如何?
    準(zhǔn)確性取決于API的訓(xùn)練數(shù)據(jù)、算法復(fù)雜度和自然語言處理能力。高質(zhì)量的API通常能夠提供高準(zhǔn)確度的摘要。
  5. NLP文本摘要API支持哪些語言?
    不同的API支持的語言不同,一些API支持多種語言,包括英語、中文、西班牙語等,具體需要查看API提供商的支持列表。
  6. 使用NLP文本摘要API是否有成本?
    一些基礎(chǔ)服務(wù)可能是免費的,但通常有使用限制,如請求次數(shù)或文本長度限制。高級服務(wù)或增加使用量可能需要付費。
  7. NLP文本摘要API如何處理敏感信息?
    處理敏感信息時應(yīng)確保API提供商遵守數(shù)據(jù)保護(hù)法規(guī),并對數(shù)據(jù)進(jìn)行加密處理。建議在使用前了解提供商的隱私政策。
  8. 如何評估NLP文本摘要API的性能?
    可以通過比較摘要的準(zhǔn)確性、完整性、連貫性以及與原文的一致性來評估API的性能。
  9. NLP文本摘要API的響應(yīng)時間如何?
    API的響應(yīng)時間取決于文本長度、服務(wù)器負(fù)載和算法效率。高質(zhì)量的API通常能夠提供快速的響應(yīng)時間。
  10. 如果對NLP文本摘要API生成的摘要不滿意,可以自定義摘要邏輯嗎?
    一些API提供商可能允許用戶通過自定義配置或訓(xùn)練模型來優(yōu)化摘要邏輯,但這可能需要額外的技術(shù)投入和成本。

如何找到更多文本摘要API

冪簡集成是國內(nèi)領(lǐng)先的API集成管理平臺,專注于為開發(fā)者提供全面、高效、易用的API集成解決方案。冪簡API平臺可以通過以下兩種方式找到所需API:通過關(guān)鍵詞搜索API、或者從API Hub分類頁進(jìn)入尋找。

本文翻譯源自:https://www.assemblyai.com/blog/text-summarization-nlp-5-best-apis/

上一篇:

頂級免費語音轉(zhuǎn)文字 開源軟件API語音轉(zhuǎn)錄引擎

下一篇:

6個最佳實體檢測API,可準(zhǔn)確返回實體的名稱
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費