![]() |
Diff 網(wǎng)站內(nèi)容提取
專用API
【更新時(shí)間: 2024.07.24】
從文章、產(chǎn)品、討論等中自動(dòng)提取數(shù)據(jù)。Diffbot使用先進(jìn)的人工智能技術(shù)來(lái)檢索干凈、結(jié)構(gòu)化的數(shù)據(jù),而不需要手動(dòng)規(guī)則或特定于站點(diǎn)的培訓(xùn)。
免費(fèi)
去服務(wù)商官網(wǎng)采購(gòu)>
|
瀏覽次數(shù)
25
采購(gòu)人數(shù)
2
試用次數(shù)
1
試用
收藏
×
完成
取消
×
書(shū)簽名稱
確定
|
- API詳情
- 定價(jià)
- 使用指南
- 關(guān)于我們
- 相關(guān)推薦


什么是Diff 網(wǎng)站內(nèi)容提取?
Diff 網(wǎng)站內(nèi)容提取API自動(dòng)從網(wǎng)站中提取內(nèi)容能夠智能地從各種網(wǎng)站中無(wú)縫抓取和整理信息,用戶無(wú)需設(shè)定復(fù)雜的規(guī)則或進(jìn)行繁瑣的配置,就可以精確識(shí)別和提取文章、產(chǎn)品
頁(yè)面、論壇帖子等關(guān)鍵內(nèi)容。
什么是Diff 網(wǎng)站內(nèi)容提取接口?
Diff 網(wǎng)站內(nèi)容提取有哪些核心功能?
1.像人類(lèi)一樣閱讀網(wǎng)站
與傳統(tǒng)的網(wǎng)絡(luò)抓取工具不同,Diffbot 不需要任何規(guī)則即可讀取頁(yè)面上的內(nèi)容。
它從計(jì)算機(jī)視覺(jué)開(kāi)始,它將頁(yè)面分類(lèi)為 20 種可能的類(lèi)型之一。然后,內(nèi)容由經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型解釋,以根據(jù)頁(yè)面類(lèi)型識(shí)別頁(yè)面上的關(guān)鍵屬性。
結(jié)果是將網(wǎng)站轉(zhuǎn)換為干凈的結(jié)構(gòu)化數(shù)據(jù)(如 JSON 或 CSV),為您的應(yīng)用程序做好準(zhǔn)備。
2.輕松訪問(wèn) API
通過(guò)提供一套簡(jiǎn)潔高效的應(yīng)用程序接口,顯著簡(jiǎn)化了與機(jī)器人交互和定制其行為的流程。
3.會(huì)說(shuō)任何語(yǔ)言
采用了先進(jìn)的計(jì)算機(jī)視覺(jué)技術(shù),這種技術(shù)的應(yīng)用使得它能夠跨越語(yǔ)言障礙,輕松應(yīng)對(duì)全球范圍內(nèi)的信息提取需求。無(wú)論內(nèi)容是何種人類(lèi)語(yǔ)言,擴(kuò)散機(jī)器人都能準(zhǔn)確識(shí)別和處
理,這為它在全球范圍內(nèi)的應(yīng)用提供了無(wú)限可能。
4.抓取 + 提取 = ??
通過(guò)將‘抓取’和‘提取’功能相結(jié)合,實(shí)現(xiàn)了強(qiáng)大的自動(dòng)化數(shù)據(jù)處理流程。這不僅使得從網(wǎng)站自動(dòng)生成所有產(chǎn)品或文章的數(shù)據(jù)庫(kù)變得可能,而且極大提高了數(shù)據(jù)處理的效率和準(zhǔn)
確性。
Diff 網(wǎng)站內(nèi)容提取的核心優(yōu)勢(shì)是什么?
1.多樣化數(shù)據(jù)處理:Diffbot 將數(shù)據(jù)類(lèi)型以實(shí)體形式進(jìn)行分類(lèi)(如文章、產(chǎn)品和組織),使用計(jì)算機(jī)視覺(jué)來(lái)“讀取”網(wǎng)頁(yè),將其分類(lèi)為標(biāo)準(zhǔn)頁(yè)面類(lèi)型,并根據(jù)標(biāo)準(zhǔn)模式提取其
內(nèi)容。而不是僅以網(wǎng)站或網(wǎng)頁(yè)的形式。這種實(shí)體化的方法使數(shù)據(jù)更加結(jié)構(gòu)化,便于具體屬性的提取和應(yīng)用。
2.廣泛的應(yīng)用場(chǎng)景:世界各地的公司,如 DuckDuckGo、ProQuo AI 和 Contingent 等,都在使用 Diffbot 來(lái)利用公共 Web 數(shù)據(jù),推動(dòng)各自的商業(yè)發(fā)展和決策。這表
明 Diffbot 在不同行業(yè)中都具有廣泛的適用性和實(shí)用價(jià)值。
3. 數(shù)據(jù)提取簡(jiǎn)單方便:無(wú)需任何規(guī)則。只需輸入一個(gè) URL。
在哪些場(chǎng)景會(huì)用到Diff 網(wǎng)站內(nèi)容提取?
"Diff 網(wǎng)站內(nèi)容提取API"的應(yīng)用范圍廣泛,涵蓋了商業(yè)競(jìng)爭(zhēng)分析、市場(chǎng)監(jiān)測(cè)、品牌管理和科研等各個(gè)方面,為各類(lèi)組織提供了一種高效、自動(dòng)化的網(wǎng)絡(luò)數(shù)據(jù)采集解決方案,下
面進(jìn)行舉例說(shuō)明。
電商價(jià)格監(jiān)控:電商平臺(tái)和比價(jià)網(wǎng)站可以利用這一API 實(shí)時(shí)監(jiān)控不同網(wǎng)站上商品的價(jià)格變動(dòng),確保提供給用戶的 價(jià)格信息是最新的。 |
新聞聚合:新聞網(wǎng)站和門(mén)戶網(wǎng)站可以通過(guò)此API自動(dòng)收集 各個(gè)新聞源的最新文章和報(bào)道,以快速更新其內(nèi)容并提供 全面的新聞視角。 |
市場(chǎng)研究:市場(chǎng)分析師可以使用這個(gè)API來(lái)收集特定行業(yè)的 各種數(shù)據(jù),如產(chǎn)品描述、價(jià)格、庫(kù)存量以及消費(fèi)者評(píng)價(jià)等,從 而進(jìn)行深入的市場(chǎng)分析。 |
競(jìng)爭(zhēng)分析:企業(yè)可以通過(guò)提取競(jìng)爭(zhēng)對(duì)手的網(wǎng)頁(yè)內(nèi)容, 如服務(wù)描述、價(jià)格列表和客戶評(píng)價(jià),來(lái)分析競(jìng)爭(zhēng)格局 并調(diào)整自己的市場(chǎng)策略。
|




Diffbot 是一套產(chǎn)品,可以輕松集成和研究網(wǎng)絡(luò)上的數(shù)據(jù)。
與 Google 等網(wǎng)絡(luò)搜索工具不同,Diffbot 中的數(shù)據(jù)是按含義而不是標(biāo)記構(gòu)建的。我們有文章、產(chǎn)品和組織等實(shí)體,而不是網(wǎng)站。項(xiàng)目實(shí)體具有類(lèi)似 和 的屬性。組織實(shí)體具有類(lèi)似 和 的屬性。title
author
revenue
location
Diffbot 工具允許您從現(xiàn)有網(wǎng)頁(yè)中對(duì)有意義的實(shí)體進(jìn)行分類(lèi)和提取,或者將公共網(wǎng)絡(luò)搜索為一個(gè)巨大的實(shí)體圖形數(shù)據(jù)庫(kù),并按其屬性進(jìn)行過(guò)濾。
世界各地的公司都使用 Diffbot 來(lái)利用公共 Web 數(shù)據(jù),而無(wú)需從其原始網(wǎng)站標(biāo)記表單中構(gòu)建和清理數(shù)據(jù)。
- DuckDuckGo 使用 Extract 來(lái)構(gòu)建用于購(gòu)物搜索的產(chǎn)品數(shù)據(jù)
- ProQuo AI 使用知識(shí)圖譜中的組織數(shù)據(jù)來(lái)推動(dòng)預(yù)測(cè)性業(yè)務(wù)發(fā)展
- Contingent 使用知識(shí)圖譜中的新聞數(shù)據(jù)來(lái)揭示目標(biāo)公司的供應(yīng)鏈洞察
像您這樣的客戶每天都在使用 Diffbot 將 Web 智能連接到您的應(yīng)用程序中。我們很想聽(tīng)聽(tīng)您正在構(gòu)建的內(nèi)容。在Twitter或LinkedIn上與我們交談。
自動(dòng)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分類(lèi)并提取為干凈、結(jié)構(gòu)化的 JSON。了解有關(guān) Extract 的更多信息。
- 您有一個(gè)確切的 URL,用于您想要從中獲得數(shù)據(jù)的確切頁(yè)面
- 您的服務(wù)需要同步提取
- 例子:
- 當(dāng)用戶在婚禮登記網(wǎng)站上輸入產(chǎn)品 URL 時(shí)獲取產(chǎn)品數(shù)據(jù)
- 為自然語(yǔ)言處理項(xiàng)目獲取干凈的文章文本
- 將 HTML 表格提取到 CSV 中
Extract 入門(mén)
Extract 使用計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理自動(dòng)對(duì)網(wǎng)站進(jìn)行分類(lèi)并提取為干凈、結(jié)構(gòu)化的 JSON。
Diffbot Extract 是一種流行的解決方案,用于替換大容量 Web 抓取管道,因?yàn)榛谝?guī)則的 Web 抓取往往變得昂貴且令人沮喪,難以大規(guī)模維護(hù)。
Diffbot Extract 不是一組規(guī)則,而是使用計(jì)算機(jī)視覺(jué)來(lái)“讀取”網(wǎng)頁(yè),將其分類(lèi)為標(biāo)準(zhǔn)頁(yè)面類(lèi)型,并根據(jù)標(biāo)準(zhǔn)模式提取其內(nèi)容。
如果您的用例涉及在多個(gè)不同的站點(diǎn)上抓取數(shù)千個(gè)頁(yè)面,您可以為每個(gè)單獨(dú)的頁(yè)面定義規(guī)則,或者只使用 Diffbot Extract。您可以在 diffbot.com/testdrive 上為您的用例試用 Diffbot Extract(無(wú)需注冊(cè))。
雖然 Diffbot Extract 作為開(kāi)發(fā)人員 API 最有效,但儀表板上提供了 UI,diffbot.com 用于快速即插即用用例。
Diffbot Extract 依賴于描述網(wǎng)絡(luò)上大多數(shù)頁(yè)面類(lèi)型的標(biāo)準(zhǔn)本體,而不是特定于站點(diǎn)的規(guī)則。它可以將 Web 上的任何頁(yè)面分類(lèi)為這些標(biāo)準(zhǔn)頁(yè)面類(lèi)型之一,然后使用預(yù)先訓(xùn)練的 ML 模型“讀取”頁(yè)面以查找標(biāo)準(zhǔn)字段,例如產(chǎn)品頁(yè)面和文章頁(yè)面。offerPrice
author
某些數(shù)據(jù)提取 API(如列表 API)可能具有一些標(biāo)準(zhǔn)字段,但旨在盡可能適應(yīng)任何網(wǎng)站上的任何類(lèi)型的列表。
其他的,如產(chǎn)品API,具有更固執(zhí)己見(jiàn)的本體,可以很容易地與現(xiàn)有的產(chǎn)品數(shù)據(jù)庫(kù)集成。
此處提供了提取 API 的完整列表。
雖然 Extract 存在 Dashboard 界面,但它仍然主要是一種技術(shù)產(chǎn)品。如果您熟悉 API,請(qǐng)前往 Extract API 簡(jiǎn)介以開(kāi)始使用 API。
對(duì)于技術(shù)含量較低的用戶,您可能會(huì)發(fā)現(xiàn) Diffbot 知識(shí)圖譜中已經(jīng)預(yù)先抓取和提取的數(shù)據(jù)更容易訪問(wèn)。
如果上述方法都不適用于您,請(qǐng)考慮基于規(guī)則的網(wǎng)絡(luò)抓取解決方案。這些通常更容易理解和實(shí)現(xiàn)。以下是一些選項(xiàng)(無(wú)隸屬關(guān)系):
- Scrapy — Python 中流行的開(kāi)源 Web 抓取庫(kù)
- BeautifulSoup — 另一個(gè) Python 中的開(kāi)源網(wǎng)絡(luò)抓取庫(kù)
- Octoparse — 一種基于 UI 的網(wǎng)頁(yè)抓取工具,易于非技術(shù)用戶使用
自定義 API 入門(mén)
我們的數(shù)據(jù)提取 API 通常提供頁(yè)面的干凈提取,但在某些情況下,您可能會(huì)遇到特定字段的問(wèn)題,例如:
- 默認(rèn) API 結(jié)果中缺少一個(gè)字段(因?yàn)槲覀兊?AI 無(wú)法在頁(yè)面上找到它)
- 字段包含不正確的數(shù)據(jù)
在某些情況下,您可能還希望返回一個(gè)自定義字段,其中包含您定義的頁(yè)面中的數(shù)據(jù)。
所有這些情況都可以使用自定義 API 工具 (https://app.diffbot.com/custom/) 進(jìn)行處理,該工具允許您設(shè)置自定義選擇器 (https://docs.diffbot.com/reference/custom-api-selectors) 來(lái)定義將提取到每個(gè)字段中的數(shù)據(jù)。






Diffbot 是一套產(chǎn)品,可以輕松集成和研究網(wǎng)絡(luò)上的數(shù)據(jù)。
與 Google 等網(wǎng)絡(luò)搜索工具不同,Diffbot 中的數(shù)據(jù)是按含義而不是標(biāo)記構(gòu)建的。我們有文章、產(chǎn)品和組織等實(shí)體,而不是網(wǎng)站。項(xiàng)目實(shí)體具有類(lèi)似 和 的屬性。組織實(shí)體具有類(lèi)似 和 的屬性。title
author
revenue
location
Diffbot 工具允許您從現(xiàn)有網(wǎng)頁(yè)中對(duì)有意義的實(shí)體進(jìn)行分類(lèi)和提取,或者將公共網(wǎng)絡(luò)搜索為一個(gè)巨大的實(shí)體圖形數(shù)據(jù)庫(kù),并按其屬性進(jìn)行過(guò)濾。
世界各地的公司都使用 Diffbot 來(lái)利用公共 Web 數(shù)據(jù),而無(wú)需從其原始網(wǎng)站標(biāo)記表單中構(gòu)建和清理數(shù)據(jù)。
- DuckDuckGo 使用 Extract 來(lái)構(gòu)建用于購(gòu)物搜索的產(chǎn)品數(shù)據(jù)
- ProQuo AI 使用知識(shí)圖譜中的組織數(shù)據(jù)來(lái)推動(dòng)預(yù)測(cè)性業(yè)務(wù)發(fā)展
- Contingent 使用知識(shí)圖譜中的新聞數(shù)據(jù)來(lái)揭示目標(biāo)公司的供應(yīng)鏈洞察
像您這樣的客戶每天都在使用 Diffbot 將 Web 智能連接到您的應(yīng)用程序中。我們很想聽(tīng)聽(tīng)您正在構(gòu)建的內(nèi)容。在Twitter或LinkedIn上與我們交談。
自動(dòng)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分類(lèi)并提取為干凈、結(jié)構(gòu)化的 JSON。了解有關(guān) Extract 的更多信息。
- 您有一個(gè)確切的 URL,用于您想要從中獲得數(shù)據(jù)的確切頁(yè)面
- 您的服務(wù)需要同步提取
- 例子:
- 當(dāng)用戶在婚禮登記網(wǎng)站上輸入產(chǎn)品 URL 時(shí)獲取產(chǎn)品數(shù)據(jù)
- 為自然語(yǔ)言處理項(xiàng)目獲取干凈的文章文本
- 將 HTML 表格提取到 CSV 中
Extract 入門(mén)
Extract 使用計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理自動(dòng)對(duì)網(wǎng)站進(jìn)行分類(lèi)并提取為干凈、結(jié)構(gòu)化的 JSON。
Diffbot Extract 是一種流行的解決方案,用于替換大容量 Web 抓取管道,因?yàn)榛谝?guī)則的 Web 抓取往往變得昂貴且令人沮喪,難以大規(guī)模維護(hù)。
Diffbot Extract 不是一組規(guī)則,而是使用計(jì)算機(jī)視覺(jué)來(lái)“讀取”網(wǎng)頁(yè),將其分類(lèi)為標(biāo)準(zhǔn)頁(yè)面類(lèi)型,并根據(jù)標(biāo)準(zhǔn)模式提取其內(nèi)容。
如果您的用例涉及在多個(gè)不同的站點(diǎn)上抓取數(shù)千個(gè)頁(yè)面,您可以為每個(gè)單獨(dú)的頁(yè)面定義規(guī)則,或者只使用 Diffbot Extract。您可以在 diffbot.com/testdrive 上為您的用例試用 Diffbot Extract(無(wú)需注冊(cè))。
雖然 Diffbot Extract 作為開(kāi)發(fā)人員 API 最有效,但儀表板上提供了 UI,diffbot.com 用于快速即插即用用例。
Diffbot Extract 依賴于描述網(wǎng)絡(luò)上大多數(shù)頁(yè)面類(lèi)型的標(biāo)準(zhǔn)本體,而不是特定于站點(diǎn)的規(guī)則。它可以將 Web 上的任何頁(yè)面分類(lèi)為這些標(biāo)準(zhǔn)頁(yè)面類(lèi)型之一,然后使用預(yù)先訓(xùn)練的 ML 模型“讀取”頁(yè)面以查找標(biāo)準(zhǔn)字段,例如產(chǎn)品頁(yè)面和文章頁(yè)面。offerPrice
author
某些數(shù)據(jù)提取 API(如列表 API)可能具有一些標(biāo)準(zhǔn)字段,但旨在盡可能適應(yīng)任何網(wǎng)站上的任何類(lèi)型的列表。
其他的,如產(chǎn)品API,具有更固執(zhí)己見(jiàn)的本體,可以很容易地與現(xiàn)有的產(chǎn)品數(shù)據(jù)庫(kù)集成。
此處提供了提取 API 的完整列表。
雖然 Extract 存在 Dashboard 界面,但它仍然主要是一種技術(shù)產(chǎn)品。如果您熟悉 API,請(qǐng)前往 Extract API 簡(jiǎn)介以開(kāi)始使用 API。
對(duì)于技術(shù)含量較低的用戶,您可能會(huì)發(fā)現(xiàn) Diffbot 知識(shí)圖譜中已經(jīng)預(yù)先抓取和提取的數(shù)據(jù)更容易訪問(wèn)。
如果上述方法都不適用于您,請(qǐng)考慮基于規(guī)則的網(wǎng)絡(luò)抓取解決方案。這些通常更容易理解和實(shí)現(xiàn)。以下是一些選項(xiàng)(無(wú)隸屬關(guān)系):
- Scrapy — Python 中流行的開(kāi)源 Web 抓取庫(kù)
- BeautifulSoup — 另一個(gè) Python 中的開(kāi)源網(wǎng)絡(luò)抓取庫(kù)
- Octoparse — 一種基于 UI 的網(wǎng)頁(yè)抓取工具,易于非技術(shù)用戶使用
自定義 API 入門(mén)
我們的數(shù)據(jù)提取 API 通常提供頁(yè)面的干凈提取,但在某些情況下,您可能會(huì)遇到特定字段的問(wèn)題,例如:
- 默認(rèn) API 結(jié)果中缺少一個(gè)字段(因?yàn)槲覀兊?AI 無(wú)法在頁(yè)面上找到它)
- 字段包含不正確的數(shù)據(jù)
在某些情況下,您可能還希望返回一個(gè)自定義字段,其中包含您定義的頁(yè)面中的數(shù)據(jù)。
所有這些情況都可以使用自定義 API 工具 (https://app.diffbot.com/custom/) 進(jìn)行處理,該工具允許您設(shè)置自定義選擇器 (https://docs.diffbot.com/reference/custom-api-selectors) 來(lái)定義將提取到每個(gè)字段中的數(shù)據(jù)。



