![]() |
爬網-Diff
專用API
【更新時間: 2024.07.24】
Diff 爬網 可用于創建并啟動一個作業,它能夠在站點中進行搜索以及提取頁面。其中爬網與提取-無論是自動的還是自定義的會相互配合、攜手工作,共同完成相應任務,實現高效的頁面處理流程。
免費
去服務商官網采購>
|
瀏覽次數
21
采購人數
1
試用次數
0
收藏
×
完成
取消
×
書簽名稱
確定
|
- API詳情
- 定價
- 使用指南
- 關于我們
- 相關推薦


什么是Diff的爬網?
"Diff 爬網API"是一款功能強大的網頁數據抓取工具,它可以在幾分鐘內深入訪問并抓取任何網站的每個頁面。這種API通過其高級算法,能夠快速而全面地將網站的內容包
括產品信息、文章和用戶討論等轉化為結構化的數據庫格式。
什么是Diff的爬網接口?
Diff的爬網有哪些核心功能?
1.自動化網頁爬取:用戶只需指定一個起始網頁或一組網頁,API便能自動發現并爬取這些頁面上的所有鏈接,包括深層次的網頁內容。
2. 全面的數據提取:API能夠從爬取的網頁中提取各種類型的數據,如文本、圖片、表格數據等,支持廣泛的數據格式,滿足不同用戶的需求。
3. 數據輸出與訪問:API支持多種數據輸出格式,包括但不限于JSON、CSV等,方便用戶根據需求選擇適當的數據訪問和存儲方式。
4.Crawlbot 頁面提取:內置的Crawlbot功能使得"Diff 爬網API"可以直接提取并處理網頁內容,進一步增強了數據處理的效率和精確度。這項功能增強了API對特定頁面
內容的抓取能力,適用于需要深入分析單一頁面的場景。
Diff的爬網的核心優勢是什么?
1. 無需規則,簡便操作:與 Extract 相似,Crawl API的使用無需設定復雜規則。用戶僅需指定網站上的一個起點,Crawl 便能自動爬取該頁面上的所有鏈接,并將相關內容完整提取,大大簡化了操作過程。
2. 高速處理,效率卓越:Diffbot 擁有世界級的分布式爬蟲基礎設施,能夠每天高效處理數百萬個網頁。這種大規模的處理能力確保了數據抓取的高效率和高速度,滿足用戶對大量數據處理的需求。
3. 完整的API可訪問性,靈活應用:通過使用爬網API,用戶可以通過編程方式啟動爬網過程、實時檢查爬網狀態,并便捷地檢索輸出結果。這種完全可編程的訪問性為數據的自動化采集和處理提供了極大的靈活性和便利。
在哪些場景會用到Diff的爬網?
"Diff 爬網API"提供了強大的自動化網頁爬取和數據提取功能,適用于多種需要大規模數據處理和信息監測的場景,以下是一些具體的使用場景:
市場研究和分析:通過"Diff 爬網API"來全面提取競爭對 手網站上的產品信息,包括價格、描述、客戶評價等,從而進 行深入的市場分析。
|
新聞內容聚合:新聞媒體和內容平臺可以通過"Diff 爬網 API"自動抓取各大新聞網站的實時內容,整合并發布全面的報 道。
|
科研數據收集:研究人員可以使用"Diff 爬網API"從網絡 上自動收集與其研究領域相關的開放數據,用于科學研究和學 術發表。
|
網絡安全監控:網絡安全人員可以利用"Diff 爬網API"抓取 潛在的威脅信息,如惡意軟件下載鏈接、釣魚網站內容等,以便 進行進一步的分析與防范。
|




Diffbot 是一套產品,可以輕松集成和研究網絡上的數據。
與 Google 等網絡搜索工具不同,Diffbot 中的數據是按含義而不是標記構建的。我們有文章、產品和組織等實體,而不是網站。項目實體具有類似 和 的屬性。組織實體具有類似 和 的屬性。title
author
revenue
location
Diffbot 工具允許您從現有網頁中對有意義的實體進行分類和提取,或者將公共網絡搜索為一個巨大的實體圖形數據庫,并按其屬性進行過濾。
世界各地的公司都使用 Diffbot 來利用公共 Web 數據,而無需從其原始網站標記表單中構建和清理數據。
- DuckDuckGo 使用 Extract 來構建用于購物搜索的產品數據
- ProQuo AI 使用知識圖譜中的組織數據來推動預測性業務發展
- Contingent 使用知識圖譜中的新聞數據來揭示目標公司的供應鏈洞察
像您這樣的客戶每天都在使用 Diffbot 將 Web 智能連接到您的應用程序中。我們很想聽聽您正在構建的內容。在Twitter或LinkedIn上與我們交談。
爬網 API 簡介
暫停、刪除、重新啟動或查看批量作業的狀態。
爬網與提取 API(自動或自定義)密切相關。它可以快速抓取網站以查找適當的鏈接,并將這些鏈接交給提取 API 進行處理。然后,所有結構化頁面結果都會被編譯成一個“集合”,可以完整下載或使用搜索 API 進行搜索。
注意:如果您有要提取的所有 URL 的完整列表,則可能正在尋找批量 API。
對 Crawl API 的訪問僅限于 Plus 計劃及更高版本
隨時升級到 diffbot.com/pricing Plus 計劃,或聯系 sales@diffbot.com 了解更多信息。
默認情況下,抓取遵循網站的robots.txt說明,包括 disallow 和 crawl-delay 指令。
在特定情況下(通常是由于您與要抓取的網站建立了合作伙伴關系或協議),可以忽略/覆蓋robots.txt指令。這通常比等待第三方網站更新其robots.txt文件要快。
要將站點的抓取列入白名單,請在站點的robots.txt中指定“Diffbot”用戶代理:
User-agent: Diffbot
Disallow:
請注意,Crawl 不遵守該指令。Allow
對于啟動計劃,非活動抓取將在 18 天后從您的帳戶中刪除,對于 Plus 計劃,將在 32 天后從您的帳戶中刪除。
刪除包括提取的數據以及作業元信息(名稱、設置等)。
“非活動”爬網是基本上處于永久暫停狀態的爬網。系統不會刪除活動的定期/重復抓取,也不會從您的帳戶中移除。但是,在定期爬網完成最后一輪后,它將受到常規刪除策略的約束。
創建爬網
創建并啟動作業以通過網站抓取和提取頁面。
若要創建爬網,請向此終結點發出 POST 請求,并設置并包含下面指定的最低設置。Content-Type
application/x-www-form-urlencoded
創建爬網作業將指示 Diffbot 立即開始抓取提供的種子 URL 以獲取鏈接,并使用指定的提取 API 處理它們。
其他設置可用于僅對與特定 URL 模式匹配的鏈接進行爬網,或僅提取某些已爬網鏈接。






Diffbot 是一套產品,可以輕松集成和研究網絡上的數據。
與 Google 等網絡搜索工具不同,Diffbot 中的數據是按含義而不是標記構建的。我們有文章、產品和組織等實體,而不是網站。項目實體具有類似 和 的屬性。組織實體具有類似 和 的屬性。title
author
revenue
location
Diffbot 工具允許您從現有網頁中對有意義的實體進行分類和提取,或者將公共網絡搜索為一個巨大的實體圖形數據庫,并按其屬性進行過濾。
世界各地的公司都使用 Diffbot 來利用公共 Web 數據,而無需從其原始網站標記表單中構建和清理數據。
- DuckDuckGo 使用 Extract 來構建用于購物搜索的產品數據
- ProQuo AI 使用知識圖譜中的組織數據來推動預測性業務發展
- Contingent 使用知識圖譜中的新聞數據來揭示目標公司的供應鏈洞察
像您這樣的客戶每天都在使用 Diffbot 將 Web 智能連接到您的應用程序中。我們很想聽聽您正在構建的內容。在Twitter或LinkedIn上與我們交談。
爬網 API 簡介
暫停、刪除、重新啟動或查看批量作業的狀態。
爬網與提取 API(自動或自定義)密切相關。它可以快速抓取網站以查找適當的鏈接,并將這些鏈接交給提取 API 進行處理。然后,所有結構化頁面結果都會被編譯成一個“集合”,可以完整下載或使用搜索 API 進行搜索。
注意:如果您有要提取的所有 URL 的完整列表,則可能正在尋找批量 API。
對 Crawl API 的訪問僅限于 Plus 計劃及更高版本
隨時升級到 diffbot.com/pricing Plus 計劃,或聯系 sales@diffbot.com 了解更多信息。
默認情況下,抓取遵循網站的robots.txt說明,包括 disallow 和 crawl-delay 指令。
在特定情況下(通常是由于您與要抓取的網站建立了合作伙伴關系或協議),可以忽略/覆蓋robots.txt指令。這通常比等待第三方網站更新其robots.txt文件要快。
要將站點的抓取列入白名單,請在站點的robots.txt中指定“Diffbot”用戶代理:
User-agent: Diffbot
Disallow:
請注意,Crawl 不遵守該指令。Allow
對于啟動計劃,非活動抓取將在 18 天后從您的帳戶中刪除,對于 Plus 計劃,將在 32 天后從您的帳戶中刪除。
刪除包括提取的數據以及作業元信息(名稱、設置等)。
“非活動”爬網是基本上處于永久暫停狀態的爬網。系統不會刪除活動的定期/重復抓取,也不會從您的帳戶中移除。但是,在定期爬網完成最后一輪后,它將受到常規刪除策略的約束。
創建爬網
創建并啟動作業以通過網站抓取和提取頁面。
若要創建爬網,請向此終結點發出 POST 請求,并設置并包含下面指定的最低設置。Content-Type
application/x-www-form-urlencoded
創建爬網作業將指示 Diffbot 立即開始抓取提供的種子 URL 以獲取鏈接,并使用指定的提取 API 處理它們。
其他設置可用于僅對與特定 URL 模式匹配的鏈接進行爬網,或僅提取某些已爬網鏈接。



