抓取:編寫程序,集成網頁抓取API

對于此示例,讓我們創建一個調用 ScraperBox API 的 Python 程序,確保YOUR_API_KEY用您的 API 密鑰替換:

import urllib.parse
import urllib.request
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# Urlencode the URL
url = urllib.parse.quote_plus("https://www.amazon.com/Edward-Tools-Bend-proof-Garden-Trowel/dp/B01N297HU0")

# Create the query URL.
query = "https://api.scraperbox.com/scrape"
query += "?api_key=%s" % "YOUR_API_KEY"
query += "&url=%s" % url

# Call the API.
request = urllib.request.Request(query)
raw_response = urllib.request.urlopen(request).read()
html = raw_response.decode("utf-8")

print(html)

解析:從 HTML 中提取數據

幾乎每種編程語言都有一個 dom 解析器包。在我們的例子中,使用 Pyhton BeautifulSoup包:

# Rest of the code here

# Setup beautifulsoup
soup = BeautifulSoup(html, 'html.parser')

# Find the element
title_element = soup.select_one("#title")

# Get the text content
title = title_element.getText().strip()

print("Title=" + title)

結構化存儲:將數據按照分析要求存儲在DB

將上面解析來的數據,結構化存儲到數據庫,例如商品綜合信息表 (product_overview):

字段名數據類型描述或約束
product_idINT或BIGINT主鍵唯一標識,主鍵約束
asinVARCHAR(10)亞馬遜標準識別碼,唯一
titleVARCHAR(255)商品標題
brandVARCHAR(100)品牌名稱
priceDECIMAL(10, 2)商品價格,保留兩位小數
currencyVARCHAR(3)貨幣單位,如”USD”
ratingDECIMAL(3, 2)評分,保留兩位小數
review_countINT評論數量
category_nameVARCHAR(100)分類名稱,外鍵來自Categories表
descriptionTEXT商品描述,文本類型
inventory_quantityINT庫存數量
warehouseVARCHAR(100)倉庫位置

數據分析:Excel或BI工具

數據量小的情況下,直接使用Excel,簡單又快捷;數據量比較大時,可以使用BI工具,甚至將AI+BI結合起來,更高效的產出研究報告。

網頁抓取API還能用?

經過上面的分析及案例,可以看到如下結論:按照上文講述的規則來用,是沒有風險的,也是正常的商業手段。

自建網頁抓程序取所依賴的API怎么找?

用冪簡集成搜索API最方便!冪簡集成專注于為開發者提供全面、高效、易用的API平臺解決方案。冪簡API平臺提供了多種維度發現API的功能:通過關鍵詞搜索API、從API Hub分類瀏覽API、從開放平臺分類瀏覽企業間接尋找API等。

此外,冪簡集成開發者社區會編寫API入門指南、多語言API對接指南、API測評等維度的文章,讓開發者選擇符合自己需求的API。

上一篇:

深入比較8款流行的跨平臺數據庫API

下一篇:

使用大語言模型 Cohere API 構建文本分類器的三種方法
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費