構建 eBay 搜索器：完整的 Python 和代理教程

352次閱讀

eBay 是全球最大的電子商務市場之一，擁有數十億條活躍列表。這個龐大的產品數據、定價和賣家信息庫是企業、研究人員和開發人員的金礦。

提取這些數據（即網絡搜刮）可以讓你進行大規模的價格監控、競爭對手分析和市場研究。本指南提供了使用 Python 構建自己的 eBay scraper 的全面、循序漸進的方法。

搜索 eBay 數據的主要原因

在深入研究代碼之前，有必要了解所能收集數據的價值。

價格監控：自動跟蹤特定產品或整個類別的價格。這樣，電子商務企業就能實時調整定價策略，保持競爭力。

競爭對手分析：監控競爭對手的產品列表、定價、運輸成本和銷售量。這種洞察力可以揭示他們的戰略和市場定位。

市場研究：通過搜索上市詳情和銷售數據，分析趨勢、識別熱門產品並瞭解客户需求。

產品開發：收集有關產品功能、描述和客户反饋（評論）的數據，找出市場差距，為產品設計提供依據。

搜索 eBay 的最佳工具

在本項目中，我們將依賴於一套簡單而強大的 Python 庫。

Python一種多用途的流行語言，擁有龐大的網絡搜索生態系統。

請求：用於發出 HTTP 請求的標準 Python 庫。通過它，您可以輕鬆獲取任何 eBay 頁面的 HTML 內容。

BeautifulSoup（或 lxml）：一個功能強大的庫，專為解析 HTML 和 XML 文檔而設計。通過它，您可以瀏覽 HTML 結構並提取所需的特定數據點。

要安裝這些基本庫，請在終端運行以下命令：

pip install requests beautifulsoup4

使用 Python 瀏覽 eBay 的分步指南

第 1 步：確定目標 URL

首先，在 eBay 上搜索要搜索的產品（如 “智能手機”）。從瀏覽器地址欄中複製 URL。

您會發現 URL 包含定義搜索的參數，例如

_nkw：搜索關鍵詞（如智能手機）。

_pgn：搜索結果的頁碼。

_ipg：每頁的條目數。

通過修改這些參數（尤其是_pgn），就能以編程方式瀏覽所有搜索結果頁面。

步驟 2：發送 HTTP 請求並獲取 HTML

我們將使用請求庫向 eBay URL 發送 GET 請求。關鍵是要包含頭信息，尤其是User-Agent，以模擬真實的網絡瀏覽器。這是避免被發現的第一步。

import requests
from bs4 import BeautifulSoup

# Define the URL for the first page of search results
url = "https://www.ebay.com/sch/i.html?_nkw=smartphone&_pgn=1"# Set headers to mimic a real browser
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}

# Send the request
response = requests.get(url, headers=headers)

# Check if the request was successfulif response.status_code == 200:
    html_content = response.text
else:
    print(f"Failed to retrieve page, status code: {response.status_code}")
    exit()

第 3 步：使用 BeautifulSoup解析 HTML

現在我們有了原始 HTML，我們將使用 BeautifulSoup 把它轉換成可搜索對象。

# Create a BeautifulSoup object to parse the HTML
soup = BeautifulSoup(html_content, 'html.parser')

第 4 步：檢查頁面並查找選擇器

這是網路爬取最關鍵的部分。前往瀏覽器中的eBay搜尋頁面，在商品清單上點擊右鍵。選擇「檢查」以開啟瀏覽器的開發者工具。

你需要找出能唯一識別所需資料的HTML標籤和CSS類別。例如：

每個商品清單可能位於帶有s-item類別的<li>標籤中。

商品標題可能位於帶有s-item__title類別的<h1>或<span>中。

商品價格可能位於帶有s-item__price類別的<span>中。

步驟 5：提取數據

使用找到的選擇器，現在可以循環瀏覽頁面上的每個項目並提取其詳細信息。

# Find all product listing containers
products = soup.find_all('li', class_='s-item')

scraped_data = []

for product in products:
    # Use .find() and provide the tag and class
    title_element = product.find('span', role='heading')
    price_element = product.find('span', class_='s-item__price')
    link_element = product.find('a', class_='s-item__link')

    # Clean the text and handle missing items
    title = title_element.text.strip() if title_element else 'N/A'
    price = price_element.text.strip() if price_element else 'N/A'
    link = link_element['href'] if link_element else 'N/A'if title != 'N/A':
        item = {
            'title': title,
            'price': price,
            'link': link
        }
        scraped_data.append(item)

# Print the resultsimport json
print(json.dumps(scraped_data, indent=2))

該腳本將為您提供第一頁所有產品的標題、價格和鏈接的簡潔 JSON 輸出。您可以通過循環瀏覽頁碼（更改 URL 中的_pgn參數）來擴展此功能，並將數據保存到 CSV 文件中。