Como extrair dados de produtos da Amazon: Um guia abrangente de melhores práticas e ferramentas

Suciu Dan em Aug 10 2023

A Amazon, o gigante global do comércio eletrónico, é um tesouro de dados essenciais que inclui pormenores intrincados, como descrições de produtos, críticas de clientes, estruturas de preços e muito mais. Tirar partido desta informação de uma forma significativa é crucial para o panorama empresarial atual. Quer o seu objetivo seja avaliar o desempenho de produtos oferecidos por vendedores terceiros, analisar a sua concorrência ou aprofundar uma pesquisa de mercado abrangente, é essencial utilizar ferramentas especializadas de raspagem da Web, como o Amazon Scraper.

No entanto, o processo de recolha de dados da Amazon é único e tem o seu próprio conjunto de desafios e complexidades. Este guia detalhado tem como objetivo fornecer uma visão geral abrangente de cada fase necessária para construir um web scraper da Amazon totalmente funcional, permitindo-lhe aproveitar estes dados vitais de forma eficaz. Irá guiá-lo através das considerações e técnicas específicas adaptadas à estrutura complexa da Amazon, ajudando-o a navegar pelas nuances desta poderosa plataforma.

Desde a compreensão dos aspectos legais e éticos da recolha de dados da Web até ao fornecimento de passos práticos para criar uma ferramenta de recolha de dados personalizada, este guia irá equipá-lo com os conhecimentos e as ferramentas necessárias para transformar o vasto repositório de dados da Amazon em informações acionáveis para o seu negócio.

Preparação para a recolha de dados da Amazon

A recolha de dados da Amazon é uma tarefa complexa que requer um conjunto de ferramentas e uma abordagem estratégica. Eis um guia passo-a-passo para preparar o seu sistema para a recolha de dados de produtos da Amazon.

Passo 1: Instalar o Python

Python é a linguagem de programação principal para a recolha de dados da Web. Certifique-se de que tem o Python 3.8 ou superior instalado. Se não tiver, vá a python.org para descarregar e instalar a versão mais recente do Python.

Passo 2: Criar uma pasta de projeto

Crie uma pasta dedicada para armazenar os seus ficheiros de código para o web scraping Amazon. A organização dos seus ficheiros facilitará o seu fluxo de trabalho.

Passo 3: Configurar um ambiente virtual

Criar um ambiente virtual é considerado a melhor prática no desenvolvimento Python. Permite-lhe gerir dependências específicas do projeto, assegurando que não há conflitos com outros projectos.

Para utilizadores do macOS e do Linux, execute os seguintes comandos para criar e ativar um ambiente virtual:

$ python3 -m venv .env
$ source .env/bin/activate

Para os utilizadores do Windows, os comandos são ligeiramente diferentes:

c:\amazon>python -m venv .env
c:\amazon>.env\scripts\activate

Passo 4: Instalar os pacotes Python necessários

As duas etapas principais da recolha de dados da Web são a recuperação do HTML e a sua análise para extrair os dados relevantes.

Biblioteca Requests: Uma popular biblioteca Python de terceiros utilizada para efetuar pedidos HTTP. Oferece uma interface simples para comunicar com servidores Web, mas devolve o HTML como uma cadeia de caracteres, o que não é fácil de consultar.
Beautiful Soup: Esta biblioteca Python ajuda a extrair dados de ficheiros HTML e XML, permitindo a pesquisa de elementos específicos como etiquetas, atributos ou texto.

Instale estas bibliotecas utilizando o seguinte comando:

$ python3 -m pip install requests beautifulsoup4

Nota para os utilizadores do Windows: Substituir python3 por python.

Etapa 5: Configuração básica de raspagem

Crie um ficheiro com o nome amazon.py e insira o código para enviar um pedido para uma página específica de um produto da Amazon. Por exemplo:

importar pedidos
url = 'https://www.amazon.com/Robux-Roblox-Online-Game-Code/dp/B07RZ74VLR/'
response = requests.get(url)
print(response.text)

A execução deste código pode levar a que a Amazon bloqueie o pedido e devolva um erro 503, uma vez que reconhece que o pedido não foi efectuado através de um browser.

Passo 6: Ultrapassar os mecanismos de bloqueio

A Amazon bloqueia frequentemente as tentativas de raspagem, devolvendo códigos de erro que começam por 400 ou 500. Para ultrapassar este problema, pode imitar um navegador enviando cabeçalhos personalizados, incluindo o agente do utilizador e, por vezes, o idioma de aceitação.

Encontre o agente de utilizador do seu browser premindo F12, abrindo o separador Rede, recarregando a página e examinando os Cabeçalhos de Pedido.

Aqui está um exemplo de dicionário para cabeçalhos personalizados:

custom_headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/602.18 (KHTML, like Gecko) Chrome/54.0.3129.163 Safari/602.6 Edge/9.50428',
    'accept-language': 'en-US,en;q=0.9',
}

Envie este dicionário utilizando o método get desta forma:

response = requests.get(url, headers=custom_headers)

Isso provavelmente produzirá o HTML desejado com detalhes do produto. O envio do maior número possível de cabeçalhos minimiza a necessidade de renderização de JavaScript. Se a renderização for necessária, ferramentas como Playwright ou Selenium podem ser usadas.

Recolha de dados de produtos da Amazon

No que diz respeito à extração de informações sobre produtos da Amazon, é comum encontrar dois tipos principais de páginas que contêm os dados essenciais: a página da categoria e a página de detalhes do produto. Cada uma delas desempenha um papel crucial na extração das informações necessárias, e é vital saber como navegar em ambas.

A página da categoria

Veja, por exemplo, o URL https://www.amazon.com/s?i=specialty-aps&bbn=16225007011&rh=n%3A16225007011%2Cn%3A193870011

Na página da categoria, encontra os elementos básicos:

Título do produto: O nome do produto.
Imagem do produto: Representação visual do artigo.
Classificação do produto: Avaliações e comentários dos utilizadores.
Preço do produto: O preço de venda atual.
Página de URLs de produtos: Ligações para páginas de produtos individuais.

Se necessitar de informações mais pormenorizadas, como as descrições ou especificações dos produtos, terá de se aventurar nas páginas de pormenor de cada produto.

Investigar a página de detalhes do produto

Ao clicar no URL de um produto (por exemplo, https://www.amazon.com/Robux-Roblox-Online-Game-Code/dp/B07RZ74VLR/), entrará num tesouro de informações detalhadas. Para ver como estas informações estão estruturadas, pode utilizar um navegador moderno como o Chrome.

Inspeção de elementos HTML

Clique com o botão direito do rato no título do produto e selecione "Inspecionar". Encontrará a marcação HTML do título do produto realçada. Em particular, está contido numa etiqueta span e o seu atributo id está definido como "productTitle".

O mesmo método pode ser utilizado para encontrar a marcação de outros elementos essenciais:

Preço: Clique com o botão direito do rato no preço e selecione "Inspecionar". O componente em dólares do preço está alojado numa etiqueta de intervalo com a classe "a-price-whole", enquanto os cêntimos estão armazenados noutra etiqueta de intervalo, designada com a classe "a-price-fraction".
Classificação, Imagem e Descrição: Utilize a mesma funcionalidade de inspeção para localizar estes componentes essenciais, cada um envolto em etiquetas e classes específicas.

O processo de recolha de dados de produtos da Amazon pode ser dividido em passos específicos, cada um visando um aspeto particular da informação do produto. Empregando bibliotecas Python, como requests e BeautifulSoup, podemos acessar, localizar e extrair os detalhes desejados.

Aqui está um guia detalhado sobre como proceder:

1. Iniciar o pedido

Comece por enviar um pedido GET com cabeçalhos personalizados para o URL da página do produto:

response = requests.get(url, headers=custom_headers)
soup = BeautifulSoup(response.text, 'lxml')

Utilizamos o BeautifulSoup para analisar o conteúdo HTML, o que facilita a consulta de informações específicas através de selectores CSS.
2. Localizar e extrair o nome do produto

Identificar o título do produto utilizando o id único productTitle dentro de um elemento span:

title_element = soup.select_one('#productTitle')
title = title_element.text.strip()

3. Localizar e raspar a classificação do produto

Para obter a classificação do produto, é necessário aceder ao atributo title do seletor #acrPopover:

rating_element = soup.select_one('#acrPopover')
rating_text = rating_element.attrs.get('title')
rating = rating_text.replace('out of 5 stars', '')

4. Localizar e extrair o preço do produto

Extrair o preço do produto utilizando o seletor #price_inside_buybox:

elemento_preço = soup.select_one('#price_inside_buybox')
print(elemento_preço.texto)

5. Localizar e extrair a imagem do produto

Recupera o URL da imagem predefinida utilizando o seletor #landingImage:

elemento_de_imagem = soup.select_one('#landingImage')
image = elemento_de_imagem.attrs.get('src')

6. Localizar e raspar a descrição do produto

Obter a descrição do produto utilizando o seletor #productDescription:

description_element = soup.select_one('#productDescription')
print(description_element.text)

7. Localizar e recolher análises de produtos

A recolha de comentários é mais complexa, uma vez que um produto pode ter vários comentários. Uma única avaliação pode conter várias informações, como autor, classificação, título, conteúdo, data e estado de verificação.

Coleção de críticas

Utilize o seletor div.review para identificar e recolher todas as críticas:

review_elements = soup.select("div.review")
scraped_reviews = []

for review in review_elements:
  # Extrair detalhes específicos da revisão...

Extrair detalhes da revisão

Cada revisão pode ser dissecada em pormenores específicos:

Autor: span.a-profile-name
Classificação: i.review-rating
Título: a.review-title > span:not([class])
Conteúdo: span.review-text
Data: span.review-date
Estado verificado: span.a-size-mini

Cada um destes elementos pode ser selecionado utilizando os respectivos selectores CSS e, em seguida, extraído utilizando métodos semelhantes aos passos anteriores.

Montagem dos dados de revisão

Cria um objeto que contém os detalhes da avaliação extraída e anexa-o ao conjunto de avaliações:

r = {
       "author": r_author,
       "rating": r_rating,
       "title": r_title,
       "content": r_content,
       "date": r_date,
       "verified": r_verified
}

scraped_reviews.append(r)

A extração de dados de produtos da Amazon é uma tarefa multifacetada que requer uma abordagem precisa para atingir elementos específicos na estrutura da página Web. Tirando partido das capacidades das ferramentas modernas de raspagem da Web, é possível extrair com êxito informações detalhadas sobre os produtos.

Manuseamento da listagem de produtos

Para recolher informações detalhadas sobre os produtos, é frequente começar numa página de listagem de produtos ou de categoria, onde os produtos são apresentados numa grelha ou numa vista de lista.

Identificação de ligações de produtos

Numa página de categoria, pode reparar que cada produto está contido numa div com um atributo específico [data-asin]. As hiperligações para produtos individuais encontram-se frequentemente dentro de uma etiqueta h2 nesta div.

O seletor CSS correspondente para estas ligações seria:

[data-asin] h2 a

Analisar e seguir ligações

Você pode usar o BeautifulSoup para selecionar esses links e extrair os atributos href. Observe que esses links podem ser relativos, portanto, use o método urljoin para convertê-los em URLs absolutos.

from urllib.parse import urljoin

def parse_listing(listing_url):
   # O seu código para ir buscar e analisar a página vai aqui...
 link_elements = soup_search.select("[data-asin] h2 a")
 page_data = []
 for link in link_elements:
 full_url = urljoin(listing_url, link.attrs.get("href"))
 product_info = get_product_info(full_url)
 page_data.append(product_info)

Manipulação da paginação

Muitas páginas de listagem são paginadas. Pode navegar para a página seguinte localizando a ligação que contém o texto "Seguinte".

next_page_el = soup.select_one('a:contains("Next")')
if next_page_el:
 next_page_url = next_page_el.attrs.get('href')
 next_page_url = urljoin(listing_url, next_page_url)

Pode então utilizar este URL para analisar a página seguinte, continuando o ciclo até não existirem mais ligações "Seguinte".

8. Exportar dados de produtos extraídos para um ficheiro JSON

Os dados dos produtos extraídos estão a ser recolhidos como dicionários dentro de uma lista. Este formato permite uma fácil conversão para um Pandas DataFrame, facilitando a manipulação e exportação de dados.

Eis como pode criar um DataFrame a partir dos dados recolhidos e guardá-lo como um ficheiro JSON:

import pandas as pd

df = pd.DataFrame(page_data)
df.to_json('baby.json', orient='records')

Isto criará um ficheiro JSON que contém todas as informações de produtos recolhidas.

Este guia fornece uma descrição passo a passo da recolha de listagens de produtos, incluindo a navegação através da paginação e a exportação dos resultados para um ficheiro JSON. É essencial adaptar estes métodos à estrutura e aos requisitos específicos do sítio que está a extrair.

Código completo

import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import pandas as pd

custom_headers = {
    "accept-language": "en-US,en;q=0.9",
    "user-agent": "{user-agent}",
}

def get_response(url):
    """Make a GET request and return the response if successful."""
    with requests.Session() as session:
        session.headers.update(custom_headers)
        response = session.get(url)
        if response.status_code != 200:
            print(f"Error in getting webpage {url}")
            return None
        return response

def get_product_info(url):
    """Scrape product details from the given URL."""
    response = get_response(url)
    if response is None:
        return None

    # ... rest of the code ...

    return {
        "title": title,
        "price": price,
        "rating": rating,
        "image": image,
        "description": description,
        "url": url,
        "reviews": scraped_reviews,
    }

def parse_listing(listing_url):
    """Parse multiple product listings from the given URL."""
    page_data = []
    while listing_url:
        response = get_response(listing_url)
        if response is None:
            break

        soup_search = BeautifulSoup(response.text, "lxml")
        link_elements = soup_search.select("[data-asin] h2 a")

        for link in link_elements:
            full_url = urljoin(listing_url, link.attrs.get("href"))
            print(f"Scraping product from {full_url[:100]}", flush=True)
            product_info = get_product_info(full_url)
            if product_info:
                page_data.append(product_info)

        next_page_el = soup_search.select_one('a:contains("Next")')
        listing_url = urljoin(listing_url, next_page_el.attrs.get('href')) if next_page_el else None
        print(f'Scraping next page: {listing_url}', flush=True) if listing_url else None

    return page_data

def main():
    search_url = "{category url}"
    data = parse_listing(search_url)
    df = pd.DataFrame(data)
    df.to_json("amz.json", orient='records')

if __name__ == '__main__':
    main()

Melhores práticas e técnicas

Extrair dados da Amazon não é tão simples como pode parecer. Com a crescente complexidade da segurança na Web, a extração de informações valiosas desta colossal plataforma de comércio eletrónico apresenta uma miríade de desafios. Desde a limitação da taxa até aos intrincados algoritmos de deteção de bots, a Amazon garante que continua a ser um alvo difícil para a extração de dados.

Desafios na extração de dados da Amazon

Limitação de taxa: A Amazon aplica medidas de limitação de taxa para controlar o número de pedidos de um único endereço IP. Exceder estes limites pode resultar no bloqueio do seu IP.
Algoritmos de deteção de bots: Existem algoritmos sofisticados para inspecionar os cabeçalhos HTTP em busca de padrões invulgares, verificando se os pedidos provêm de bots automatizados.
Layouts em constante mudança: Com vários layouts de página e estruturas HTML flutuantes, acompanhar a interface em constante mudança requer vigilância e adaptabilidade.

Estratégias para superar os desafios

Para ultrapassar estes obstáculos, é necessário adotar uma abordagem estratégica. Aqui estão algumas das melhores práticas essenciais a seguir quando se faz scraping da Amazon:

Utilize um User-Agent realista: Fazer com que o seu User-Agent pareça genuíno é crucial para contornar a deteção. Aqui estão os agentes de utilizador mais comuns que imitam a atividade real do browser.
Defina a sua impressão digital de forma consistente: Muitas plataformas, incluindo a Amazon, utilizam o Protocolo de Controlo de Transmissão (TCP) e a impressão digital de IP para identificar bots. Garantir que os parâmetros da sua impressão digital permaneçam uniformes é vital para se manter fora do radar.
Alterar o padrão de rastreamento cuidadosamente: A criação de um padrão de rastreio bem sucedido envolve a simulação da forma como um utilizador genuíno navegaria através de uma página Web. Isto inclui a incorporação de cliques, scrolls e movimentos do rato que imitam o comportamento humano. A conceção de um padrão que espelhe a interação humana pode reduzir a probabilidade de deteção.
Considere o gerenciamento de proxy: Embora o artigo inicial não o mencione, a utilização de proxies pode adicionar uma camada extra de anonimato. Ao distribuir os pedidos por vários endereços IP, pode evitar ainda mais a deteção.
Manter-se atualizado com as políticas e tecnologias da Amazon: A Amazon actualiza frequentemente as suas medidas de segurança e a interface do utilizador. Revisitar e adaptar regularmente os seus métodos de raspagem a estas alterações garantirá que as suas técnicas permanecem eficazes.

A tarefa de extrair dados de produtos da Amazon é complexa, exigindo um conhecimento profundo das melhores práticas e uma adaptação constante às estratégias em evolução da Amazon. Ao adotar estas técnicas e ao manter-se atento ao panorama em constante mudança, pode aceder aos dados valiosos necessários para a sua análise ou projeto. Lembre-se de que isto é apenas uma visão superficial do que é necessário para fazer scraping na Amazon, e que podem ser necessárias pesquisas e ferramentas adicionais para atingir os seus objectivos específicos.

Uma maneira fácil de extrair dados da Amazon: Utilizando a API do Amazon Scraper

Embora os métodos de raspagem manual detalhados acima possam certamente produzir informações valiosas, requerem monitorização contínua, adaptação e conhecimentos técnicos. Para quem procura uma abordagem mais simplificada e fácil de utilizar, a API do Amazon Scraper oferece uma solução eficiente e dedicada.

Porquê escolher a API do Amazon Scraper?

A API do Amazon Scraper é uma ferramenta criada especificamente para navegar pelas complexidades do scraping da Amazon. Eis o que pode conseguir com esta API especializada:

Opções versáteis de raspagem: Pode extrair e analisar vários tipos de páginas da Amazon. Quer pretenda extrair dados das páginas de Pesquisa, Produto, Listagem de Ofertas, Perguntas e Respostas, Críticas, Mais Vendidos ou Vendedores, esta API tem tudo o que precisa.
Alcance global: Selecione e obtenha dados de produtos localizados num impressionante número de 195 localizações em todo o mundo. Esta vasta cobertura permite uma análise robusta e conhecimentos sobre diferentes mercados e demografias.
Recuperação eficiente de dados: A API devolve resultados analisados com precisão num formato JSON limpo. Não há necessidade de bibliotecas adicionais ou configurações complexas; recebe os dados prontos para utilização imediata.
Funcionalidades melhoradas para necessidades avançadas: Desfrute de funcionalidades adaptadas à eficiência, tais como capacidades de raspagem em massa e trabalhos automatizados. Estas funcionalidades simplificam o processo de scraping, permitindo-lhe reunir grandes quantidades de dados com o mínimo de intervenção manual.
Conformidade e facilidade de utilização: Ao contrário da raspagem manual, a utilização de uma API dedicada como a API Amazon Scraper garante frequentemente uma melhor conformidade com os regulamentos legais e os termos de serviço da Amazon, tornando-a uma opção mais segura para a extração de dados.

Conclusão

A extração de dados de produtos da Amazon pode ser abordada através de dois métodos distintos, cada um deles adequado a diferentes conjuntos de competências e requisitos. Vamos explorar os dois caminhos:

Criar o seu próprio raspador com pedidos e sopa bonita

Se estiver inclinado para a codificação e possuir as competências necessárias, criar um raspador personalizado utilizando bibliotecas Python populares como Requests e Beautiful Soup pode ser uma aventura intrigante. Aqui está uma breve visão geral do processo:

Envio de cabeçalhos personalizados: Ao personalizar os cabeçalhos HTTP, é possível imitar pedidos genuínos do navegador e evitar a deteção.

Rotação de User-Agents: Alterações frequentes ao User-Agent podem disfarçar ainda mais as suas actividades de scraping, fazendo-as parecer mais como interações normais do utilizador.

Rotação de proxy: A utilização de um conjunto de proxies permite-lhe distribuir pedidos por vários endereços IP, ajudando a contornar proibições ou limitações de taxa.

Embora este método ofereça flexibilidade e controlo, exige um esforço significativo, tempo e monitorização contínua. O layout em constante mudança da Amazon e as rigorosas medidas anti-bot fazem deste um caminho desafiante, exigindo actualizações e afinações constantes.

Solução simplificada com a API do Amazon Scraper

Para quem procura uma alternativa mais fácil de utilizar e eficiente em termos de tempo, a API Amazon Scraper oferece uma solução à medida:

Funcionalidade pré-construída: A API foi concebida especificamente para a Amazon, oferecendo funcionalidades que permitem extrair facilmente vários tipos de páginas.
Cobertura abrangente: Com a capacidade de direcionar dados em várias localizações globais, a API é versátil e de grande alcance.
Facilidade de uso: Esqueça as complexidades da codificação manual; a API devolve dados prontos a utilizar num formato JSON conveniente.

A API do Amazon Scraper representa um ponto de entrada acessível para a recolha de dados da Amazon, especialmente para indivíduos ou organizações que não dispõem dos recursos técnicos ou do tempo para desenvolver e manter um scraper personalizado.

Quer opte por escrever o seu próprio código com Requests e Beautiful Soup ou opte pela API especializada Amazon Scraper, a sua decisão deve estar alinhada com as suas competências, recursos, objectivos e conformidade com as diretrizes legais e éticas.

Para os utilizadores com experiência em tecnologia que gostam de desafios, a codificação de um raspador personalizado oferece controlo e personalização.
Para aqueles que dão prioridade à eficiência, acessibilidade e conformidade, a API do Amazon Scraper fornece uma solução pronta que simplifica o processo.

Ambos os caminhos podem conduzir a conhecimentos valiosos, mas a sua escolha terá um impacto significativo na viagem. Compreender os pontos fortes e as limitações de cada abordagem ajudá-lo-á a tomar uma decisão informada que melhor se adapte às suas necessidades.

FAQ

A Amazon permite a raspagem?

A recolha de informações publicamente disponíveis na Amazon não é geralmente considerada ilegal, mas deve estar em conformidade com os Termos de Serviço (ToS) da Amazon. No entanto, esta é uma área jurídica complexa. Antes de prosseguir, consulte profissionais jurídicos especializados nesta área para garantir que as suas actividades específicas de raspagem são legais.

A raspagem pode ser detectada?

Sim, o scraping pode, de facto, ser detectado. Muitos sites, incluindo a Amazon, utilizam software anti-bot que examina vários factores, como o seu endereço IP, parâmetros do browser e agentes do utilizador. Se for detectada atividade suspeita, o site pode apresentar um desafio CAPTCHA e a deteção contínua pode levar ao bloqueio do seu IP.

A Amazon proíbe os endereços IP?

Sim, a Amazon pode banir ou bloquear temporariamente um endereço IP se o identificar como suspeito ou em violação das suas medidas anti-bot. Trata-se de uma parte essencial dos seus protocolos de segurança para proteger a integridade da plataforma.

Como posso contornar o CAPTCHA ao raspar a Amazon?

Contornar os CAPTCHAs é um dos obstáculos significativos na recolha de dados, sendo preferível evitá-los por completo. Eis como pode minimizar os encontros:

Utilize proxies fiáveis e altere sistematicamente os seus endereços IP.
Introduzir atrasos aleatórios entre os pedidos para imitar o comportamento humano.
Certifique-se de que os parâmetros das impressões digitais são consistentes.

Vale a pena notar que o manuseamento do CAPTCHA pode exigir considerações éticas, sendo aconselhável seguir as melhores práticas.

Como é que posso rastrear a Amazon?

A estrutura complexa da Amazon pode ser navegada utilizando ferramentas de raspagem especializadas. Embora seja possível utilizar ferramentas gratuitas de raspagem e rastreio da Web, como o Scrapy, estas podem exigir um esforço substancial para serem configuradas e mantidas.

Para uma solução mais fácil e eficiente, pode considerar a utilização de um serviço dedicado como o Amazon Scraper API. Estas ferramentas são concebidas especificamente para lidar com as complexidades da Amazon e podem simplificar bastante o processo de rastreio.

Notícias e actualizações

Mantenha-se atualizado com os mais recentes guias e notícias sobre raspagem da Web, subscrevendo a nossa newsletter.

Preocupamo-nos com a proteção dos seus dados. Leia a nossa Política de Privacidade.