Na nossa API, os parâmetros de consulta são utilizados para personalizar o scraper de acordo com as suas necessidades. Compreender como cada parâmetro funciona permitirá-nos utilizar todo o potencial da nossa API de web scraper. Mantemos aqui uma documentação atualizada dos parâmetros da API. No entanto, também vamos aprofundar o assunto aqui, para compreender melhor como os parâmetros de consulta funcionam com a API de Web Scraping. Dito isto, existem três tipos de parâmetros: obrigatórios, padrão e opcionais. Os obrigatórios são bastante simples:
- O parâmetro `api_key` que discutimos acima
- O parâmetro `url`, que representa o URL que pretende extrair
Tenha em atenção que o valor do parâmetro `url` deve ser uma URL válida, não um nome de domínio, e, idealmente, deve estar codificado como URL. (por exemplo, https%3A%2F%2Fwebscrapingapi.com)
No que diz respeito aos parâmetros padrão, utilizámos dados históricos para aumentar a taxa de sucesso da nossa API (e, implicitamente, do seu projeto). Dados internos mostram que a melhor configuração para web scraping é utilizar um navegador web real emparelhado com um endereço IP residencial. Por isso, os parâmetros padrão da nossa API são:
- `render_js=1` - para iniciar um navegador real (não um cliente HTTP básico)
- `proxy_type=residential` - para aceder ao alvo através de um endereço IP residencial (ativado apenas se o seu plano atual suportar proxies residenciais)
É claro que também pode substituir o valor destes parâmetros, embora não o encorajemos. O scraping com um cliente HTTP básico e proxies de centro de dados geralmente leva o site alvo a detetar a atividade de scraping e a bloquear o acesso.
A seguir, iremos discutir os parâmetros opcionais. Uma vez que documentámos todos os parâmetros na nossa Documentação, iremos discutir apenas os parâmetros mais utilizados por enquanto:
- Parâmetro: render_js Descrição: Ao ativar este parâmetro, irá aceder ao URL de destino através de um navegador real. Tem a vantagem de renderizar ficheiros JavaScript. É uma ótima escolha para fazer scraping em sites com muito JavaScript (como aqueles construídos com ReactJS, por exemplo). Documentação: [aqui ]
- Parâmetro: proxy_type Descrição: Utilizado para aceder ao URL alvo através de um endereço IP residencial ou de um centro de dados. Documentação: [aqui ]
- Parâmetro: stealth_mode Descrição: O web scraping não é uma atividade ilegal. No entanto, alguns sites tendem a bloquear o acesso a software automatizado (incluindo web scrapers). A nossa equipa concebeu um conjunto de ferramentas que torna quase impossível para os sistemas anti-bot detetarem o nosso web scraper. Pode ativar estas funcionalidades utilizando o parâmetro stealth_mode=1. Documentação: [aqui ]
- Parâmetro: country Descrição: Utilizado para aceder ao seu alvo a partir de uma localização geográfica específica. Consulte os países suportados [aqui]. Documentação: [aqui ]
- Parâmetro: timeout Descrição: Por predefinição, encerramos um pedido (e não cobramos se falhar) após 10 segundos. Com determinados alvos, poderá querer aumentar este valor até 60 segundos. Documentação: [aqui ]
- Parâmetro: device Descrição: Pode utilizar isto para fazer com que o seu scraper pareça um «desktop», «tablet» ou «móvel». Documentação: [aqui ]
- Parâmetro: wait_until Descrição: Em termos simples, assim que chega ao URL de destino, congela o scraper até que um determinado evento ocorra. O conceito que seguimos é melhor descrito [aqui]. Documentação: [aqui ]
- Parâmetro: wait_for Descrição: Este parâmetro congela o scraper durante um período de tempo especificado (que não pode exceder 60s). Documentação: [aqui ]
- Parâmetro: wait_for_css Descrição: Congela o scraper até que um determinado seletor CSS (ou seja, classe ou ID) esteja visível na página. Documentação: [aqui ]
- Parâmetro: session Descrição: Permite-lhe utilizar o mesmo proxy (endereço IP) em várias solicitações. Documentação: [aqui ]