Voltar ao blogue
Ciência da recolha de dados da Web
Anda Miuțescu11 de maio de 20218 min de leitura

Livre-se de uma vez por todas dos bloqueios de IP ao fazer Web Scraping

Livre-se de uma vez por todas dos bloqueios de IP ao fazer Web Scraping

Porquê eu?

Os sites são criados para pessoas (em termos gerais) e, se um deles detetar um bot externo, como um web scraper, é muito provável que o bloqueie. Portanto, a questão é: como é que o site identificou o seu robô?

Para que um site o bloqueie, primeiro tem de identificar o bot, e faz isso monitorizando comportamentos de navegação invulgares.

Os rastreadores da Web são mais rápidos do que qualquer ser humano, e é isso que os torna atraentes, mas, na maioria das vezes, é também essa a prova irrefutável. Se encarregares o bot de rastrear dez páginas de um site, ele concluirá a tarefa em menos tempo do que o que demoraste a dar-lhe essa instrução. Basta que o site detecte que um único endereço IP enviou dez pedidos mais rapidamente do que qualquer ser humano conseguiria para identificar o bot.

Existem também outras formas, sendo a mais conhecida:

  • Impressão digital do navegador
  • Identificação de TLS
  • Verificar o IP em listas de proxies conhecidos

Existem também outras medidas de combate aos web scrapers, como os CAPTCHAs, mas estas destinam-se mais a impedir comportamentos suspeitos do que a detetá-los.

Como evitar o banimento de IP

O engraçado em relação a evitar bloqueios de IP é que, quanto mais IPs tiveres, menor é a probabilidade de algum deles ser detetado. E, claro, se alguns deles acabarem por ser banidos, ainda te restarão muitos.

Portanto, o primeiro passo é adquirir um conjunto de proxies de qualidade. Para isso, terá de encontrar um fornecedor de proxies de confiança, uma vez que essa é a opção mais económica. Em vez de comprar endereços IP, basta pagar uma mensalidade e terá acesso a centenas de milhares ou mesmo milhões de endereços IP.

Para além do grande volume de proxies, terá também de analisar a composição do conjunto de proxies. Alguns endereços IP são mais suspeitos do que outros, enquanto alguns sites são mais perspicazes. Poderia utilizar proxies premium para todas as suas tarefas de scraping, mas isso seria um desperdício, uma vez que os melhores proxies custam mais dinheiro.

O que importa é que tenha acesso a todas as ferramentas de que possa precisar e ao conhecimento necessário para escolher a mais adequada para cada situação.

A última peça do quebra-cabeças é a questão da rotação dos endereços IP que utiliza. Utilizar sempre o mesmo proxy leva ao problema que apresentámos anteriormente — um único IP a enviar pedidos a um ritmo demasiado rápido para ser de um utilizador humano. Mas, com o seu conjunto de proxies à disposição, pode enviar cada pedido a partir de uma fonte diferente. O site já não vê um único utilizador hiperativo, mas sim dez utilizadores diferentes a navegar quase ao mesmo tempo.

Esta foi uma breve visão geral do que terá de ter em conta. Agora, vamos aprofundar o assunto e ver que tipo de proxies deve adquirir e qual a melhor forma de os utilizar.

Encontre o disfarce certo

Há imensos proxies diferentes por onde escolher e muitos critérios a ter em conta. À primeira vista, o assunto pode parecer muito complicado e talvez te apeteça desistir, mas não desistas! Vais aprender o básico só de ler um artigo interessante, informativo e acessível, como este!

Para começar, vamos falar sobre o anonimato, o principal atrativo dos IPs de proxy. Em primeiro lugar, isso não é garantido: alguns proxies não tentam ocultar o seu IP real, atuando apenas como intermediários e nada mais; estes são chamados de proxies transparentes. Quando uma solicitação é feita através de um IP deste tipo, um dos cabeçalhos notifica o site de que se trata, de facto, de um proxy, enquanto outro envia o seu endereço real.

Além disso, o facto de usar um disfarce não significa necessariamente que esteja a enganar alguém. Os proxies anónimos ocultam o seu endereço real, mas não o facto de serem proxies. O cabeçalho da solicitação é o que o denuncia. O site não saberá quem é nem onde está, mas saberá que alguém o está a visitar através de um endereço IP.

Por fim, existem os proxies de alto anonimato, também conhecidos como «elite». Estes são os verdadeiros, pois não só mantêm a sua identidade em segredo, como também evitam revelar que são proxies. Não nos interpretem mal: um webmaster determinado identificará todos os proxies, por melhor que seja o disfarce, mas os proxies «elite» continuam a oferecer a melhor hipótese de passar despercebido.

No que diz respeito à extração de dados da Web, existem geralmente dois tipos de proxies disponíveis: de centro de dados e residenciais. Ambos os tipos de IPs ocultam o seu endereço real; a diferença reside mais na sua natureza.

Os proxies de centro de dados são endereços IP baseados na nuvem, sem localização física. Assentes numa infraestrutura moderna, estes proxies são bastante económicos e é possível aceder a alguns milhares sem gastar muito. Além disso, os IPs de datacenter utilizam uma boa ligação à Internet, pelo que poderá extrair dados mais rapidamente do que com outros tipos de proxies. A desvantagem é o facto de a ausência de uma localização real e a sub-rede partilhada (parte do IP é a mesma para todos os proxies da mesma «família») tornarem os IPs de datacenter mais fáceis de detetar e, consequentemente, bloquear.

Os proxies residenciais podem ser considerados a opção de alta qualidade, uma vez que se trata de endereços IP reais, fornecidos por verdadeiros fornecedores de serviços de Internet e com localizações físicas reais. Em suma, são praticamente indistinguíveis dos visitantes normais. Um conjunto de proxies deve incluir endereços IP residenciais de tantos locais diferentes quanto possível, para garantir boas velocidades e acesso a conteúdos com restrições geográficas. Por oferecerem os melhores resultados, não é de admirar que os proxies residenciais tenham também preços mais elevados.

Apague os seus rastros

Se um proxy funcionar bem, parecerá que o IP do seu bot é o seu endereço real. Isso é ótimo, mas um proxy não consegue esconder a forma como os bots funcionam, que é muito rápida. Assim, com um único proxy de alta qualidade, o IP do proxy acabará por ser bloqueado e voltará à estaca zero.

Se tiver vários proxies, pode alternar para um diferente a cada pedido, de modo a que a atividade de um bot muito ativo pareça um enxame de utilizadores diferentes. Se tudo correr bem, nenhum dos IPs será bloqueado e o web scraper fará o seu trabalho.

É possível alternar manualmente entre proxies, mas o processo é demorado e frustrante, o oposto do que a utilização de robôs deveria ser. Por isso, a maioria das ferramentas de web scraping que se preze dispõe de funcionalidades de rotação automática de proxies.

No caso da WebscrapingAPI, funciona assim: cada pedido que faz para cada página web é automaticamente enviado através de um endereço IP diferente. Mesmo que faça o scraping da mesma página cem vezes, o site registará isso como cem visitantes diferentes a aceder à página.

Em alguns casos, pode até ser que queira que o site o reconheça. Nessa situação, basta alterar um parâmetro na sua solicitação e utilizará o mesmo endereço IP ao voltar a visitar uma página.

A rotação dos seus proxies é absolutamente necessária se pretender extrair dados de várias páginas do mesmo site. A rotação automática de proxies tem como objetivo tornar o processo fácil e simples.

Palavras de conforto

Não há motivo para entrar em pânico quando um scraper é bloqueado por um site; desde que não estejamos a infringir quaisquer direitos de autor, contornar a restrição não significa que se esteja a fazer algo ilegal. Felizmente, a rotação de IP é uma solução rápida e eficiente para os scrapers bloqueados em todo o mundo.

Para começar a explorar o Happy Scraping, experimente o nosso plano gratuito e obtenha 1000 chamadas à API sem compromisso.

Sobre o autor
Anda Miuțescu, Redatora de Conteúdo Técnico @ WebScrapingAPI
Anda MiuțescuRedator de conteúdos técnicos

Anda Miuțescu é redatora de conteúdos técnicos na WebScrapingAPI, criando conteúdos claros e úteis que ajudam os programadores a compreender o produto e as suas funcionalidades.

Comece a construir

Pronto para expandir a sua recolha de dados?

Junte-se a mais de 2.000 empresas que utilizam a WebScrapingAPI para extrair dados da Web à escala empresarial, sem quaisquer custos de infraestrutura.