Como um scraper pode visitar um site cem vezes por dia, isso pode acionar um software de identificação de scrapers para sinalizar um comportamento de navegação inadequado, resultando no banimento do IP.
Por isso, seria muito vantajoso utilizar um servidor proxy para manter o seu scraper anónimo, ocultando o endereço IP original.
Um proxy funciona como um intermediário entre si e a Internet. Quando utiliza um servidor proxy, o pedido é filtrado primeiro através do servidor proxy (alterando o seu endereço IP) e só depois chega ao site.
Um conjunto de proxies robusto é uma funcionalidade essencial que consegue evitar o bloqueio rápido, alternando de forma inteligente os IPs utilizados para as solicitações.
Escolher o tipo certo de proxy é apenas a ponta do iceberg. Embora, ao usar um proxy, a probabilidade de ser detetado seja comparativamente baixa, a ameaça ainda existe. Por isso, a qualidade de um conjunto de proxies pode ser determinada pela frequência com que é detetado.
Proxy IP residencial: Para quem quer garantir que nunca será bloqueado, um proxy IP residencial é a melhor opção. Este tipo de proxy vem apenas com endereços IP legítimos que farão com que pareça que uma pessoa real está a navegar no site, mantendo os detetores de bots tranquilos e alheios.
IPs móveis: Como os proxies funcionam como um «túnel» entre os web scrapers e os sites, o proxy móvel protege o endereço IP e a localização do bot de web scraping, permitindo que se assemelhe a um indivíduo anónimo. Além disso, os proxies protegem o scraper, fazendo parecer que os pedidos provêm de um dispositivo móvel.
IPs de centro de dados: Os IPs de centro de dados são a solução normalmente recomendada na maioria dos casos. O que os torna uma boa opção é o facto de proporcionarem os melhores resultados ao menor custo. Estes IPs oferecem resultados comparáveis aos proxies residenciais ou aos IPs móveis, mas sem preocupações legais.