Os proxies, na sua essência, destinam-se a mascarar o seu IP real. Além disso, são cruciais para aceder a conteúdos com restrições geográficas, uma vez que os sites pensam que os seus pedidos provêm de regiões diferentes. O exemplo mais conhecido disso são os sites de streaming. A série «The Office», por exemplo, está disponível na Netflix apenas no Reino Unido e na Irlanda, mas se obtiver um proxy do Reino Unido, pode ver a série a partir de qualquer lugar.
No web scraping, o conjunto de proxies é um dos componentes mais críticos. São utilizados para fazer parecer que as solicitações do bot vêm de diferentes locais e em momentos diferentes. Esta é a sua primeira linha de defesa contra bloqueios de IP. Além disso, se falhar, o seu IP real não será impedido de aceder ao site.
Os web scrapers, e os bots em geral, podem enviar montes de pedidos muito rapidamente. É isso que os torna tão desejáveis para a recolha de dados. Mas, esta velocidade é muitas vezes a sua ruína. Os sites podem determinar se os pedidos vêm de uma pessoa legítima ou de um bot pelo seu comportamento. Por exemplo, um humano nunca iria pedir 25 páginas em menos de um segundo.
Adicione um proxy no meio, ou melhor ainda, um conjunto completo de proxies, e de repente terá mais opções. Ao distribuir as solicitações por vários proxies, está a alterar o que o site vê. Ou seja, em vez de um IP enviar 100 solicitações de uma só vez, agora são 10 IPs a enviar 10 solicitações cada. Idealmente, deve enviar cada solicitação através de um proxy diferente.
Pode pensar que mudar constantemente de IP é uma tarefa árdua, e tem razão. É por isso que os fornecedores de serviços de proxy criaram a rotação de proxies — um sistema automatizado que altera os IPs por si. A rotação de proxies é a melhor forma de garantir que está a utilizar todos os seus IPs em todo o seu potencial.
Na verdade, o scraping em grande escala é quase impossível sem um grande conjunto de proxies rotativos. É importante controlar o ritmo, e prestar atenção ao número de pedidos que pode enviar num determinado período de tempo pode fazer toda a diferença no seu progresso. Quanto mais vasto for o seu conjunto de proxies, mais pedidos poderá enviar sem levantar suspeitas. O resultado é claro: é muito menos provável que seja bloqueado.