Voltar ao blogue
A ciência da extração de dados da Web
Raluca PenciucLast updated on May 13, 202612 min read

O que são proxies rotativos? Guia de rotação de IP para Web Scraping

O que são proxies rotativos? Guia de rotação de IP para Web Scraping
Resumo: O que são proxies rotativos, em poucas palavras? São servidores proxy que atribuem um endereço IP diferente a cada pedido a partir de um conjunto gerido, permitindo que os scrapers contornem limites de taxa por IP, CAPTCHAs e filtros geográficos. Este guia aborda o funcionamento da rotação, os quatro tipos de conjuntos, código de configuração em três linguagens de programação e como escolher um fornecedor.

O que são proxies rotativos? Numa frase: servidores proxy que trocam automaticamente o seu IP de saída a partir de um conjunto gerido, seja em cada pedido ou após um intervalo de tempo configurável. Esse único truque é o que torna o scraping web em grande escala, o rastreio de SERP e a verificação de anúncios práticos, sem que os seus scrapers sejam bloqueados após as primeiras centenas de pedidos.

Se já passou algum tempo a fazer scraping, já sentiu o modo de falha. Um IP, um User-Agent fixo e o sistema anti-bot do alvo fecha a porta em menos de um minuto. Um proxy rotativo resolve a parte do IP desse problema, distribuindo as solicitações por muitos endereços, para que nenhum IP isolado pareça suspeito o suficiente para ser banido.

Este guia é a versão prática do tema. Iremos definir um proxy rotativo, distingui-lo de proxies estáticos e VPNs, percorrer os quatro tipos de pool que irá ver hoje, mostrar código de configuração funcional em cURL, Python e Node.js, e terminar com uma lista de verificação para o comprador e os erros comuns que comprometem a rotação na prática.

O que são proxies rotativos? Uma definição em linguagem simples

Um proxy rotativo é um servidor proxy que atribui automaticamente um IP de saída diferente a cada pedido, ou após um intervalo de tempo definido, recorrendo a um conjunto gerido de endereços. Em vez de encaminhar o seu tráfego através de um IP fixo, o fornecedor situa-se entre si e o site de destino, troca o IP em tempo real e expõe um único ponto de extremidade de gateway ao seu código.

Assim, quando os programadores perguntam o que são proxies rotativos em termos práticos, a resposta curta é: uma forma de distribuir pedidos por vários IPs sem ter de escrever a sua própria lógica de rotação. Essa única escolha arquitetónica é o que torna a extração em grande escala, os testes geograficamente distribuídos e a evasão anti-bot viáveis para uma equipa pequena.

Proxies rotativos vs. estáticos: principais diferenças

Aspecto

Proxy rotativo

Proxy estático

IP por pedido

Novo IP de um conjunto

O mesmo IP fixo

Persistência de sessão

Apenas com o modo sticky

Sim, por predefinição

Resistência ao ban

Elevada

Baixa, uma vez sinalizada

Modelo de custos

Por GB ou por pedido

Por IP por mês

Ideal para

Rastreamento, SERP, monitorização

Inícios de sessão, aplicações de conta

Um proxy de sessão fixa é o meio-termo: um fornecedor rotativo que mantém o mesmo IP durante um período configurável. A maioria dos debates entre proxies estáticos e rotativos desaparece assim que se percebe que as sessões fixas preenchem essa lacuna.

Como a rotação de proxies funciona na prática (baseada em pedidos vs. baseada no tempo)

A rotação funciona num de dois modos. A rotação baseada em pedidos troca o IP de saída em cada nova ligação TCP. O gateway do fornecedor aceita o seu pedido, escolhe um IP do conjunto, abre uma ligação ao destino e devolve a resposta. O pedido seguinte é encaminhado para um IP diferente.

A rotação baseada no tempo, ou modo de sessão fixa, mantém o mesmo IP durante um intervalo configurável, geralmente de 30 segundos a 30 minutos. Ativa esta opção anexando um ID de sessão ao seu nome de utilizador do proxy, o que indica ao gateway para manter essa sessão num único IP de upstream até que o intervalo expire. Em ambos os modos, a lógica de rotação reside no gateway de backconnect do fornecedor, pelo que nunca tem de alterar a lista de proxies subjacente.

Tipos de proxies rotativos

A composição do conjunto varia, assim como a fiabilidade, a velocidade e o preço. As quatro categorias que encontrará atualmente são: residenciais, de centro de dados, móveis e ISP. As definições dos fornecedores ainda variam entre os diferentes prestadores.

Proxies residenciais rotativos

Os proxies residenciais rotativos utilizam IPs que os ISP atribuem a residências reais. Como o IP está registado a um assinante real, os servidores finais não conseguem perceber facilmente que existe um proxy à sua frente, e a rotação faz com que o tráfego pareça provir de muitos utilizadores residenciais separados, em vez de um único cliente ativo. Esse é o sinal de confiança prático mais elevado, a seguir ao móvel. A contrapartida é o custo e a velocidade: a largura de banda residencial é mais difícil de obter do que a capacidade de um centro de dados, pelo que os preços por GB são mais elevados. Escolha um fornecedor com um conjunto de proxies baseado em consentimento transparente, uma vez que a situação legal do seu scraper depende disso.

Proxies de centro de dados rotativos

Os proxies de datacenter rotativos são emitidos a partir de servidores em instalações de nuvem ou de alojamento. São rápidos e baratos, razão pela qual dominam a recolha de dados ligeira e o rastreamento de grande volume contra alvos menos defendidos. Mas cada IP de centro de dados possui um ASN que os sistemas anti-bot podem identificar, e os fornecedores que levam a sério o banimento de proxies podem bloquear faixas inteiras de forma generalizada. Utilize-os quando a velocidade for mais importante do que a discrição e mantenha uma alternativa residencial pronta para o momento em que a sua taxa de sucesso diminuir.

Proxies móveis rotativos

Os proxies móveis rotativos são encaminhados através de IPs atribuídos por operadoras móveis. Como as operadoras reutilizam o mesmo IP em muitos assinantes através do CGNAT, os endereços móveis são muito difíceis de identificar como pertencentes a um único utilizador. Alguns fornecedores descrevem-nos como quase indetetáveis, embora isso dependa do alvo e do resto da sua impressão digital. São a opção mais lenta e mais cara, por isso reserve-os para os alvos mais difíceis, como plataformas sociais e lançamentos de ténis.

Proxies ISP rotativos

Os proxies ISP rotativos situam-se entre os dois: alojados num centro de dados, mas registados num ISP real, mantendo a velocidade do centro de dados enquanto herdam um sinal de confiança mais próximo do residencial. As definições dos fornecedores para esta categoria ainda estão em evolução no momento da redação deste artigo, por isso confirme como um fornecedor classifica um determinado conjunto antes de comprometer o orçamento.

Quando e porquê usar um proxy rotativo

Raramente precisa de um proxy rotativo para um único curl. Precisa de um quando um fluxo de trabalho ultrapassa dois limites: volume suficiente para que um único IP seja limitado em termos de taxa, ou sensibilidade suficiente para que o alvo identifique os clientes. Então, para que servem realmente os proxies rotativos? Use o mapa por tarefa:

  • Scraping em grande escala e monitorização de preços. Residenciais para catálogos protegidos, datacenter para o resto.
  • Rastreamento de SERP e resultados de pesquisa. Residenciais rotativos ou ISP; os motores de busca sinalizam os intervalos de datacenter de forma agressiva.
  • Verificação de anúncios e proteção da marca. Residenciais rotativos com segmentação geográfica por mercado.
  • Compra de ténis e venda de bilhetes. Rotativos móveis; esses sites são os que mais se baseiam na reputação do IP.
  • Automatização de redes sociais. Rotatividade móvel com sessões persistentes por conta.
  • Testes de controlo de qualidade e localização. Qualquer tipo de rotação com controlos geográficos ao nível do país.

Prós e contras dos proxies rotativos num relance

O que é que os proxies rotativos lhe oferecem na prática? Aqui está uma análise honesta.

Prós

  • Elevada resistência a bloqueios de IP, uma vez que o tráfego se distribui por vários endereços.
  • Fácil de escalar; o fornecedor gere o conjunto de endereços por si.
  • Diversidade geográfica integrada para dados específicos de cada região.
  • Frequentemente, a única forma prática de contornar limites de taxa por IP e CAPTCHAs.

Contras

  • Mais lento por pedido do que um proxy estático no mesmo caminho.
  • Inadequado para sessões com início de sessão sem o modo «sticky».
  • Custo por GB mais elevado do que os proxies de centro de dados estáticos.
  • Mais difícil de depurar, uma vez que duas falhas raramente partilham um IP.

Como configurar um proxy rotativo (com exemplos de código)

O padrão é o mesmo em todas as pilhas: aponte o seu cliente HTTP para o gateway de um fornecedor, autentique-se com o seu nome de utilizador e palavra-passe e deixe o fornecedor rodar os IPs. Para fixar uma sessão sticky, acrescente um ID de sessão ao nome de utilizador. Eis como se apresentam os proxies rotativos no código.

cURL

curl --proxy "http://USER-session-12345:PASS@gateway.example.com:8000" \
     https://httpbin.org/ip

Python (requests)

import requests

proxy = "http://USER-session-12345:PASS@gateway.example.com:8000"
proxies = {"http": proxy, "https": proxy}

r = requests.get("https://httpbin.org/ip", proxies=proxies, timeout=10)
print(r.json())

Node.js (axios)

import axios from "axios";
import { HttpsProxyAgent } from "https-proxy-agent";

const agent = new HttpsProxyAgent("http://USER-session-12345:PASS@gateway.example.com:8000");
const { data } = await axios.get("https://httpbin.org/ip", { httpsAgent: agent });
console.log(data);

Retire o -session-12345 segmento para voltar à rotação por pedido.

Alternativas aos proxies rotativos

Nem todas as tarefas exigem um conjunto de rotação gerido. As alternativas realistas:

  • Proxies estáticos ou fixos, juntamente com um rotador de IP. Útil se já tiver um intervalo de endereços de centro de dados limpo e pretender rotação a pedido.
  • VPNs. Elas ocultam o seu IP e encriptam o tráfego, mas a maioria não roda automaticamente e as poucas que o fazem são geralmente demasiado lentas para a recolha de dados.
  • Tor. Gratuito e rotativo por definição, mas lento e amplamente bloqueado. Raramente é a escolha certa para produção.
  • APIs de scraping geridas. Ocultam a rotação, os cabeçalhos e a resolução de CAPTCHA por trás de um único ponto de acesso, cobradas por sucesso.

Como escolher um fornecedor de proxies rotativos

Depois de saber o que são proxies rotativos, escolher o melhor fornecedor de proxies rotativos para a sua pilha resume-se a cinco verificações:

  • Tamanho do conjunto e cobertura geográfica. A cobertura nos seus países-alvo é mais importante do que o número de IPs apresentado.
  • Origem ética. Confirme se os conjuntos residenciais são criados com consentimento informado.
  • Controlos de rotação. Tanto as janelas fixas por pedido como as configuráveis devem estar documentadas.
  • Concorrência e taxa de sucesso. Solicite um teste com o seu alvo real antes de assinar.
  • Modelo de preços. O modelo por GB é adequado para HTML denso; o modelo por pedido é adequado para alvos do tipo API.

Os proxies rotativos são legais e seguros de usar?

Na maioria das jurisdições, utilizar um proxy para aceder a páginas web publicamente disponíveis é geralmente legal, embora as leis locais e os contratos possam alterar isso. A legalidade é independente dos termos de serviço de um alvo, que podem ainda assim proibir a extração de dados. O maior risco no dia-a-dia é de que proxies utiliza: os conjuntos públicos gratuitos têm sido associados à interceção de tráfego e à injeção de anúncios, por isso opte por fornecedores comerciais comprovados.

Erros comuns a evitar com proxies rotativos

  • Alternar IPs enquanto reutiliza cabeçalhos, cookies ou impressão digital TLS.
  • Ignorar sessões persistentes nos fluxos de login.
  • Rotação excessiva em APIs com limitação de taxa que se baseiam na conta, e não no IP.
  • Confiar em listas de proxies gratuitas para qualquer coisa sensível.

Pontos-chave

  • Os proxies rotativos ficam atrás de um único ponto de extremidade de gateway e trocam o IP a montante por pedido ou por janela de sessão persistente.
  • Os quatro tipos de pool — residencial, datacenter, móvel e ISP — envolvem um equilíbrio entre confiança, velocidade e custo; escolha com base no objetivo, e não por hábito.
  • As sessões persistentes não são opcionais para inícios de sessão; a rotação sem o modo persistente irá desligá-lo a meio de uma tarefa.
  • A rotação só ajuda se o resto da sua impressão digital também rodar, por isso, faça corresponder os cabeçalhos e o perfil TLS ao IP.
  • Ao comprar, avalie o tamanho do pool, a ética de fornecimento, os controlos de rotação, a taxa de sucesso no seu alvo e o modelo de preços.

Perguntas frequentes

Com que frequência um proxy rotativo muda realmente de endereço IP?

Por predefinição, os pools baseados em pedidos alteram os IPs em cada nova ligação TCP, o que normalmente significa uma vez por pedido HTTP. Os pools baseados em tempo mantêm o mesmo IP durante um intervalo configurável, frequentemente de 30 segundos a 30 minutos. O intervalo real depende do fornecedor e de se definiu um identificador de sessão no nome de utilizador do proxy.

Os sites ainda conseguem detetar que estou a usar um proxy rotativo?

Às vezes. O IP é um sinal, não o quadro completo. Os sistemas anti-bot também inspecionam cabeçalhos, impressões digitais TLS, cookies, padrões de navegação e desafios JavaScript. Se você alternar IPs, mas reutilizar o mesmo User-Agent e comportamento, os sistemas de deteção ainda irão sinalizar a sua atividade. A rotação funciona melhor em conjunto com a aleatorização de cabeçalhos, impressões digitais de navegador realistas e tempo de solicitação em ritmo humano.

Preciso de um proxy rotativo se estiver apenas a fazer scraping de algumas centenas de páginas?

Provavelmente não, se o alvo não tiver proteção anti-bot e as suas solicitações forem educadas. Um único IP residencial ou de escritório geralmente lida com algumas centenas de solicitações com atrasos razoáveis. Começa a precisar de rotação quando ultrapassa milhares de solicitações por hora, acede a um alvo protegido ou precisa de IPs de vários países.

Posso usar proxies rotativos com navegadores headless como o Playwright, o Puppeteer ou o Selenium?

Sim. Os navegadores headless aceitam um proxy HTTP através de um sinalizador de inicialização. No Playwright, passa-se proxy: { server, username, password } no lançamento; o Puppeteer requer --proxy-server além de autenticação por página; o Selenium usa um Proxy objeto nas capacidades do driver. Use um ID de sessão fixo para que o carregamento de uma única página permaneça num IP consistente.

Como faço para manter o mesmo IP em várias solicitações quando realmente preciso de uma sessão?

Utilize sessões persistentes, que a maioria dos fornecedores disponibiliza anexando um identificador de sessão ao seu nome de utilizador do proxy. O gateway encaminha então todas as solicitações que transportam esse identificador através do mesmo IP de origem até que a janela expire, normalmente de 1 a 30 minutos. Isso mantém logins, formulários de várias etapas e carrinhos de compras num único endereço, enquanto o resto do seu tráfego é redirecionado.

Conclusão

O que são, em última análise, os proxies rotativos? Uma superfície de controlo, não uma funcionalidade. É você que decide se cada pedido recebe um IP novo, se um fluxo de trabalho necessita de uma janela fixa, que tipo de pool o seu alvo merece e quais os sinais para além do IP, cabeçalhos, TLS e cookies que devem rodar em conjunto com ele. Tome estas quatro decisões corretamente e a maioria dos scrapers deixará de ser bloqueada.

O mercado de proxies está fragmentado e os modelos de preços variam muito, por isso resista à tentação de escolher apenas com base no tamanho do pool anunciado. Faça um teste pago no seu alvo real, avalie a taxa de sucesso e o custo por pedido bem-sucedido, e compare em condições equivalentes antes de se comprometer.

Se estiver a escalar um pipeline que necessita de rotação de IP fiável, os proxies residenciais rotativos da WebScrapingAPI cobrem 195 países com modos tanto por pedido como de sessão fixa, para que possa inserir a camada de proxy no seu código de scraper existente e continuar a avançar. Comece por aí se quiser um conjunto gerido, ou crie o seu próprio com o padrão de gateway mostrado acima, se já tiver IPs em que confia.

Sobre o autor
Raluca Penciuc, Desenvolvedor Full-Stack @ WebScrapingAPI
Raluca PenciucDesenvolvedor Full-Stack

Raluca Penciuc é programadora Full Stack na WebScrapingAPI, onde desenvolve scrapers, aperfeiçoa estratégias de evasão e procura formas fiáveis de reduzir a deteção nos sites-alvo.

Comece a construir

Pronto para expandir a sua recolha de dados?

Junte-se a mais de 2.000 empresas que utilizam a WebScrapingAPI para extrair dados da Web à escala empresarial, sem quaisquer custos de infraestrutura.