Guia para principiantes sobre a utilização de proxies para Web Scraping
Raluca Penciuc em 27 de abril de 2021
Embora os scrapers da Web não necessitem inerentemente de proxies para funcionarem, não é possível ir muito longe sem eles.
Por mais cuidadoso que seja e por mais que limite ou randomize a taxa de pedidos, mais cedo ou mais tarde acabará por ser bloqueado. E considere o seguinte: ao abrandar os seus pedidos, está a perder mais tempo. Não seria melhor obter alguns proxies, passar por eles e terminar o seu projeto antes da morte por calor do universo?
É o que pensamos, pelo menos.
De qualquer modo, nem todos os proxies são iguais. Os preços são diferentes, a velocidade é diferente e até as funcionalidades são diferentes. Neste artigo, vamos analisar essas diferenças e saber como escolher os proxies certos para qualquer projeto. Vamos lá?
Proxies - o pão e a manteiga da recolha de dados da Web
Comecemos por uma definição. Ao aceder a algo através da Internet (por exemplo, sítios Web ou aplicações), o seu endereço IP, um identificador único na Internet, é visível. Os proxies são intermediários entre si e o servidor pretendido que mascaram o seu IP (bem como outros identificadores) ao sítio Web, apresentando o seu próprio.
Em suma, os proxies ajudam-no a disfarçar a sua pegada digital. Mas porque é que isso é necessário para a recolha de dados da Web?
Na maioria das vezes, é necessário extrair dados de várias páginas do mesmo sítio Web. Os scrapers modernos podem fazer isso num piscar de olhos, mas os humanos reais não podem. Os sítios Web esperam ser visitados por humanos reais, não por robôs, pelo que, quando detectam robôs, podem bloqueá-los.
Os sítios Web mais avançados têm medidas de segurança adicionais para desencorajar os bots. Podem proibir preventivamente IPs proxy conhecidos, tornar o seu HTML mais difícil de compreender ou utilizar funcionalidades CAPTCHA complexas.
Com esses bloqueadores conhecidos, obter os dados desejados é uma questão de usar os proxies certos da maneira certa. Há muitas formas de catalogar os proxies pelo seu anonimato ou origem, mas apenas falaremos dos dois tipos mais importantes para a recolha de dados da Web: proxies de centros de dados e residenciais.
Proxies de centros de dados
Enquanto um IP normal estaria ligado a um fornecedor de serviços Internet, tal como qualquer utilizador normal da Web, os proxies de centros de dados são armazenados em massa num servidor em nuvem alojado por um terceiro.
Em termos simples, um grande servidor aloja milhares e milhares de proxies de centros de dados. Além disso, a infraestrutura de nível empresarial torna os proxies de centros de dados estáveis e rápidos, pelo menos os pagos.
Poderá encontrar proxies de centros de dados gratuitos para qualquer pessoa utilizar. Embora, em alguns casos, possam funcionar como anunciado, pode também estar a abrir-se aos piratas informáticos, pelo que deve ter cuidado. Além disso, como é gratuito para qualquer pessoa, quem sabe para que é que os outros utilizaram os IPs, pelo que podem já estar proibidos em muitos sítios Web. Como diz o velho ditado, recebes aquilo por que pagaste.
A abundância é agradável, mas também significa que todos esses IP partilham uma sub-rede, o que é menos agradável. A razão é simples - eles têm algo em comum, o que torna mais fácil para os sítios Web detectarem todos eles quando encontram um.
Vantagens do proxy de centro de dados
Em primeiro lugar, é o preço. Embora os custos variem entre os diferentes fornecedores de serviços, a regra geral é que encontrará proxies de centros de dados a preços melhores do que os proxies residenciais, que abordaremos em breve.
Tal como dissemos quando apresentámos o tipo de proxy, estes são construídos sobre boas bases tecnológicas, pelo que pode esperar uma excelente estabilidade e algumas das melhores velocidades que um proxy pode oferecer. A diferença entre 0,5 segundos e 0,9 segundos pode não parecer grande, mas faz sentido quando se efectuam milhares de pedidos por dia.
Outra vantagem de confiar em servidores topo de gama é que os seus pedidos são encaminhados através dos proxies mais próximos por defeito, aumentando ainda mais a velocidade. A Internet pode ser rápida, mas se estiver em Los Angeles e a página que está a extrair também estiver alojada nos EUA, é melhor encaminhar através de um proxy alojado na costa oeste e não na Costa do Marfim.
Desvantagens do proxy de centro de dados
Uma vez que não são alojados por nenhum ISP, os proxies de centros de dados não partilham IPs reais. O problema é que partilham uma sub-rede, um elemento comum que faz com que seja fácil para os sítios Web detectarem todos eles quando encontram um.
Embora os proxies de centros de dados estejam orientados para a velocidade, perdem alguns pontos quando se trata de imitar utilizadores reais. Isso pode ser um problema, uma vez que é mais provável que se depare com bloqueios durante a extração de dados. Um grande volume de proxies pode resolver ou pelo menos atenuar esse problema, mas lembre-se que mais proxies significam mais custos.
Quando utilizar proxies de centros de dados
Estes tipos de IPs funcionam bem para o seu sítio Web comum. Se não estiver a enfrentar sérias contramedidas de scraping, os proxies são uma solução económica para extrair dados sem correr o risco de o seu próprio IP ser bloqueado.
Se estiver a fazer scraping das mesmas páginas regularmente e souber que os proxies de datacenter são adequados, pode automatizar o processo e ter a certeza de que está a obter os dados necessários sem gastar muito.
Procurações residenciais
Estes tipos de IPs são os que tanto os humanos como os computadores associam mais aos utilizadores normais da Web. O proxy é alojado por um ISP e tem uma localização real. Nesse sentido, faz o melhor trabalho ao mascarar o seu IP real, o que, afinal, é o objetivo dos proxies.
Embora o fornecedor de serviços proxy não tenha de manter um grande servidor que aloje inúmeros IPs, tem de encontrar e incorporar muitos proxies residenciais, todos em locais diferentes. Na verdade, isso é bom para si, o utilizador, pois geralmente significa que terá acesso a muitas opções de geolocalização diferentes para contornar as restrições de conteúdo regionais.
Vantagens da procuração residencial
Em primeiro lugar, os IPs residenciais são os melhores dos melhores para não serem detectados e subsequentemente bloqueados. Para alguns, esse é o fator mais importante. Com um conjunto decente de proxies residenciais, poderá fazer scraping de praticamente tudo. Certifique-se apenas de que o faz de forma ética!
Outro ponto a seu favor é o facto de a maioria dos fornecedores de serviços ter proxies espalhados por muitos países, o que significa que não tem de se preocupar com restrições geográficas. Também é mais provável que tenha um proxy perto do local onde a página Web está alojada, para que os pedidos não demorem muito tempo.
Ao contrário dos IPs de centros de dados, que podem ser bloqueados em massa, todos os IPs residenciais são únicos. É muito menos provável que seja bloqueado desde o início, uma vez que não há forma de associar um IP residencial a outro, mesmo que utilize ambos.
Desvantagens da procuração residencial
Devido à dificuldade de criar um grande conjunto de proxies residenciais e à sua eficácia, é muito provável que sejam mais caros do que os IPs de centros de dados. A diferença pode não ser muito grande, mas, mais uma vez, é significativa quando se efectuam muitos pedidos por dia.
Uma vez que estará a trabalhar com IPs de muitos locais e fornecedores de serviços Internet diferentes, a velocidade pode variar de proxy para proxy e de pedido para pedido. Encontrar o fornecedor certo com os serviços mais fiáveis e rápidos é uma obrigação.
Quando utilizar mandatários residenciais
Este tipo de IP é considerado por muitos a melhor opção para a recolha de dados da Web. Tem os seus custos, mas os IP residenciais funcionam em praticamente qualquer página Web.
Sites como o Google, Amazon ou plataformas de redes sociais levam os bots muito a sério, por isso é muito provável que os IPs de centros de dados não sejam suficientes. É nessa altura que tem de recorrer aos IPs residenciais, que têm muito mais hipóteses de lhe fornecer os dados de que necessita.
Passar ao nível seguinte - Rotação de proxies
Com um proxy, não tem de se preocupar com o facto de o seu IP real ser bloqueado, mas pode ficar limitado no número de pedidos que pode enviar se utilizar apenas um proxy.
Depois, o próximo passo lógico é enviar pedidos de diferentes proxies, para que o sítio web veja diferentes utilizadores a aceder às suas páginas. Inteligente, certo? Mas o problema agora é que tem de mudar manualmente o IP, pelo que qualquer tempo que ganhe ao enviar pedidos mais rapidamente é perdido ao ligar os parâmetros do pedido.
No entanto, os web scrapers têm tudo a ver com a automatização de trabalhos aborrecidos, por isso, porque não automatizar o processo de mudança de proxies? Gostaríamos de lhe apresentar o conceito de rotação de proxies.
A ideia da rotação de proxies é que o fornecedor de serviços utilize uma funcionalidade para que, sempre que fizer um pedido a uma página Web, este passe por um IP diferente de cada vez. É o mesmo que mudar manualmente de proxies, mas sem qualquer incómodo, o que significa que pode enviar milhares de pedidos sem atrasos e sem receio de ser bloqueado.
Em certos casos, é necessário manter o mesmo IP para sessões consecutivas, se tiver de iniciar sessão no sítio Web, por exemplo. Nesse caso, basta definir sessões fixas em que utiliza sempre o mesmo IP para as páginas especificadas.
Em suma, os proxies rotativos são a cereja no topo do bolo de um bom conjunto de proxies que garante que obtém todos os dados de que necessita a tempo e sem ser bloqueado.
Então, onde é que os arranjo?
Existem muitos fornecedores de serviços proxy. A maioria está mais vocacionada para a navegação anónima, uma vez que é esse o objetivo dos proxies. Mas há outros negócios mais voltados para a raspagem da web. De facto, alguns produtos de extração de dados, incluindo a WebScrapingAPI, vêm com o seu próprio conjunto de proxies rotativos para conveniência dos utilizadores.
Nesta altura, está pronto para encontrar um prestador de serviços que o possa ajudar nos seus projectos, por isso, vá até lá e veja as suas opções! Aqui está uma boa lista de produtos para começar.
Notícias e actualizações
Mantenha-se atualizado com os mais recentes guias e notícias sobre raspagem da Web, subscrevendo a nossa newsletter.
We care about the protection of your data. Read our <l>Privacy Policy</l>.Privacy Policy.

Artigos relacionados

Saiba como usar o Playwright para raspagem e automação da Web com nosso guia abrangente. Desde a configuração básica até técnicas avançadas, este guia cobre tudo.


Um conjunto fiável de proxies é apenas o primeiro passo para a grandeza da recolha de dados da Web. O próximo é rodar esses proxies. Aqui está o que precisa de saber!


A seleção do proxy é um passo importante em qualquer projeto de recolha de dados da Web. Hoje, vamos comparar IPs dedicados e partilhados e propor-lhe alguns fornecedores.
