Gestão de proxy para Web Scraping: O que precisa de saber
Raluca Penciuc em Abr 21 2021
Se está a planear fazer scraping da Web num futuro próximo, precisa definitivamente de saber o que são proxies, para que são utilizados e porque são tão importantes no scraping da Web.
Tenha em consideração que gerir proxies por si próprio é uma tarefa que consome bastante tempo e pode ser mais difícil do que construir os próprios spiders. Mas fique connosco e descobrirá mais sobre proxies e como usá-los para fins de web scraping.
O que é um procurador?
Vamos dar um passo de cada vez. Para compreender o que é um proxy, primeiro é necessário saber o que é um endereço IP e para que é utilizado. Como o nome sugere, é um endereço único associado a cada dispositivo que se liga a uma rede de Protocolo de Internet, como a Internet.
123.123.123.123 é um exemplo de um endereço IP. Cada número pode variar de 0 a 255, pelo que pode ir de 0.0.0.0 a 255.255.255.255. Estes números podem parecer aleatórios, mas não o são, uma vez que são gerados matematicamente e atribuídos pela Internet Assigned Numbers Authority (IANA).
Pode pensar num proxy como um ponto de ligação intermédio entre si e a página Web que visita, tornando a sua navegação diária na Web mais segura e privada. Como é que funciona? Bem, os pedidos que está a enviar não verão o seu endereço IP pessoal, mas sim o dos proxies.
À medida que a tecnologia avança e todos possuem pelo menos um dispositivo, o mundo esgotou rapidamente os endereços IPv4 e está atualmente a fazer a transição para as normas IPv6. Apesar destas necessidades de mudança, o negócio de proxy ainda está a utilizar a norma IPv4. Se estiver interessado, aqui está um artigo sobre a diferença entre IPv4 e IPv6.
Porque é que é necessário um grupo de proxy para a recolha de dados da Web?
Agora que já percebemos o que são proxies, está na altura de aprender a utilizá-los durante o web scraping.
É relativamente ineficiente fazer scraping da Web utilizando um único proxy, uma vez que limita as suas opções de geotargeting e o número de pedidos simultâneos. Se o proxy for bloqueado, não poderá voltar a utilizá-lo para fazer scraping do mesmo sítio Web. Bem, nem todos os pedidos têm um final feliz.
Um conjunto de proxies gere um conjunto de proxies, e o seu tamanho pode variar com base nestes aspectos:
- Está a utilizar IPs de centro de dados, residenciais ou móveis? Se não sabe qual escolher, não se preocupe. Em breve falaremos sobre os tipos de proxy com mais detalhes.
- Que tipo de sítios Web pretende atingir? Os sítios Web maiores têm funcionalidades anti-bot, pelo que necessitará de um conjunto de proxies maior para contrariar esta situação.
- Quantos pedidos está a enviar? Se quiser enviar pedidos em massa, é necessário um grupo de proxy maior.
- Que tipo de funcionalidades pretende para o seu sistema de gestão de proxy? Rotação de proxy, atrasos, geolocalização, etc.
- Pretende proxies públicos, partilhados ou privados? O sucesso dos seus resultados depende da qualidade do seu grupo de proxies e da sua segurança, uma vez que os proxies públicos estão frequentemente infectados com malware.
Embora as funcionalidades de gestão sejam cruciais para um programa que utiliza proxies, o tipo e a qualidade dos referidos IPs são igualmente importantes. A primeira coisa a verificar quando se considera uma API para o trabalho é o tipo de proxies a que se terá acesso.
De que tipo de proxies necessita?
Existem três tipos principais de IPs à escolha, cada um com as suas vantagens e desvantagens, dependendo da utilização dos seus proxies.
IPs de centro de dados
Como o nome sugere, estes IPs provêm de servidores em nuvem e geralmente têm o mesmo intervalo de blocos de sub-rede que o centro de dados, o que os torna mais fáceis de detetar pelos sites que está a recolher. Note-se que os IPs do centro de dados não estão afiliados a um fornecedor de serviços Internet, ou ISP, para abreviar.
Estes proxies são normalmente utilizados porque são os mais baratos de comprar em comparação com as outras opções, mas podem fazer o seu trabalho muito bem com a gestão adequada dos proxies.
IPs residenciais
Estes são os IPs da rede pessoal de uma pessoa. Por esse motivo, adquiri-los pode ser mais difícil e, por isso, mais caro do que os IPs de centros de dados. Trabalhar com proxies residenciais pode levantar questões legais, uma vez que se utiliza a rede de um indivíduo para fazer scraping da Web ou qualquer outra coisa.
Os IPs de centros de dados podem alcançar os mesmos resultados, ser mais eficientes em termos de custos e não violar a propriedade de alguém, mas podem ter problemas em aceder a conteúdos com restrições geográficas.
As vantagens da utilização de proxies residenciais são a menor probabilidade de serem bloqueados pelos sítios Web que está a extrair. Pode aceder a conteúdos com restrições geográficas em todo o mundo, e são endereços IP totalmente legítimos provenientes de um ISP.
IPs móveis
Estes proxies são ainda mais difíceis de obter e, por isso, são ainda mais caros. A menos que precise de extrair resultados mostrados exclusivamente a utilizadores móveis, a utilização de IPs móveis não é recomendada. São ainda mais problemáticos no que diz respeito ao consentimento do proprietário desses dispositivos, uma vez que este nem sempre está totalmente ciente de que se está a fazer crawling na Web utilizando a sua rede GSM.
O que é necessário para utilizar eficazmente o pool de proxy?
Existem vários desafios e problemas com que se depara ao fazer scraping na Web. Para os contornar, vai precisar de algumas funcionalidades. Esteja atento a estas:
- Geolocalização: Em muitas situações, os sítios Web podem ter conteúdos acessíveis apenas a partir de uma localização geográfica específica, pelo que é necessário utilizar um conjunto específico de proxies para obter esses resultados.
- Atrasos: Ao adicionar atrasos aqui e ali, ajuda a esconder o facto de que está a extrair o seu sítio Web dos anti-bots.
- Tentar de novo: Mesmo que o seu pedido encontre um erro ou qualquer outro problema técnico, deve poder repetir o pedido utilizando proxies diferentes.
- Identificar os problemas: Para resolver um problema, é necessário saber qual é o problema. O proxy tem de notificar o erro que encontrou para que o possa corrigir, como captchas, honeypots, bloqueios, etc.
- Continuidade do proxy: Por vezes, é necessário manter uma sessão utilizando o mesmo proxy para o pedido de rastreio da Web. É obrigatório configurar o pool de proxy para esses casos.
- Funções anti-fingerprinting: Ao seguir o comportamento em linha, os sítios Web podem detetar bots. A API precisa de aleatorizar periodicamente os parâmetros seguidos para evitar ser identificada.
Penso que podemos concordar que ter um conjunto generoso de proxies torna o rastreio da Web mais eficiente, mas se os seus números excederem os 100, pode ser difícil de gerir. Teria de efetuar constantemente todos os passos mencionados acima. Então, qual é a solução?
Pode uma API facilitar a gestão de proxy?
Gerir um pool de proxy por si só pode ser bastante moroso. Já pensou em utilizar uma API?
Desta forma, não terá de se preocupar com anti-bots ou com a infeção das suas máquinas com malware e outros vírus, nem com o tamanho do seu conjunto de proxies e respectivas composições. Caraterísticas como a rotação de proxy, evitar a impressão digital do navegador, configuração de geolocalização, etc., são geridas automaticamente por uma API bem desenvolvida.
A utilização de uma API pode exigir um investimento, como uma subscrição mensal para utilizar os seus serviços, mas pode poupar mais dinheiro e tempo do que fazê-lo você mesmo.
Que mais pode fazer uma API?
Como já deve ter reparado, a recolha de dados da Web pode ser bastante difícil na ausência de um conjunto de proxy corretamente gerido, uma vez que há muitas caraterísticas a ter em conta. Utilizar uma API pré-construída não será uma abordagem mais eficiente? Algumas APIs podem tratar não só dos seus proxies, mas também fazer a recolha de dados por si. É como matar dois coelhos com uma cajadada só!
Espero que este artigo tenha esclarecido a diferença entre os tipos de proxy e a sua importância quando se utiliza um Web scraper. Este é apenas um dos muitos sectores em que as APIs tornam o trabalho mais fácil, mais rápido e mais agradável. À medida que a tecnologia e o software melhoram, as APIs continuarão a ser cruciais para manter tudo ligado e funcional.
Se estiver interessado em saber mais, deve ler o nosso artigo introdutório sobre os diferentes tipos de APIs, as suas utilizações e o seu papel no desenvolvimento de software.
Notícias e actualizações
Mantenha-se atualizado com os mais recentes guias e notícias sobre raspagem da Web, subscrevendo a nossa newsletter.
We care about the protection of your data. Read our <l>Privacy Policy</l>.Privacy Policy.

Artigos relacionados

Explore o poder transformador da recolha de dados da Web no sector financeiro. Desde dados de produtos a análises de sentimentos, este guia oferece informações sobre os vários tipos de dados da Web disponíveis para decisões de investimento.


Saiba como usar proxies com Axios e Node.js para uma raspagem eficiente da Web. Dicas, exemplos de código e os benefícios de usar WebScrapingAPI incluídos.


Maximize seu sucesso na raspagem da Web com o C# HttpClient e Proxies. Saiba como contornar restrições e aceder a dados com facilidade neste guia passo-a-passo.
