Voltar ao blogue
A ciência da extração de dados da Web
Raluca PenciucLast updated on Mar 31, 202619 min read

Proxies rotativos: tudo o que precisa de saber

Proxies rotativos: tudo o que precisa de saber

Quando começou a aprender os conceitos básicos do web scraping, teve aquele momento em que pensou: «Bolas, vou precisar de proxies para isto»? Bem, prepare-se para ter esse tipo de revelação novamente, porque os proxies rotativos representam o próximo nível em termos de funcionalidade de web scraping.

Não acredita em mim? Vamos ver os benefícios que os proxies trazem se não os rodar e, depois, as vantagens adicionais que obtém através da rotação. Eis o que os IPs não rotativos oferecem:

  • Podes tentar novamente fazer scraping de uma página/site depois de o IP inicial ter sido bloqueado.
  • Pode mudar manualmente de endereço para aceder a sites que usam geolocalização para restringir o conteúdo.
  • Não revela a sua localização real.
  • Ao adicionar um atraso na solicitação, pode extrair dados de sites com medidas anti-scraping.

Essas são, sem dúvida, vantagens importantes, mas vamos ver o que acontece quando adiciona uma nova reviravolta (trocadilho intencional):

  • O scraper envia pedidos continuamente até conseguir obter a informação de que precisa.
  • Pode aceder facilmente a conteúdos com restrições geográficas a partir de qualquer país onde tenha um proxy.
  • Os sites nem sequer sabem que estão a ser visitados por bots.
  • Pode obter dados de qualquer site sem ter de abrandar as solicitações.

Esta é apenas uma breve descrição das diferenças, mas é bastante impressionante, não é? Então, vamos aprofundar o assunto e descobrir como estes benefícios surgem!

O que são proxies rotativos?

Por proxies rotativos, entendemos o processo de alternar automaticamente de um IP para outro a cada pedido enviado. Em teoria, isto pode ser feito manualmente, mas significaria que não poderia colocar uma lista de URLs na fila para scraping. Em vez disso, teria de atribuir um proxy, enviar um pedido, atribuir outro proxy, enviar outro pedido e assim por diante. Espero que perceba como isso seria ineficiente.

Para a rotação automática de proxies, vai precisar de um novo intermediário, um proxy para o seu proxy, por assim dizer. Este novo intermediário é um servidor que tem acesso a todo o seu conjunto de proxies. Assim, em vez de ser você a pesquisar na lista de IPs, é o servidor que o faz por si. Basta dar-lhe o comando.

Aqui está um passo a passo do processo de scraping com um programa que alterna proxies:

  • O utilizador envia um pedido ao servidor de gestão de proxies.
  • O servidor escolhe um proxy aleatoriamente (a menos que seja especificado de outra forma) e envia a solicitação para ele.
  • O proxy envia então a solicitação para o destino final, a página web com os dados a extrair.
  • A resposta segue o mesmo caminho de volta até ao utilizador.

Estes quatro passos são repetidos até o utilizador ter toda a informação que deseja. Cada pedido passa por um novo proxy, simulando as ações de muitos utilizadores diferentes a ligarem-se a um site.

Portanto, essencialmente, a rotação de proxies não implica qualquer trabalho adicional da sua parte. É essa a beleza do sistema. Trata-se de mais automatização para uma ferramenta que já se destina a recolher toneladas de informação sem esforço por parte do utilizador.

É claro que, para a rotação de IP, precisa, antes de mais nada, de um conjunto de proxies. No entanto, como nem todos os proxies são iguais, também precisa de reunir os IPs certos. Aqui estão os dois principais candidatos:

Centro de dados vs. Residencial

Existem várias formas de classificar os proxies. Pode basear-se no anonimato, no acesso ou na origem. Este último fator é o mais importante para projetos de web scraping. Nesse sentido, os proxies são geralmente de datacenter ou residenciais. Vejamos cada um deles.

Proxies de datacenter em rotação

Os centros de dados têm esse nome devido à sua capacidade incomparável de armazenar e partilhar informações online. A expressão «armazenado na nuvem» é apenas uma forma mais concisa de dizer «armazenado num centro de dados, e pode aceder-lhe desde que tenha Internet». A versão mais curta soa muito melhor.

Os centros de dados são, essencialmente, enormes conjuntos de servidores interligados com uma capacidade de armazenamento combinada colossal e a infraestrutura necessária para os manter em funcionamento. Os proxies de centro de dados, como deve ter adivinhado, são alojados por estas estruturas. Para obter proxies, tem de criar um servidor virtual, instalar um sistema operativo nele e, em seguida, instalar software especializado para configurar IPs como proxies.

A chave para proxies de centro de dados eficientes é encontrar o equilíbrio certo entre servidores e IPs. Um servidor pode conter vários IPs, mas cada um cria mais sobrecarga. A certa altura, obterá rendimentos decrescentes do servidor e terá de criar um novo. Gerir servidores e IPs dá muito trabalho, por isso a maioria dos programadores prefere simplesmente alugar ou comprar estes proxies a empresas especializadas.

Os IPs não estão associados a um fornecedor de serviços de Internet. Em vez disso, lida-se com os proprietários do centro de dados ou com uma entidade terceira que utiliza espaço de armazenamento para configurar proxies e distribuí-los aos clientes.

São uma escolha popular para web scrapers porque:

  • São baratos em comparação com os IPs residenciais devido à forma como são configurados em massa;
  • A sua velocidade superior significa que pode recolher mais dados em menos tempo;
  • São muito fiáveis graças à infraestrutura sólida dos centros de dados;
  • É fácil comprar ou alugar em grande quantidade a partir do mesmo parque de servidores.

Claro que tudo tem as suas desvantagens. No caso dos proxies de centro de dados, estas são:

  • Os seus IPs são mais fáceis de detetar por sites vigilantes;
  • Todos os proxies do mesmo centro de dados partilham um identificador de sub-rede, tornando-os mais propensos a bloqueios generalizados.
  • É mais difícil criar um conjunto de proxies com IPs de todos os países, uma vez que os centros de dados são poucos.

Ao utilizar proxies de centro de dados rotativos, pode aceder e extrair dados da maioria dos sites com sucesso. Uma vez que cada novo pedido provém de um IP diferente, é relativamente difícil rastrear e bloquear o scraper.

Os sites avançados e populares são uma história diferente. A Amazon, o Google e outros nomes importantes enfrentam scrapers e outros bots diariamente. Como resultado, é muito mais provável que seja detetado. Além disso, os proxies de centro de dados correm sempre o risco de já estarem banidos, uma vez que todos os IPs do mesmo centro de dados partilham uma sub-rede.

O que mais importa é quem escolhe como seu fornecedor de serviços de proxy e como este gere os seus IPs. Por exemplo, os proxies de centro de dados da WebScrapingAPI são privados e garantem pouca ou nenhuma inclusão em listas negras.

Proxies residenciais rotativos

Se os centros de dados são a alternativa nova e de alta tecnologia, os IPs residenciais são a opção comprovada. Os IPs residenciais são dispositivos reais ligados à Internet através de um ISP. Estes proxies são praticamente indistinguíveis de utilizadores normais porque, num certo sentido, são exatamente isso.

Configurar um conjunto de proxies de centro de dados requer algum conhecimento de ciências da computação, dinheiro e o software certo. Por outro lado, reunir IPs residenciais é muito mais complicado. Primeiro, teria de convencer as pessoas a deixarem-no instalar software especializado nos seus dispositivos que lhe dá acesso à distância. Depois, elas teriam de deixar sempre os computadores ligados. Caso contrário, o proxy seria, por vezes, inutilizável.

Devido à inconveniência e ao grau de confiança necessário, é extremamente mais fácil para os programadores alugarem proxies residenciais a fornecedores de serviços dedicados.

Em comparação com os proxies de centros de dados, os IPs residenciais têm algumas vantagens fundamentais:

  • Os IPs residenciais são suportados por ISPs e parecem visitantes normais enquanto navegam na web, tornando o scraper mais difícil de detetar;
  • Cada IP é único, pelo que, mesmo que um proxy seja identificado e bloqueado, todos os outros continuam a ser utilizáveis;
  • É mais fácil preparar um conjunto de proxies a partir de uma vasta gama de localizações, garantindo um acesso mais fácil a conteúdos com restrições geográficas.

Apesar destes benefícios substanciais que tornam os proxies residenciais os melhores dos melhores em termos de eficácia, eles também apresentam algumas desvantagens:

  • Geralmente têm um custo mais elevado;
  • Devido à localização e à ligação à Internet do dispositivo, a velocidade das solicitações varia de IP para IP e é geralmente mais lenta do que a dos proxies de datacenter;
  • Tem de escolher cuidadosamente um fornecedor de proxies residenciais, certificando-se de que este oferece um bom número de IPs e que possui proxies nos países necessários para o seu projeto.

Os proxies residenciais, combinados com um sistema de rotação de IP e um script que alterna os cabeçalhos de solicitação (especialmente o user-agent), oferecem a melhor camuflagem. Com eles, o seu web scraper pode recolher dados sem encontrar barreiras, como bloqueios de IP ou CAPTCHAs.

Devido à sua autenticidade, os proxies residenciais são frequentemente utilizados para scraping de sites mais complexos, como motores de busca, grandes sites de comércio eletrónico ou plataformas de redes sociais. No entanto, se iniciar sessão nestes sites, desative a rotação de proxies para que todas as solicitações provenham do mesmo IP. Caso contrário, parecerá que o mesmo utilizador está a enviar solicitações de todo o mundo em questão de segundos, revelando que se trata de um bot.

Por que deve usar proxies rotativos para web scraping

Alguns sites tendem a ser alvos populares para os web scrapers. O Google, a Amazon e o Facebook vêm à mente. Estas plataformas esperam bots, por isso implementam métodos para os abrandar e parar. Com o aumento da popularidade que os web scrapers estão a experimentar, estas contramedidas estão a ser utilizadas por cada vez mais sites.

Neste contexto, está a tornar-se cada vez mais vital que faça a rotação dos seus IPs. Caso contrário, corre o risco de se deparar com bloqueios constantes de IP, captchas, e o seu conjunto de proxies torna-se lentamente ineficaz.

Contornar a limitação de pedidos

A limitação de pedidos é uma técnica através da qual os sites diminuem a velocidade a que os bots podem navegar. Em termos simples, limita o número de pedidos que um visitante pode fazer num determinado período de tempo.

Assim que o limite é atingido, o bot é redirecionado para uma página CAPTCHA. Se a sua ferramenta de web scraping não tiver capacidades de resolução de CAPTCHA ou estas falharem, o IP não pode continuar a fazer scraping nesse site.

A principal lição a reter aqui é que os sites monitorizam o número de pedidos enviados a partir de cada IP. Se os seus pedidos forem enviados a partir de vários endereços, a carga é partilhada entre eles. Eis um exemplo:

Se um site estiver configurado de forma a que, após 10 pedidos, o 11.º acione um CAPTCHA, isso significa que pode fazer scraping em 10 páginas antes de ter de parar e alterar manualmente o IP. Se estiver a recolher informações sobre preços, isso pode ser uma gota no oceano em comparação com o número total de páginas que pretende fazer scraping.

Ao alternar os seus proxies, elimina a necessidade de intervir manualmente. Poderá fazer scraping de dez vezes o número de proxies que possui. Assim, o único limite é o tamanho do conjunto de proxies, sendo cada IP utilizado em todo o seu potencial.

A melhor parte é que a limitação de pedidos restringe o número de visitas durante um período definido. Com um conjunto de proxies suficientemente grande, o temporizador dos proxies que já utilizou expirará antes de ter de os voltar a utilizar, proporcionando-lhe capacidades de rastreamento praticamente ilimitadas.

Distribua uniformemente as solicitações pelo conjunto de proxies

Seguindo a mesma lógica do ponto anterior, a rotação de proxies garante que não está a usar em excesso os mesmos IPs enquanto outros ficam ociosos. Em termos mais básicos, está a usar os seus recursos da forma mais eficiente possível. O resultado — poderá obter os mesmos resultados com um número menor de IPs.

Sem a rotação de proxies, está a utilizar o mesmo IP até este ser bloqueado, enquanto todos os outros proxies ficam a ganhar pó. Quando um deixa de funcionar, passa para o seguinte. Este método faz com que os proxies pareçam um recurso finito que se esgota para recolher dados. Isso não é necessário.

Com uma boa dispersão de localizações e distribuição entre centros de dados e endereços residenciais, um conjunto de proxies decente pode funcionar indefinidamente se rodar os IPs. Tudo o que precisa garantir é que nenhum proxy se destaque e corra o risco de ser bloqueado.

Na mesma linha, a rotação de proxies pode acelerar exponencialmente o processo de scraping. A chave aqui são os pedidos simultâneos. A maioria das APIs de web scraping pode enviar vários pedidos simultaneamente, sendo que o número depende do pacote escolhido.

Enviar 50 pedidos ao mesmo tempo para o mesmo site irá certamente levantar algumas suspeitas. Na verdade, é tão distante do comportamento normal de um utilizador que provavelmente será bloqueado imediatamente. Provavelmente consegue adivinhar onde isto vai dar. A rotação dos seus proxies é imprescindível, pois permite-lhe levar o scraper ao seu limite sem ser bloqueado.

Ajude o scraper a evitar a deteção

Já que estamos a falar de bloqueios, uma das vantagens mais significativas da rotação de proxies é o anonimato que ela garante. Vamos explicar melhor!

Os sites não gostam muito de ser visitados por bots. Podem estar a tentar impedir que recolha dados ou apenas a garantir que nenhum programa malicioso está a tentar bloquear os seus servidores. É por isso que implementam várias contramedidas para detetar e bloquear bots. Como os web scrapers navegam na Internet mais rapidamente do que os utilizadores normais, destacam-se. Recorde o exemplo das 50 solicitações simultâneas. De acordo com o Digital Experience Benchmark 2020 da ContentSquare, o utilizador médio passa 62 segundos numa única página. A diferença de comportamento é evidente.

Com proxies rotativos, alterna constantemente entre IPs e evita enviar inúmeras solicitações a partir de um único endereço. O resultado — o site vê o tráfego que geras como um grupo de visitantes separados, sem qualquer ligação entre eles.

Aceda a conteúdos com restrições geográficas

Um rotador de proxies não deve apenas trocar de IP aleatoriamente. Claro, às vezes isso é suficiente, mas uma funcionalidade mais avançada que deve procurar é a opção de rodar proxies de uma região específica.

Esta funcionalidade é essencial quando se tenta recolher informações relativas a uma única região. Dependendo da origem geográfica de um pedido, alguns sites podem:

  • Exibir dados específicos da origem do IP
  • Restringir o acesso porque a solicitação vem de um país bloqueado

Assim, ao rodar um conjunto diversificado de proxies, pode mitigar as desvantagens e, ao mesmo tempo, tirar partido das vantagens. Aplicado aos pontos anteriores, isso significa:

  • Obter uma melhor visão geral dos mercados estrangeiros através da obtenção de dados específicos de vários países;
  • Extrair informações que, de outra forma, seriam inacessíveis devido ao bloqueio de determinados países no site.

É importante manter-se atento e perceber quando os sites personalizam o seu conteúdo com base na origem do pedido. Estes sites têm o potencial de oferecer excelentes insights sobre os dados de um país. No entanto, se não souber que está a receber informações personalizadas, poderá acabar com imprecisões significativas nos seus dados.

Como utilizar proxies rotativos

Tal como os web scrapers, pode criar, gerir e utilizar um rotador de proxies por conta própria. Para isso, vai precisar de conhecimentos de programação (Python é ideal, pois possui muitas estruturas valiosas e uma comunidade ativa), alguns conhecimentos gerais de ciências da computação, uma lista de proxies e muita paciência.

A forma mais básica seria um script que recebe uma variável contendo a sua lista de proxies e atribui IPs aleatórios para cada pedido. Por exemplo, poderia usar a função random.sample() para escolher um IP de forma totalmente aleatória de cada vez, mas isso significa que o mesmo proxy pode ser usado várias vezes consecutivas. Nesse caso, pode configurar o sistema para que, depois de um IP ser utilizado, este seja retirado da lista de proxies, de modo a não voltar a ser utilizado até que todos os outros endereços também tenham sido utilizados.

Aqui está um pequeno exemplo em Python:

import random
import requests

proxy_pool = ["191.5.0.79:53281", "202.166.202.29:58794", "51.210.106.217:443", "5103.240.161.109:6666"]
URL = 'https://httpbin.org/get'

while len(proxy_pool) >0:
	random_proxy_list = random.sample(proxy_pool, k=1)
	random_proxy = {
		'http': 'http://' + random_proxy_list[0],
	}
	response = requests.get(URL, proxies=random_proxy)
	print(response.json())
	proxy_pool.remove(random_proxy_list[0])

O código apenas percorre o conjunto de proxies uma vez e faz-o para um único URL, mas deve ilustrar bem a lógica. A propósito, obtive os IPs em https://free-proxy-list.net/. Como era de esperar, não funcionaram.

Na verdade, esse é o problema de criar o seu próprio rotador. Continuará a precisar de bons IPs dedicados ou, pelo menos, partilhados. Uma vez que chegue ao ponto de comprar proxies, mais vale procurar uma solução que também rode os IPs por si. Desta forma, não gasta tempo extra a criá-la nem dinheiro extra a subcontratá-la. Além disso, obtém mais vantagens, como:

  • Uma opção rápida para rodar apenas IPs de uma região específica;
  • A possibilidade de escolher que tipos de proxies rodar (de centro de dados ou residenciais; fixos ou móveis; etc.)
  • Configurar IPs estáticos para quando estiver a fazer scraping atrás de um ecrã de login;
  • Repetir tentativas automaticamente com IPs novos quando uma solicitação falhar.

Vamos usar a WebScrapingAPI como exemplo de como é fácil fazer scraping de uma página com proxies rotativos. O código a seguir foi retirado diretamente da documentação, onde há muitos outros trechos semelhantes:

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
	"api_key":"XXXXXX",
	"url":"https://httpbin.org/get",
	"proxy_type":"datacenter",
	"country":"us"
}

response = requests.request("GET", url, params=params)

print(response.text)

Este é todo o código de que precisa para fazer scraping de um URL enquanto utiliza proxies de datacenter dos EUA. Note que não há nenhuma lista de IPs para alternar nem mesmo um parâmetro para isso. Isso porque a API alterna os proxies por padrão. Se quiser usar o mesmo IP para várias sessões, basta adicionar um novo parâmetro:

import requests

url = "https://api.webscrapingapi.com/v1"

params = {
 "api_key":"XXXXXX",
 "url":"https://httpbin.org/get",
 "proxy_type":"datacenter",
 "country":"us",
 "session":"100"
}

response = requests.request("GET", url, params=params)

print(response.text)

Basta usar o mesmo número inteiro para o parâmetro “session” para utilizar o mesmo IP estático para qualquer URL.

Os melhores fornecedores de proxies rotativos

Agora que já sabe como os proxies rotativos podem otimizar o processo de web scraping, o próximo passo deve ser escolher um fornecedor de proxies que se adapte às suas necessidades e recursos. Compilei uma lista dos meus favoritos com base em vários fatores diferentes: preços, localizações dos proxies e o número de proxies de datacenter e residenciais.

1. WebScrapingAPI

Deixe-me perguntar-lhe: o que é melhor do que obter proxies rápidos, eficientes e acessíveis para ligar ao seu web scraper?

A resposta — obter uma API de web scraping rápida, eficiente e acessível que faça tudo por si. Poderia falar sem parar sobre as funcionalidades de extração de dados da WebScrapingAPI, mas vamos concentrar-nos nos IPs por agora. O conjunto total de proxies tem mais de 100 milhões de IPs espalhados por todo o mundo.

Em vez de medir a utilização da largura de banda, pode escolher um pacote com um determinado número de chamadas de API. Cada chamada de API significa uma página extraída, cada uma através de um IP diferente, uma vez que, como mencionei, a rotação de proxies está ativada por predefinição.

Existem cinco pacotes à escolha, incluindo uma opção gratuita que lhe oferece 1.000 chamadas de API por mês (além do período de teste gratuito) para que possa formar a sua opinião sobre o produto. O preço começa nos 20 $ por 200.000 chamadas de API, e as tarifas tornam-se mais vantajosas para pacotes maiores. Para casos de utilização especiais, podemos trabalhar na criação de um plano personalizado que satisfaça as suas necessidades.

Se pretender extrair dados através de proxies de uma localização específica, tem várias opções à sua disposição. O conjunto de proxies de centros de dados está distribuído por 7 países, enquanto os IPs residenciais podem ser escolhidos entre 40 áreas diferentes. Se isso não for suficiente, pode optar por um pacote personalizado com a possibilidade de adicionar 195 outras localizações à sua lista.

2. Oxylabs

A Oxylabs adotou uma abordagem interessante em relação à rotação de IPs. Normalmente, quando escolhe um pacote, tem de rodar os IPs por conta própria, mas tem a opção de adquirir também o seu rotador de proxies como um complemento.

Embora alguns casos de utilização possam não depender muito da rotação de proxies, esta é imprescindível na extração de dados; por isso, se escolher os proxies da Oxylabs, adquira também o rotador.

A empresa oferece pacotes separados para proxies residenciais e de datacenter. O uso de IPs residenciais é cobrado com base na largura de banda utilizada, com o plano mais baixo a partir de 300 $ por mês para 20 GB de tráfego. Os proxies de datacenter têm largura de banda ilimitada, e os pacotes diferem no número de IPs que obtém. Estes começam em 160 $ por mês, e tem de escolher entre 100 IPs dos EUA ou 60 IPs fora dos EUA.

No total, dispõem de mais de 100 milhões de proxies residenciais e 2 milhões de proxies de centro de dados. Por isso, é improvável que fique sem IPs.

O conjunto de proxies está espalhado por uma área impressionante – 186 localizações diferentes. Embora todos esses países tenham IPs residenciais, não espere que todos eles tenham também proxies de datacenter.

3. Shifter

O Shifter aproveita ao máximo a infraestrutura de ponta por trás dos proxies de datacenter. Como resultado, eles também oferecem proxies de datacenter partilhados, além da opção de IP dedicado que já esperava.

Algo que gostamos na oferta do Shifter é o grande número de pacotes à escolha. Por exemplo, o plano de proxy partilhado mais pequeno começa nos 30 $ por mês para aceder a 10 proxies partilhados. No outro extremo do espectro, pode obter 1000 proxies partilhados por 2000 $. Em suma, tem opções.

Os proxies de datacenter dedicados são, como seria de esperar, mais caros, com o pacote mais barato a partir de 25 $ por 5 IPs aos quais só você tem acesso.

Se estiver interessado em IPs residenciais, os preços começam nos 250 $ por mês por 10 proxies backconnect especiais, o que significa que um servidor gere a rotação de proxies, para que não tenha de se preocupar com isso.

O seu conjunto de proxies contém mais de 31 milhões de IPs, e os utilizadores podem ver o número exato no seu painel de controlo.

A segmentação geográfica está disponível para qualquer país do mundo, mas há uma ressalva: só pode utilizá-la com endereços IP residenciais.

4. SmartProxy

Para além do seu impressionante conjunto de proxies, o SmartProxy inclui uma boa seleção de ferramentas. Estas incluem um gerador de endereços de proxy, extensões para o Chrome e o Firefox e um programa que o ajuda a navegar na Internet a partir de vários navegadores em simultâneo.

Mas voltemos aos proxies. O SmartProxy oferece aos seus utilizadores acesso a mais de 40 milhões de IPs residenciais, bem como a 40 mil proxies de centros de dados. Além destes, também fornecem proxies residenciais exclusivos concebidos para a extração de dados de motores de busca. Ao contrário das outras duas opções, cujo preço depende da largura de banda utilizada, os pacotes de proxies para motores de busca têm um número fixo de pedidos.

Embora a maioria dos IPs seja dos EUA, Reino Unido, Canadá, Alemanha, Índia e Japão, eles têm mais de uma centena de localizações com pelo menos 50 IPs.

Em termos de preço, os pacotes começam nos 50 $ por 100 GB de tráfego através de proxies de centros de dados ou nos 75 $ por 5 GB com proxies residenciais. Como seria de esperar, os planos mais abrangentes oferecem condições mais vantajosas.

5. Bright Data

A Bright Data oferece um impressionante conjunto de proxies composto por proxies de datacenter, residenciais e móveis. Em números, fica assim:

  • Mais de 700 000 IPs de datacenter
  • Mais de 72 000 000 de IPs residenciais
  • Mais de 85 000 IPs residenciais estáticos
  • Mais de 7 500 000 IPs móveis

São números elevados, sem dúvida. A desvantagem é que os preços também são bastante elevados. Embora existam alguns pacotes com preços fixos, é melhor utilizar a calculadora de preços para criar um plano personalizado à sua medida. Com esta calculadora, define quantos IPs pretende e uma largura de banda máxima por mês, e receberá o preço exato.

No que diz respeito à geolocalização, a Bright Data tem IPs em praticamente qualquer país do mundo. Eles têm uma página no seu site onde pode verificar as localizações. Se precisar de determinados tipos de proxies em áreas específicas, essa página será útil.

Como escolher um fornecedor de serviços de proxy

Uma das vantagens mais significativas do web scraping e dos proxies, em geral, é a variedade de opções.

Como a maioria das pessoas ou empresas tem um objetivo específico em mente, não é invulgar escolher um fornecedor e depois perceber que não é a escolha certa. Não é o ideal, mas acontece. Felizmente, a maioria das empresas oferece um período de teste, um pacote gratuito ou, pelo menos, uma política de reembolso.

Assim sendo, o melhor conselho que lhe posso dar é explorar as suas opções, dar uma vista de olhos, e certamente encontrará algo que seja adequado para si.

Além dos proxies, também vai precisar de um web scraper, certo? Bem, de entre todas as alternativas, aqui estão 10 produtos de extração de dados que merecem a sua atenção.

Se não tiver tempo, aqui fica uma recomendação resumida, só para si: comece o seu período de teste gratuito do WebScrapingAPI e não precisará de experimentar outros scrapers!

Sobre o autor
Raluca Penciuc, Desenvolvedor Full-Stack @ WebScrapingAPI
Raluca PenciucDesenvolvedor Full-Stack

Raluca Penciuc é programadora Full Stack na WebScrapingAPI, onde desenvolve scrapers, aperfeiçoa estratégias de evasão e procura formas fiáveis de reduzir a deteção nos sites-alvo.

Comece a construir

Pronto para expandir a sua recolha de dados?

Junte-se a mais de 2.000 empresas que utilizam a WebScrapingAPI para extrair dados da Web à escala empresarial, sem quaisquer custos de infraestrutura.