Voltar ao blogue
A ciência da extração de dados da Web
Robert MunceanuLast updated on Apr 10, 20269 min read

As 7 melhores listas de proxies gratuitos para web scraping

As 7 melhores listas de proxies gratuitos para web scraping

No web scraping, ou se usa proxies ou não se faz um bom trabalho na extração de dados. É claro que talvez não seja necessário um proxy de backconnect com milhares de IPs de centros de dados e residenciais, mas vai precisar, pelo menos, de alguns proxies básicos.

O grande problema para quem faz web scraping por hobby ou para principiantes é que os IPs normalmente custam dinheiro. Felizmente, existem proxies gratuitos. Na verdade, há bastantes opções por onde escolher. Explorámos algumas delas e escolhemos as 7 melhores para que obtenha apenas qualidade, pelo menos no que diz respeito a proxies gratuitos.

Na verdade, antes de entrarmos na lista, devemos rever alguns detalhes. Os proxies gratuitos são ótimos porque não tem de investir dinheiro, mas não são perfeitos.

As vantagens e desvantagens dos proxies gratuitos

Em primeiro lugar, são gratuitos. Isso é um pouco óbvio, mas é uma vantagem significativa. Pense nisto: pode seguir qualquer um dos guias do nosso blogue, programar o seu scraper e, em seguida, utilizá-lo em conjunto com os proxies.

Há muito a dizer sobre os benefícios dos proxies na extração de dados da web, e não vamos abordá-los neste artigo. Mas, se quiser saber mais, consulte este artigo sobre proxies rotativos, no qual apresentamos exatamente a grande diferença que um conjunto de IPs pode fazer.

Infelizmente, essa é praticamente a única vantagem que os proxies gratuitos têm sobre os outros. Agora, vamos às desvantagens.

Uma vez que estes IPs estão disponíveis gratuitamente, toda a gente sabe da sua existência. Por isso, é provável que os sites já conheçam os endereços e já os tenham bloqueado. Ou alguém já tentou aceder ao site em que está interessado e o IP foi banido, ou o webmaster descobriu o fornecedor de proxies gratuitos, copiou todos os IPs e adicionou-os a uma lista negra. Não é sempre assim, mas acontece frequentemente.

Os IPs gratuitos são frequentemente lentos e carecem de anonimato. A manutenção de proxies custa dinheiro, pelo que não se pode esperar seriamente obter IPs de alta qualidade sem qualquer custo. Como diz o ditado, recebe-se aquilo pelo qual se paga.

Os proxies gratuitos podem expô-lo a hackers. Como acabei de dizer, é um pouco invulgar alguém oferecer endereços gratuitos sem pedir nada em troca. Uma razão maliciosa pela qual alguém pode fazer isto é para monitorizar e copiar as informações que passam pelo proxy. Depois disso, podem usar essas informações para fins maliciosos. Mais uma vez, isto não é uma garantia, mas deve manter-se em guarda.

1. WebScrapingAPI

O grande fator que distingue a WebScrapingAPI dos outros fornecedores desta lista é que a API utiliza apenas proxies premium. Isso inclui IPs residenciais e de centros de dados, com muitas opções de geolocalização (7 para centros de dados, 40 para residenciais e mais de 200 para planos personalizados). Embora existam planos pagos, que variam entre 20 e 200 dólares, qualquer novo utilizador recebe um período de teste gratuito de duas semanas, durante o qual pode utilizar qualquer uma das funcionalidades da API.

A rotação de proxies é gerida automaticamente pela API, pelo que, a menos que solicite especificamente o contrário, todos os pedidos passarão por IPs diferentes. Além disso, pode enviar até 10 pedidos simultâneos, o que significa que pode utilizar o conjunto de proxies em toda a sua extensão, extraindo dados a velocidades vertiginosas.

Naturalmente, a WebScrapingAPI não oferece apenas proxies, mas também acesso ao scraper. Assim, obtém todas as funcionalidades de uma ferramenta premium de extração de dados sem escrever uma única linha de código.

Quando o período de avaliação gratuita terminar, não terá de gastar um cêntimo, a menos que queira, pois será transferido para o pacote gratuito, com 1000 chamadas de API por mês durante o tempo que desejar.

2. ProxyScan

O ProxyScan é uma coleção de ferramentas úteis reunidas num único site. Em primeiro lugar, destaca-se a lista de proxies. Eles afirmam ter mais de 12 000 proxies no total. Embora seja um número impressionante, pelo que pude perceber, o número pode ser um pouco menor, possivelmente porque os proxies gratuitos estão constantemente a aparecer e a desaparecer, pelo que o número pode variar.

Desses proxies, quase todos são SOCKS 4 ou 5, com pouco mais de 100 a serem HTTP/S. Além disso, quase todos são anónimos ou de elite, que são os únicos que realmente importam na extração de dados da web.

No que diz respeito à geolocalização, o ProxyScan oferece IPs de mais de 100 países. Embora nem todos estes tenham um grande número de proxies, continua a ser uma boa cobertura. Também pode verificar o tempo de atividade e o ping de cada IP, o que facilita a escolha dos melhores IPs.

3. Proxy-List

A ideia geral por trás do Proxy-List parece ser quantidade em detrimento da qualidade. No total, dispõem de mais de 17 000 proxies, a maioria dos quais são SOCKS 4. Afirmo que há menos foco na qualidade porque não se obtém qualquer informação sobre o tempo de atividade ou o ping dos IPs. O site atualiza as suas listas a cada duas horas e elimina os IPs que não respondem.

Ao consultar as suas listas, obtém-se o IP, a porta, o nível de anonimato e o país. Em comparação com outros fornecedores desta lista, isso é um pouco insuficiente.

Pode filtrar os resultados por anonimato (transparente, anónimo ou elite) e por país. Reparei que alguns dos países que pode selecionar no filtro não têm, na verdade, proxies disponíveis no site. Por isso, não espere necessariamente encontrar IPs de qualquer região. Dito isto, ainda há muitas opções.

Além de navegar pelas suas muitas páginas, também pode descarregar listas como texto simples ou diretamente para a área de transferência. Embora o processo seja muito mais rápido desta forma, o ficheiro txt contém apenas os IPs; por isso, se também quiser registar as portas ou os países de origem, terá de os obter diretamente do site. Como seria de esperar, sugiro que extraia as páginas em vez de obter os dados manualmente.

4. Free Proxy

Embora o Free Proxy possa não ser o site mais apelativo, possui um vasto número de IPs, os seus detalhes e todas as funcionalidades de filtragem de que irá precisar.

O número total de IPs ultrapassa os 23 000, a maioria dos quais são SOCKS4/5. Estes IPs são recolhidos num total de 160 países. A maioria dos IPs é da Ásia, mas não terá qualquer problema em encontrar proxies de qualquer canto do mundo.

Se consultar as suas listas, verá uma grande quantidade de informações, incluindo velocidade, tempo de atividade, resposta e quanto tempo se passou desde a última verificação. Esse último detalhe é, na verdade, um dos pontos fracos deste fornecedor – muitos IPs são verificados com pouca frequência, e há uma boa probabilidade de encontrar muitos IPs inativos, especialmente se já se passaram dias desde o último ping.

Para navegar, pode filtrar por país, anonimato e protocolo. Depois, também pode ordenar a lista resultante por velocidade, tempo de atividade, resposta e «última verificação». Assim, não deve demorar muito a encontrar o que procura. Além disso, existe um botão chamado «Exportar IP:Porta» que lhe permite copiar rapidamente o endereço completo para o adicionar ao seu scraper.

5. Spys.one

Tal como o fornecedor anterior, o Spys.one oferece uma vasta gama de IPs de todo o mundo. No total, parecem ter mais de 26 000 proxies, pelo que ultrapassa o Free Proxy. Mas muitos IPs não são verificados há semanas ou mesmo meses, pelo que podem já não funcionar.

Em termos de navegação, pode escolher praticamente qualquer critério para filtrar a lista. Pode até selecionar por cidade, embora muitos proxies não tenham, na verdade, uma cidade especificada. Por isso, use essa opção apenas se for crucial para o seu caso de utilização. Caso contrário, poderá ignorar possibilidades valiosas.

Embora o fornecedor possa parecer ter um grande número de IPs, não posso dizer que goste muito da interface do utilizador, pelo que obter todos esses IPs pode ser mais complicado do que esperaria.

6. Genode

Ao contrário da maioria dos outros sites desta lista, o Genode não ganha dinheiro com receitas de publicidade, mas sim com o aluguer de proxies residenciais premium. Mas, além desses, também mantêm uma lista de proxies gratuitos que qualquer visitante pode utilizar.

A sua lista contém quase 5.000 proxies espalhados por um número impressionante de países. Para navegar nesta lista, pode escolher o país, o nível de anonimato, o protocolo do proxy, a organização, a velocidade, o tempo de atividade e a data da última verificação. Portanto, essencialmente, filtra por todos os diferenciadores que eles apresentam.

Ao verificar a velocidade, obtém um intervalo de tempo real (em milissegundos) e uma barra que compara a velocidade desse IP específico com os outros da lista. Além disso, se o tempo de resposta for anormalmente grande, o número aparecerá a vermelho, indicando que é provavelmente demasiado lento para uma utilização adequada.

Este tipo de pequenos detalhes pode ter um impacto nos seus resultados globais, pelo que o Genode merece um lugar na lista, mesmo que o conjunto de proxies em si seja um pouco pequeno em comparação com o outro site que apresentei.

7. Free Proxy Lists

Embora não possa dizer que o Free Proxy Lists seja o site mais bonito, ele vai direto ao ponto, apresentando-lhe uma extensa lista de IPs.

É louvável que a plataforma tenha proxies de 78 países diferentes, um número que talvez não consiga obter de prestadores de serviços pagos. Infelizmente, muitos destes países têm menos de 10 IPs cada. Em muitos casos, existe um único proxy da região.

No total, dispõem de mais de 600 IPs, todos eles utilizando o protocolo HTTP ou HTTPS, pelo que não terá sorte se precisar de SOCKS.

Passar simplesmente de página em página à procura do proxy certo pode tornar-se aborrecido rapidamente, mas o site permite-lhe filtrar os resultados por país, porta, protocolo, anonimato e tempo de atividade. Também pode ver as suas velocidades de resposta e transferência representadas por barras de carregamento coloridas. Embora não sejam muito explicativas, podem ajudar a escolher os IPs mais rápidos.

Escolha os seus proxies com sabedoria

Embora compreenda o apelo dos proxies gratuitos e recomende que pelo menos os experimente, lembre-se de que o seu tempo também é um recurso. Na verdade, pode ser mais valioso do que dinheiro.

Deixe-me explicar melhor: alternar entre milhares de proxies gratuitos pode reduzir custos, uma vez que não está a pagar por proxies premium, mas exigirá uma atenção constante da sua parte. O IP irá frequentemente deixar de funcionar ou ser bloqueado, e terá então de encontrar uma nova lista e adicioná-la ao seu script. À medida que novos IPs gratuitos aparecem, terá de os adicionar, uma vez que os antigos, mais cedo ou mais tarde, deixarão de funcionar.

Em essência, os proxies gratuitos poupam dinheiro, mas exigem algum trabalho repetitivo. Recomendo que qualquer entusiasta de scraping crie pelo menos um scraper e o utilize com proxies gratuitos, porque é uma excelente experiência de aprendizagem. Depois disso, porém, poderá querer apenas dados precisos entregues a tempo, com pouca ou nenhuma intervenção humana.

É esse o raciocínio por trás da WebScrapingAPI. Criámos uma API REST para fazer a maior parte do trabalho por si, para que se possa concentrar em utilizar os dados em toda a sua extensão. Se ainda não o fez, inicie a sua versão de avaliação gratuita da WebScrapingAPI para ter acesso a um scraper de primeira classe com proxies fiáveis!

Sobre o autor
Robert Munceanu, Desenvolvedor Full-Stack @ WebScrapingAPI
Robert MunceanuDesenvolvedor Full-Stack

Robert Munceanu é um programador Full Stack na WebScrapingAPI, contribuindo em todas as áreas do produto e ajudando a criar ferramentas e funcionalidades fiáveis que sustentam a plataforma.

Comece a construir

Pronto para expandir a sua recolha de dados?

Junte-se a mais de 2.000 empresas que utilizam a WebScrapingAPI para extrair dados da Web à escala empresarial, sem quaisquer custos de infraestrutura.