Voltar ao blogue

Os melhores navegadores anti-detecção para uma extração de dados da Web segura e eficaz

Os melhores navegadores anti-detecção para uma extração de dados da Web segura e eficaz

A deteção é uma questão importante no setor do web scraping. É como um jogo constante do gato e do rato entre os scrapers e os sistemas anti-bot. E a utilização de um navegador anti-detecção tornou-se um requisito para quem pretende extrair dados. Mas os navegadores anti-detecção não se limitam ao web scraping. As pessoas têm-nos utilizado para tarefas como a gestão de várias contas nas redes sociais, comércio eletrónico e assim por diante. Até mesmo os utilizadores interessados na privacidade podem beneficiar de um navegador anti-detecção.

O artigo de hoje irá abordar exatamente esta área. Vamos discutir os navegadores anti-detecção, os seus casos de utilização, a sua eficácia e qual o fornecedor a escolher em 2023. Também vou apresentar-vos a identificação de navegadores. Por isso, preparem-se, há muito para falar hoje.

O que é um navegador anti-detecção?

Em parte, a definição de um navegador anti-detecção é dada pelo próprio nome. Cada navegador normal (por exemplo, o Chrome ou o Firefox) tem a sua própria identidade online. Chamamos a isto de impressão digital. A forma como o seu navegador é identificado é muito complexa. Tem a ver com coisas como:

  • O seu endereço IP
  • O User Agent que está a enviar com os seus pedidos
  • As propriedades dos vossos navegadores

Diria que o último é o mais importante. Isto porque qualquer pessoa na Internet pode criar um script relativamente simples para obter determinadas propriedades de um navegador. E o mais importante é que, na maioria das vezes, a combinação destes valores gera uma configuração de sistema única. Na prática, é possível gerar um hash dos valores combinados e transformados em cadeia de caracteres destas propriedades e criar uma impressão digital. Veja-se, por exemplo, o FingerprintJS ou o CreepJS.

Além disso, a deteção não se limita ao âmbito da janela. Eu próprio criei esta ferramenta que consegue detetar evasões, como as implementadas com o `puppeteer-extra-plugin-stealth`, comparando valores recolhidos da janela e dos workers. Mas essa é uma discussão mais complexa. Por agora, parece que a melhor forma de passar despercebido online é usar um navegador anti-detecção.

E voltamos ao tema. Os navegadores anti-detecção são aplicações baseadas em navegadores conhecidos que foram modificados para aceitar valores personalizados para as propriedades que discutimos anteriormente. Como projetos como o Chromium ou o Mozilla são de código aberto, qualquer pessoa pode fazer um fork e criar a sua própria versão de um navegador. E é exatamente isso que acontece também com os navegadores anti-detecção.

Você também pode clonar o Chromium, por exemplo, e ajustá-lo para fornecer valores aleatórios para várias propriedades do navegador. Mas, na prática, isso requer muito conhecimento e recursos. É por isso que existem alguns fornecedores conhecidos e falaremos sobre eles daqui a pouco. Mas primeiro:

Qual é a utilidade de um navegador anti-detecção?

Existem muitos casos de utilização para navegadores anti-detecção. No entanto, há setores que dependem destes navegadores mais do que outros. É por isso que vou ser específico sobre quais são os casos de utilização dos navegadores anti-detecção e por que razão os utilizar. Assim, entendendo que a sua maior força é o anonimato, eis os casos de utilização mais comuns para um navegador web anti-detecção:

  • Agências de marketing: Os profissionais de marketing de afiliados ou as agências de redes sociais têm normalmente de gerir várias contas nas redes sociais. Na prática, as plataformas de redes sociais proíbem o acesso a tais atividades. Idealmente, do ponto de vista delas, um dispositivo só deve gerir uma conta. Mais do que isso pode levar a abusos. Uma vez que os navegadores anti-detecção criam mais do que uma única identidade, pode facilmente utilizá-los para gerir essa atividade.
  • Vendedores de comércio eletrónico: Existe uma prática comum (mas tácita) entre vendedores da Amazon ou drop-shippers de utilizar várias contas para vender os seus produtos. Isto aumenta o seu alcance e, implicitamente, as vendas. Mais uma vez, as grandes plataformas de comércio eletrónico normalmente não permitem tais práticas. E, mais uma vez, os navegadores anti-detecção podem entrar em ação.
  • Web scraping: Nos últimos anos, o web scraping tornou-se um verdadeiro desafio. Identificar um web driver (navegador automatizado) é hoje mais fácil do que era há alguns anos. E, como provavelmente já adivinhou, quase todos os sites tentam evitar bots. Uma vez que os web scrapers se enquadram nesta categoria, os sites tentam normalmente bloquear o seu acesso.

Quão eficientes são os navegadores anti-detecção na prática?

Dependendo do fornecedor, os navegadores anti-detecção podem ser bastante eficientes. Ao trabalhar no modo furtivo das APIs de Web Scraping, tive a oportunidade de experimentar várias técnicas de evasão. Uma delas consistiu em testar navegadores anti-detecção. Pode ser uma surpresa, mas conseguimos identificar navegadores automatizados para o Puppeteer e o Selenium corrigidos, mas não para os navegadores anti-detecção.

Como uma camada extra de eficiência, descobrimos através de testes que os valores utilizados para gerar impressões digitais personalizadas também são importantes para detetar web drivers. Por exemplo, valores aleatórios são um «não-não». Em vez disso, ao gerar uma impressão digital, tente:

  • Utilizar agentes de utilizador reais
  • Utilizar plataformas de dispositivos que correspondam ao agente do utilizador
  • Adicionar matrizes de plugins de navegador reais

E isto é apenas para citar alguns exemplos. A principal conclusão é utilizar informações reais e correspondentes. Além disso, caso escolha um fornecedor, tente seguir as suas recomendações.

Os melhores navegadores anti-detecção em 2023

Num artigo relacionado, afirmei que o melhor navegador anti-detecção é aquele que você mesmo constrói. Mas, falando honestamente, construir um navegador, mesmo quando se tem um projeto de código aberto como ponto de partida, exige muito esforço. Portanto, se não tiver recursos para formar uma equipa, é melhor optar por um destes fornecedores:

#1: GoLogin

O GoLogin é novo no cenário dos navegadores anti-detecção. No entanto, isso não o torna menos eficiente. O que me chamou a atenção em primeiro lugar foram os canais de suporte. Estão disponíveis não só por e-mail ou chat, mas também via WhatsApp, Telegram e Facebook Messenger. A segunda menção honrosa sobre o GoLogin é o suporte a proxies. O navegador vem equipado com proxies por predefinição. E a terceira está relacionada com o acesso. O GoLogin tem uma aplicação para computador, uma aplicação móvel e uma aplicação web que pode utilizar. Pode aceder à ferramenta a partir da nuvem, o que é bastante impressionante.

O navegador em si é baseado no Google Chrome. Foi modificado para gerar novas impressões digitais para cada perfil. Uma desvantagem é que, em vez de falsificar todos os valores, eles também adicionam ruído a alguns. E os testes indicam que isto pode levar a mais captchas, o que sugere que os sistemas antibot ainda conseguem detetar alguma atividade automatizada.

Em termos de preço, o GoLogin começa nos 49 USD por mês e vai até aos 199 USD. Também oferecem um plano personalizável. Chega aos 1999 USD por mês para 10 000 perfis na nuvem e outros benefícios. E também obtém um desconto de 50% se pagar anualmente. Pode consultar a página de preços para obter mais informações. Resumindo:

#2: Multilogin

De acordo com o seu site, o Multilogin oferece «personalização completa da impressão digital». Isto significa que obtém acesso total às propriedades do navegador e pode ajustá-las de inúmeras formas. Além disso, são um dos poucos fornecedores que não desativam funcionalidades do navegador. Desativar funcionalidades do navegador (como os service workers) não é um indício imediato de um navegador automatizado. No entanto, os utilizadores regulares raramente, ou nunca, desativam tais funcionalidades. E isso pode levantar suspeitas para os detetores de bots.

Voltando agora ao Multilogin. O que eles fizeram foi criar um fork do Chrome e do Firefox e construir as suas próprias versões personalizáveis. A sua interface gráfica permite-lhe gerar um perfil rápido (com uma impressão digital associada) ou falsificar certos valores por si mesmo. A única desvantagem do Multilogin, diria eu, é o preço. Começa nos 99 USD por mês e pode ir até aos 399 USD por mês. Isto é, na altura em que estou a escrever isto. Para preços atualizados, consulte a página de preços deles. Agora, para concluir, aqui estão algumas informações resumidas:

#3: AdsPower

Tal como o Multilogin, o AdsPower oferece dois navegadores anti-detecção. Um é baseado no Chromium e chama-se Sun Browser. O segundo é baseado no Firefox e chama-se Flower Browser. Ambos têm a capacidade adicional de gerir a impressão digital do navegador. O que é interessante neste navegador anti-detecção é que possui funcionalidades de automação integradas. É necessária pouca ou nenhuma programação para automatizar tarefas utilizando a Robotic Process Automation do AdsPower.

A empresa foi fundada em 2019 em Hong Kong e cresceu rapidamente, tornando-se um dos principais concorrentes do Multilogin. Parte do seu sucesso deve-se às incríveis capacidades dos navegadores. A outra parte, penso eu, deve-se aos preços baixos. O AdsPower tem até um plano gratuito que dá acesso a dois perfis e o seu plano pro custa apenas 50 USD por mês. A título pessoal, considero-a a solução mais apelativa. E com isto, vamos concluir:

#4: X-Browser

Com o X-Browser, o navegador anti-detecção em si é gratuito. E isso pode ser uma característica bastante apelativa. O navegador é oferecido pela Smartproxy e pode ser descarregado gratuitamente. O «sobresalente» aqui é que tem de pagar pelos proxies. No entanto, na verdade, não há nenhuma desvantagem nisso. E isso porque, com qualquer uma das opções, precisa de proxies para ocultar o seu IP e evitar ser bloqueado.

Vincular o X-Browser aos seus próprios proxies pode ser uma coisa boa e má ao mesmo tempo. Por um lado, o utilizador pode confiar que a smartproxy oferecerá uma solução otimizada para os seus proxies. Por outro lado, só pode usar proxies da smartproxy. Estar vinculado a um único fornecedor significa estar vinculado à qualidade do seu serviço. E se quiser expandir a sua atividade, acho que precisa de mais flexibilidade.

Uma vez que só paga pelos proxies, os preços do X-Browser são bastante razoáveis. Os seus proxies de datacenter variam entre 10 e 45 USD por mês. Os proxies residenciais podem ser um pouco caros, mas tudo depende da quantidade que utiliza. Consulte os preços aqui. Vamos então resumir o X-Browser:

#5: Kameleo

O Kameleo é um verdadeiro camaleão. É compatível com todos os principais navegadores web (Chrome, Safari, Firefox e Edge) e pode ser utilizado com as principais estruturas de automação (Puppeteer, Selenium e Playwright). Além disso, oferecem também personalização de impressão digital para dispositivos móveis. De acordo com o seu site, o Kameleo Mobile pode ser utilizado para falsificar a sua impressão digital em qualquer dispositivo Android.

Ao contrário dos seus concorrentes, o serviço do Kameleo não se centra nos navegadores, mas sim nos perfis de navegador. Ou seja, não fazem necessariamente alterações a um navegador de código aberto para criar a sua própria versão.

Fizemos algumas experiências com a plataforma e a principal desvantagem que identificámos foi o apoio ao cliente. Pode ser bastante lento. Para além disso, os preços são bons: 59 a 199 USD pagos mensalmente. Vamos então resumir:

#6: Incognito

O Incognito é mais um navegador anti-detecção com um plano gratuito. E, ao contrário do AdsPower, oferece acesso a 10 perfis de navegador gratuitos. O seu navegador é baseado no Chromium e oferece praticamente as mesmas funcionalidades que os restantes navegadores anti-detecção. O produto também inclui uma API que permite interagir com o navegador headless. Para além do generoso plano gratuito, os preços variam entre 29,99 e 149,99 USD por mês. Diria que é um preço justo pelo que oferecem. Resumindo:

#7: Linken Sphere

O Linken Sphere é um navegador anti-detecção baseado no Chromium e é oferecido pelo grupo russo Tenebris. Foi lançado em 2017, tornando-se uma das soluções mais antigas do mercado. A principal desvantagem é que parece bastante suspeito. De momento, só aceitam pagamentos em bitcoin e o suporte é centrado no seu canal do Telegram. Além disso, é conhecido por ser utilizado em atividades ilegais, como pirataria informática ou fraude. Para além disso, cumpre bastante bem a sua função. E com isto, vou encerrar de vez:

Conclusões

A identificação do navegador pode tornar o web scraping extremamente difícil. Se quiser passar despercebido, precisa de ter em conta muitos aspetos. Proxies, solucionadores de captcha e um navegador headless discreto são apenas alguns dos «ingredientes» de um web scraper fiável. Somar tudo isto pode gerar custos de desenvolvimento e manutenção muito elevados. A alternativa é utilizar um serviço de web scraping de terceiros já estabelecido. E a Web Scraping API oferece exatamente isso. E eu diria mesmo que tudo isto por uma fração do custo.

Sobre o autor
Mihnea-Octavian Manolache, Desenvolvedor Full Stack @ WebScrapingAPI
Mihnea-Octavian ManolacheDesenvolvedor Full Stack

Mihnea-Octavian Manolache é engenheiro Full Stack e DevOps na WebScrapingAPI, onde desenvolve funcionalidades do produto e mantém a infraestrutura que garante o bom funcionamento da plataforma.

Comece a construir

Pronto para expandir a sua recolha de dados?

Junte-se a mais de 2.000 empresas que utilizam a WebScrapingAPI para extrair dados da Web à escala empresarial, sem quaisquer custos de infraestrutura.