Deixe-nos descrever-lhe a situação:
Percebeu que a Internet está repleta de dados valiosos que podem ajudar o seu negócio, por isso decidiu aproveitá-los. Aprendeu sobre extração de dados e criou o seu próprio scraper em Python. Está tudo pronto – escolheu uma página web e enviou o bot para trabalhar. Então, do nada, o site bloqueia o seu scraper e não o deixa extrair informações.
Azar, mas não se preocupe, a solução não podia ser mais fácil.
A extração de dados é uma prática comum nas empresas hoje em dia, porque as informações recolhidas podem ser utilizadas de várias formas para melhorar a rentabilidade. Um dos problemas mais comuns é ser bloqueado durante o processo de extração. Utilizamos vários métodos para evitar este problema, incluindo a rotação de IP, o tema central do artigo de hoje.
Mas eis uma questão bastante comum: por que razão os sites tentam bloquear os seus bots se está a extrair dados de forma legal e ética? Simples, eles não conhecem as suas intenções e têm muito a perder se não agirem.
Os bots ganharam uma reputação bastante má junto dos proprietários de sites devido às muitas formas como têm sido utilizados como sabotadores, invasores ou simplesmente como um incómodo. O problema com esta visão é que os bots são simplesmente ferramentas. Ninguém se queixa dos bots que o Google utiliza para encontrar e indexar páginas. A questão é que os bots podem ser bons ou maus, dependendo da forma como são utilizados.
Tendo isso em mente, os proprietários de sites têm, de certa forma, motivos para desconfiar dos bots. Existem muitas formas pelas quais os bots causam problemas, seja intencionalmente ou não:
- Podem interferir nas análises do site. O software de análise geralmente não deteta visitantes que são bots, por isso conta-os, resultando em relatórios distorcidos.
- Podem enviar tantos pedidos que acabam por tornar o servidor anfitrião mais lento, talvez até tornando o site indisponível para outros visitantes. Isto é geralmente intencional e é conhecido como ataque DDoS.
- Para sites que dependem de receitas publicitárias nas suas páginas, os bots podem parecer uma bênção à primeira vista, uma vez que geram mais dinheiro para o site. O problema é que as redes de publicidade não são tolas — elas vão perceber que alguns dos anúncios estão a ser visualizados por bots, o que constitui uma forma de fraude de cliques. Basta dizer que os sites não querem ser acusados disso.
- Os sites de comércio eletrónico podem ter muitas dores de cabeça devido aos bots. Alguns scripts compram novos produtos assim que estes ficam disponíveis, para que o criador possa depois revendê-los com lucro, criando escassez artificial. Em alternativa, os bots podem interferir no inventário, adicionando artigos ao carrinho de compras e parando, bloqueando efetivamente o acesso dos compradores reais a esses produtos.
Em resumo, não se pode realmente culpar um site por ser cauteloso com os bots. Próxima pergunta: como é que eles o identificaram, para começar?




