Porque é que é bloqueado?
A raspagem da Web nem sempre é permitida porque pode ser considerada uma violação das condições de serviço de um sítio Web. Os sítios Web têm frequentemente regras específicas sobre a utilização de ferramentas de recolha de dados da Web. Podem proibir totalmente a raspagem ou colocar restrições sobre como e que dados podem ser raspados.
Além disso, a recolha de dados de um sítio Web pode sobrecarregar os servidores do sítio Web, o que pode tornar o sítio Web mais lento para os utilizadores legítimos. A recolha de informações sensíveis, como informações pessoais ou dados financeiros, pode causar problemas. Se o fizer, pode dar origem a graves problemas legais, bem como a potenciais violações da privacidade e das leis de proteção de dados.
Além disso, alguns sítios Web dispõem também de medidas anti-raspagem para detetar e bloquear os raspadores. A utilização de scraping pode ser vista como uma tentativa de contornar estas medidas, o que também seria proibido. Em geral, é importante respeitar sempre os termos de serviço de um sítio Web e certificar-se de que a recolha de dados é ética e legal. Se não tiver a certeza se a recolha de dados é permitida, é sempre uma boa ideia verificar com o administrador do sítio Web ou com a equipa jurídica.
Respeitar as condições de serviço do sítio Web
Antes de efetuar a recolha de dados de um sítio Web, é importante ler e compreender os termos de serviço do sítio Web.
Normalmente, isto pode ser encontrado no rodapé do sítio Web ou numa página separada de "Termos de serviço" ou "Exclusão de robôs". É importante seguir todas as regras e regulamentos descritos nos termos de serviço.
Preste atenção ao ficheiro "robots.txt".
O Protocolo de Exclusão de Robots (REP) é uma norma utilizada pelos sítios Web para comunicar com os rastreadores Web e outros agentes automatizados, como os scrapers. O REP é implementado através de um ficheiro chamado "robots.txt" que é colocado no servidor do sítio Web.
Este ficheiro contém instruções para os rastreadores da Web e outros agentes automatizados que lhes indicam quais as páginas ou secções do sítio Web que não devem ser acedidas ou indexadas.
O ficheiro robots.txt é um ficheiro de texto simples que utiliza uma sintaxe específica para indicar as partes do sítio Web que devem ser excluídas do rastreio.
Por exemplo, o ficheiro pode incluir instruções para excluir todas as páginas de um determinado diretório ou todas as páginas com um determinado tipo de ficheiro. Um Web crawler ou scraper que respeite o REP lerá o ficheiro robots.txt quando visitar um sítio Web e não acederá nem indexará quaisquer páginas ou secções que estejam excluídas no ficheiro.
Utilizar proxies
Há várias razões para utilizar um proxy na recolha de dados da Web. Um proxy permite-lhe encaminhar os seus pedidos através de um endereço IP diferente. Isto pode ajudar a ocultar a sua identidade e dificultar o rastreio da sua atividade de raspagem por parte dos sítios Web. Ao rodar o seu endereço IP, torna-se ainda mais difícil para um sítio Web detetar e bloquear o seu scraper. Parecerá que os pedidos estão a vir de locais diferentes. Contornar restrições geográficas Alguns sítios Web podem ter restrições geográficas, permitindo apenas o acesso a determinados utilizadores com base no seu endereço IP. Ao utilizar um servidor proxy localizado no local de destino, pode contornar estas restrições e obter acesso aos dados. Evitar proibições de IP Os sítios Web podem detetar e bloquear pedidos que cheguem demasiado depressa, pelo que é importante espaçar os pedidos e evitar enviar demasiados de uma só vez. A utilização de um proxy pode ajudá-lo a evitar proibições de IP, enviando pedidos através de diferentes endereços IP. Mesmo que um endereço IP seja banido, pode continuar a fazer scraping mudando para outro.




