Embora a extração de dados da Web possa parecer fácil na prática, existem inúmeras armadilhas nas quais um programador inexperiente pode cair. Em vez de insistir até esgotar os proxies não bloqueados, atrevo-me a pensar que seria melhor extrair dados de forma inteligente, obter os dados necessários e sair sem nunca ser detetado.
A verdadeira questão é: como fazer isso? Como é que se obtém informação sem que o IP seja bloqueado, sem se deparar com CAPTCHAs, sem recuperar código JavaScript inútil e sem ter de ajustar incessantemente o código do scraper? Bem, não existe uma regra de ouro a seguir, mas existem boas práticas.
Preparámos doze dicas para si. Use-as e verá que todos os dados da Internet estão a apenas alguns cliques de distância.




