Resumo: O Scrapy Splash combina o rápido motor de rastreamento do Scrapy com o navegador headless Splash para renderizar páginas com muito JavaScript. Este tutorial sobre o Scrapy Splash orienta-o passo a passo pela configuração do Docker, pela configuração do projeto Scrapy, pelos conceitos básicos do SplashRequest, pelos scripts Lua para rolagem e cliques, pela integração de proxy e pela correção dos erros mais comuns que irá encontrar.
O Scrapy é uma das estruturas de rastreamento web mais eficientes no ecossistema Python, mas tem um ponto fraco bem conhecido: não consegue executar JavaScript. Qualquer site que carregue dados através de renderização do lado do cliente, chamadas AJAX ou estruturas de aplicações de página única é invisível para um spider Scrapy padrão. Este é exatamente o problema que um tutorial do Scrapy Splash resolve.
O Scrapy Splash é uma camada de integração entre o Scrapy e o navegador headless Splash. O Splash é um serviço de renderização leve, baseado em Qt, desenvolvido pela Zyte (a mesma equipa por trás do Scrapy) que expõe uma API HTTP. Em vez de executar um navegador de desktop completo, o Splash carrega uma página num motor WebKit simplificado, executa o JavaScript e devolve HTML totalmente renderizado ao seu spider. Os seus métodos de análise continuam a funcionar com seletores CSS e XPath padrão, como se nada tivesse mudado.
Neste guia, irá instalar o Docker e o Splash a partir do zero, configurar o seu projeto Scrapy, escrever spiders que renderizam páginas dinâmicas, criar scripts Lua para interações avançadas, configurar proxies e resolver os erros que mais atrapalham os novatos.




