Resumo: Este tutorial sobre o BeautifulSoup mostra-lhe como criar um scraper completo em Python, desde pip install até um script robusto que pagina o Hacker News, exporta para CSV e JSON e mantém-se suficientemente educado para não ser bloqueado. Todos os trechos de código são executáveis e indicamos os momentos exatos em que o BeautifulSoup não é a ferramenta adequada.Se consegues escrever um for loop em Python e já olhou para uma página web a pensar: «Quero esses dados numa folha de cálculo», este tutorial do BeautifulSoup foi feito para si. O Beautiful Soup é uma biblioteca Python para analisar HTML e XML numa árvore que pode consultar com métodos familiares, ao estilo do jQuery. Não carrega páginas, não executa JavaScript e não finge ser um navegador. Apenas pega na marcação bruta e oferece-lhe uma API limpa para extrair as partes que lhe interessam.
O plano é concreto. Vamos configurar um ambiente novo, buscar uma página de listagem real com a requests biblioteca, analisá-la com o BeautifulSoup, selecionar elementos com find_all seletores CSS, seguiremos a paginação ao longo de várias páginas e escreveremos os resultados em CSV e JSON. Ao longo do processo, vamos integrar a rotação de user-agents, tentativas de repetição e limitação de taxa, porque um tutorial que ignora as defesas anti-bot falha no momento em que o direciona para um site real. No final, terá um scraper executável do tipo «copiar e colar» e uma noção clara de quando continuar a usar o BeautifulSoup e quando passar para uma ferramenta mais avançada.




