Resumo: O XPath é uma linguagem de consulta para navegar em árvores HTML/XML por caminho, atributo ou conteúdo de texto. Este guia aborda a sintaxe, os eixos e as funções do XPath, apresentando depois exemplos práticos de scrapers em Python com lxml e Selenium. Receberá também uma ficha de referência consolidada e uma secção de resolução de problemas para os erros mais comuns do XPath.
O XPath (XML Path Language) é uma linguagem de consulta que seleciona nós de documentos XML e HTML utilizando expressões de caminho. Se os seletores CSS lhe parecem demasiado limitados para as suas tarefas de scraping, o scraping web com XPath é o próximo passo natural.
Enquanto os seletores CSS se movem apenas para a frente e para baixo através do DOM, o XPath percorre em qualquer direção: para cima até um pai, lateralmente para um irmão ou profundamente em descendentes aninhados. Também pode corresponder elementos pelo seu texto visível, uma capacidade que o CSS não possui de todo. Estas funcionalidades tornam o XPath para web scraping especialmente valioso em páginas complexas ou mal estruturadas.
Neste tutorial, irá aprender a sintaxe básica do XPath (caminhos, predicados, eixos, funções), ver como testar expressões no seu navegador e criar scrapers Python reais com lxml e Selenium. Também abordamos as armadilhas comuns que danificam os seletores XPath em produção e como evitá-las.




