Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Todos Guias A ciência da extração de dados da Web Casos de utilização Engenharia Outros

Guias

Scraping com o Cheerio: Como recolher dados facilmente de páginas web

Com o Cheerio, pode começar a recolher dados em poucos minutos. Sem complicações e sem necessidade de aprender nada.

Raluca Penciuc8 min readApr 27, 2026

Ler artigo

Artigos mais recentes

Guias

Como fazer o Scrape Redfin: Guia Python para Dados de Propriedade

TL;DR: A Redfin expõe pontos de extremidade de API ocultos que retornam JSON estruturado para listagens de propriedades, tornando possível ignorar totalmente a análise HTML frágil. Este guia orienta-o na construção de um scraper Python que extrai dados de aluguer e venda, pesquisa por localização, monitoriza novas listagens através de sitemaps XML e exporta resultados limpos para CSV ou JSON.

Suciu Dan14 min read

Apr 27, 2026

Guias

XPath Web Scraping: Um guia prático com exemplos em Python

TL;DR: XPath é uma linguagem de consulta para navegar em árvores HTML/XML por caminho, atributo ou conteúdo de texto. Este guia aborda a sintaxe, os eixos e as funções XPath e, em seguida, mostra scrapers Python funcionais com lxml e Selenium. Você também terá uma folha de dicas consolidada e uma seção de solução de problemas para os erros mais comuns do XPath.

Suciu Dan11 min read

Apr 29, 2026

A ciência da extração de dados da Web

Cabeçalhos de resposta HTTP no cURL: Cada flag, técnica e receita de scripting

TL;DR: O cURL esconde os cabeçalhos de resposta por padrão. Use -i para ver os cabeçalhos junto com o corpo, -I para uma solicitação HEAD que retorna apenas cabeçalhos, -v para depuração completa de solicitação/resposta e -D para salvar cabeçalhos em um arquivo. Para scripts modernos, o cURL 7.83+ permite extrair cabeçalhos individuais ou despejar todos eles como JSON com a opção -w write-out.

Suciu Dan12 min read

Apr 29, 2026

A ciência da extração de dados da Web

O que é um navegador sem cabeça? Arquitetura, casos de utilização e principais ferramentas

TL;DR: Um navegador sem cabeça é um navegador web que funciona sem uma interface gráfica visível, controlado inteiramente através de código ou instruções de linha de comando. Os desenvolvedores usam navegadores headless para testes automatizados, raspagem da Web, monitoramento de desempenho e, cada vez mais, para alimentar agentes de IA. Este guia aborda como eles funcionam internamente, quando escolher um em vez de um navegador normal e quais estruturas valem o seu tempo.

Suciu Dan15 min read

Apr 29, 2026

Guias

Tutorial do Scrapy Playwright: Extrair sites com muito JavaScript em escala

TL;DR: O Scrapy-Playwright permite renderizar páginas pesadas em JavaScript diretamente dentro de spiders Scrapy, controlando navegadores reais Chromium, Firefox ou WebKit através do Playwright. Este tutorial guia-o através da instalação, configuração, interações de páginas, interceção AJAX, anti-deteção, e uma estrutura de projeto pronta a produzir para que possa fazer scraping de sites dinâmicos sem sair do ecossistema Scrapy.

Raluca Penciuc20 min read

Apr 28, 2026

Guias

Como extrair dados do Expedia com Python: hotéis, preços e avaliações (Guia de 2026)

Extraia os anúncios de hotéis da Expedia com Python, utilizando renderização em JS, proxies, seletores CSS e paginação; em seguida, limpe e exporte os dados para CSV.

Mihai Maxim13 min read

Apr 27, 2026

2 328 29 30