Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Todos Guias A ciência da extração de dados da Web Casos de utilização Engenharia Outros

Artigos mais recentes

Guias

Cheerio vs Puppeteer: Como escolher a ferramenta certa

TL;DR: Cheerio é um analisador de HTML leve; Puppeteer conduz um navegador Chromium real. Use o Cheerio quando os dados já estiverem no HTML bruto, o Puppeteer quando o JavaScript os renderizar, e combine-os quando uma página com muito JS tiver muitos campos para extrair por visita.

Sergiu Inizian9 min read

May 8, 2026

A ciência da extração de dados da Web

O que é a automatização do navegador? Um guia prático

TL;DR: A automação do navegador é a prática de conduzir um navegador da Web real ou sem cabeça a partir do código para que ele clique, digite, navegue e leia páginas em seu nome. Este guia explica o que é automação de navegador nos bastidores, compara Selenium, Playwright, Puppeteer e Cypress, e mostra quando não se deve usar um navegador completo.

Ștefan Răcilă13 min read

May 8, 2026

A ciência da extração de dados da Web

Web Scraping vs Data Mining: Diferenças, pipelines e quando usar cada um

TL;DR: O Web scraping recolhe dados em bruto de páginas Web públicas. A extração de dados analisa dados estruturados para obter padrões, previsões e segmentos. São fases diferentes do mesmo ciclo de vida e a maioria dos sistemas de produção combinam-nas num pipeline de scrape-then-normalize-then-mine.

Ștefan Răcilă15 min read

May 12, 2026

A ciência da extração de dados da Web

Melhores cursos de Web Scraping para desenvolvedores

TL;DR: Os melhores cursos de web scraping dependem do seu idioma, nível e caso de uso alvo. Este guia compara cinco opções pagas na Udemy, Coursera, DataCamp e Packt, aponta para suplementos gratuitos, como documentos oficiais, e mostra como fazer a ponte entre a conclusão de um curso e a execução de scrapers de produção.

Ștefan Răcilă12 min read

May 8, 2026

Guias

Como fazer scraping do Realtor.com: Um guia prático para 2026

TL;DR: Se você está trabalhando em como fazer scrape do Realtor.com de forma limpa, três coisas importam mais: seletores estáveis que sobrevivem a seus nomes de classe com hash, uma camada de requisição que sobrevive à pilha anti-bot do Realtor, e código que percorre tanto as páginas de lista quanto as páginas de detalhes. Este guia é a compilação completa em Python, com táticas anti-bloqueio e exportações prontas para LLM.

Raluca Penciuc14 min read

May 8, 2026

Guias

Web Scraping Booking.com: Hotéis, preços e avaliações (Guia 2026)

TL;DR: Este guia mostra como fazer o web scraping do Booking.com de ponta a ponta em Python: extraindo listagens de busca, páginas de hotéis, preços noturnos e avaliações de hóspedes. Você recebe dois métodos complementares: um fluxo de trabalho Selenium Wire para páginas renderizadas em JS e um caminho mais rápido que chama o endpoint interno /dml/graphql do Booking.com diretamente, além de um playbook anti-bloqueio, manipulação de moeda e uma solução alternativa para o limite de paginação de aproximadamente 1.000 resultados.

Raluca Penciuc15 min read

May 8, 2026

1 2 36828 29 30