Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Artigos mais recentes

Como extrair dados do Idealista: Um manual para 2026

TL;DR: Idealista é o maior mercado imobiliário em Espanha, Itália e Portugal, mas está atrás de uma pilha anti-bot séria que bloqueia rapidamente scrapers ingénuos. Este guia mostra como raspar dados do Idealista de ponta a ponta em Python, cobrindo o mapeamento do site, Selenium com undetected-chromedriver, manipulação de DataDome, rotação de proxy e exportações limpas, com os concorrentes de endurecimento de produção geralmente ignoram.

Raluca Penciuc16 min read
May 8, 2026

Como fazer o Scrape do Yelp com Python: Avaliações, listagens e pipelines de dados prontos para LLM

TL;DR: Este guia orienta-o na construção de um raspador Yelp completo em Python, cobrindo resultados de pesquisa, detalhes de negócios e avaliações com código de trabalho. Você também aprenderá como lidar com proteções anti-bot, exportar dados para CSV ou JSON e alimentar avaliações raspadas em um LLM para análise de sentimentos, algo que nenhum outro tutorial de raspagem do Yelp cobre.

Raluca Penciuc15 min read
Apr 28, 2026

10 perguntas sobre raspagem que toda equipe de dados deve responder antes de escrever um raspador

TL;DR: Um projeto de web scraping falha no planeamento muito antes de falhar no código. Estas dez perguntas sobre scraping orientam-no através da legalidade, alternativas de API, defesas anti-bot, custo, cadência de atualização, qualidade dos dados e governação, para que possa definir o âmbito do trabalho, escolher a pilha certa e evitar os modos de falha que matam silenciosamente os scrapers em produção.

Mihai Maxim12 min read
May 8, 2026