Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Artigos mais recentes

Como extrair tabelas HTML em Golang com Colly: Guia de ponta a ponta

TL;DR: Este guia mostra como extrair tabelas HTML em Golang de ponta a ponta: escolha entre Colly, goquery e golang.org/x/net/html, direcione o <tbody> correto, modele as linhas como uma estrutura tipada e exporte JSON e CSV limpos. Você também obtém paginação, anti-bloqueio e padrões de tabela renderizados em JavaScript.

Andrei Ogiolan11 min read
May 7, 2026

Playwright Web Scraping: O Guia Completo para Python e Node.js

TL;DR: O Playwright oferece automação completa do navegador para raspagem de sites com muito JavaScript, com suporte de primeira classe para Python e Node.js. Este guia o orienta na instalação, extração de elementos, configuração de proxy, anti-deteção, paginação, downloads de imagens e exportação de dados para CSV ou JSON, tudo com exemplos de código lado a lado em ambas as linguagens.

Mihnea-Octavian Manolache16 min read
Apr 28, 2026

Como extrair comentários do Google Maps: Um Guia Prático em Python

TL;DR: Descobrir como fazer scraping de reviews do Google Maps se resume a três métodos: um scraper Selenium DIY por trás de um proxy rotativo, uma API de scraping com instruções de renderização ou uma API de Reviews do Maps estruturada que retorna JSON analisado. Este guia percorre os três métodos em Python com código que pode ser copiado e colado, padrões de paginação, tácticas anti-bloqueio e um passo final de limpeza que transforma os comentários em bruto em algo que uma empresa pode realmente usar.

Andrei Ogiolan17 min read
May 7, 2026

Como usar proxies com Python Requests: Do básico à produção

TL;DR: Este guia mostra como usar proxies com Python Requests de ponta a ponta: um ditado de proxies funcionando, URLs autenticadas, variáveis de ambiente, reutilização de sessão, SOCKS5 sem vazamentos de DNS, e um pool de rotação com novas tentativas e um circuit breaker. No final, você saberá quando uma API gerenciada ganha seu sustento sobre um pool DIY.

Ștefan Răcilă11 min read
May 7, 2026