Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Artigos mais recentes

Como contornar o Cloudflare em 2026: ferramentas, código e tácticas

TL;DR: O Cloudflare bloqueia scrapers colocando em camadas impressões digitais TLS, desafios JavaScript, análise comportamental e CAPTCHAs Turnstile em uma pontuação de confiança composta. Para contornar o Cloudflare de forma confiável, você precisa corresponder a todas as camadas simultaneamente. Este guia aborda a pilha de deteção, compara quatro ferramentas práticas (Nodriver, SeleniumBase UC, Camoufox, curl-impersonate) e passa por estratégias de proxy, persistência de sessão, solução de problemas de erro e escalonamento de produção.

Mihnea-Octavian Manolache16 min read
Apr 30, 2026

Como fazer scraping do YouTube com Python em 2026

TL;DR: Este é um manual de 2026 sobre como raspar o YouTube com Python. Escolherá o método certo (Data API v3, yt-dlp, endpoints ocultos /youtubei/v1/ ou um scraper gerido) usando uma matriz de decisão, depois executará código para metadados de vídeo, comentários, canais, pesquisa, Shorts e transcrições, com uma secção de produção sobre proxies, cabeçalhos e 429 backoff para não ser bloqueado.

Raluca Penciuc20 min read
May 8, 2026

Como rodar proxies em Python

TL;DR: Este guia mostra como rotacionar proxies em Python de ponta a ponta: escolha o tipo certo de proxy, construa e valide um pool, então rotacione sequencialmente com itertools.cycle, aleatoriamente com random.choice, ou assincronamente com aiohttp. Também emparelhamos a rotação de IP com a rotação de User-Agent e adicionamos novas tentativas conscientes do estado para que um único proxy mau não mate o seu scrape.

Raluca Penciuc11 min read
May 8, 2026

Bibliotecas de navegador sem cabeça Python para raspagem da Web em 2026

TL;DR: Um navegador sem cabeça Python permite renderizar JavaScript, clicar em SPAs e raspar sites que clientes HTTP simples não conseguem alcançar. Selenium é o padrão mais seguro, Playwright é a escolha moderna para novos códigos, Pyppeteer e Splash ainda têm usos de nicho, e uma API de navegador hospedada é o que você procura quando as defesas anti-bot ou escala começam a incomodar.

Mihnea-Octavian Manolache21 min read
May 1, 2026

HTTP Headers Web Scraping: Deixar de ser bloqueado

TL;DR: Os cabeçalhos HTTP são normalmente a razão pela qual o seu scraper recebe um 403 enquanto o seu browser carrega o mesmo URL sem problemas. Este guia mostra quais cabeçalhos os sistemas anti-bot realmente inspecionam, como capturar o conjunto de cabeçalhos de um navegador real do DevTools, como enviá-los e girá-los corretamente em Python e Node.js, e quando o ajuste manual deixa de valer a pena e uma API de raspagem gerenciada é a melhor opção.

Raluca Penciuc14 min read
May 13, 2026
123911282930