Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Artigos mais recentes

Web Scraping com Regex: Um guia prático

TL;DR: Web scraping com regex brilha quando você precisa de padrões de texto curtos e previsíveis (preços, SKUs, e-mails, datas) do HTML em que você já confia. Emparelhe o módulo re do Python com Beautiful Soup, escopo seus padrões para um nó analisado em vez de marcação bruta, e mantenha o regex fora do caminho da análise completa da árvore HTML. Este guia apresenta um raspador de título e preço em funcionamento, recursos avançados de regex e as armadilhas que afetam os raspadores reais em produção.

Mihai Maxim11 min read
May 7, 2026

Como usar um proxy com HttpClient em C#

TL;DR: Para usar um proxy com HttpClient em C#, construa um WebProxy, anexe-o a um HttpClientHandler (ou SocketsHttpHandler), e passe esse handler para o construtor do HttpClient. Para produção, troque os loops manuais por IHttpClientFactory, adicione NetworkCredential para proxies autenticados e envolva as chamadas em tentativas com Polly para que IPs mortos não derrubem seu trabalhador.

Suciu Dan18 min read
May 8, 2026

Como extrair tabelas HTML usando Python

TL;DR: A maioria das tabelas HTML pode ser raspada com uma única linha de pandas.read_html. Quando a tabela é paginada, renderizada em JavaScript ou tem cabeçalhos mesclados, mude para Requests + BeautifulSoup ou um navegador sem cabeçalho como o Playwright. Este guia fornece uma matriz de decisão, código de trabalho para todas as três abordagens e as etapas de limpeza que transformam as linhas raspadas em dados prontos para o pipeline.

Andrei Ogiolan17 min read
May 7, 2026