Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Artigos mais recentes

Como extrair dados de uma tabela HTML em JavaScript

Está interessado em extrair dados de tabelas HTML na Web utilizando JavaScript? Neste artigo, irá descobrir como utilizar a biblioteca cheerio em conjunto com o Node.js para extrair facilmente dados de tabelas em qualquer site.

Mihai Maxim8 min read
Apr 22, 2026

Análise de HTML em Java com Jsoup

TL;DR: Jsoup é a biblioteca padrão para análise de HTML em Java. Este guia percorre todo o ciclo de vida (configuração do Maven, carregamento de um documento, seletores CSS, travessia do DOM, extração, modificação e serialização), além de um projeto de raspagem executável, tratamento de erros, paginação e os limites que o levam a um navegador sem cabeça ou a uma API de raspagem.

Mihai Maxim13 min read
May 12, 2026

Como testar proxies

Utilize este guia para dominar os testes de proxy. Aprenda a utilizar ferramentas online para verificar as ligações de proxy, a localização e o anonimato. Otimize a utilização do seu proxy e resolva eventuais problemas.

Mihai Maxim6 min read
Apr 10, 2026

Python Extrair texto de HTML

TL;DR: Para extrair texto de HTML em Python, analise a marcação com um analisador real (BeautifulSoup, lxml.html ou html-text), remova scripts, estilos e cromo do site e, em seguida, normalize o espaço em branco e o Unicode antes de salvar. Este guia compara as principais bibliotecas, corrige as armadilhas comuns de limpeza e termina com um rastreador executável que escreve JSONL e arquivos .txt por página.

Mihai Maxim25 min read
May 12, 2026