Perspetivas e Engenharia

Análises aprofundadas sobre a infraestrutura de dados da Web, técnicas de extração e o futuro dos dados estruturados em grande escala.

Todos Guias A ciência da extração de dados da Web Casos de utilização Engenharia Outros

Artigos mais recentes

Guias

Como extrair dados da Web dos resultados de locais do Google Maps

Aprenda a extrair resultados de locais do Google Maps com a nossa API utilizando Node.js: guia passo a passo, vantagens de um extrator profissional e muito mais. Obtenha facilmente o data_id, as coordenadas e o parâmetro de dados.

Andrei Ogiolan7 min read

Apr 22, 2026

Guias

Web Scraping com Regex: Um guia prático

TL;DR: Web scraping com regex brilha quando você precisa de padrões de texto curtos e previsíveis (preços, SKUs, e-mails, datas) do HTML em que você já confia. Emparelhe o módulo re do Python com Beautiful Soup, escopo seus padrões para um nó analisado em vez de marcação bruta, e mantenha o regex fora do caminho da análise completa da árvore HTML. Este guia apresenta um raspador de título e preço em funcionamento, recursos avançados de regex e as armadilhas que afetam os raspadores reais em produção.

Mihai Maxim11 min read

May 7, 2026

Guias

Da análise de sentimentos ao marketing: as inúmeras vantagens da extração de dados do Twitter

Tire o máximo partido dos dados do Twitter com técnicas especializadas de web scraping. Aprenda a extrair dados do Twitter para análise de sentimentos, marketing e inteligência empresarial. Guia completo com TypeScript.

Raluca Penciuc9 min read

Apr 22, 2026

Guias

Como usar um proxy com HttpClient em C#

TL;DR: Para usar um proxy com HttpClient em C#, construa um WebProxy, anexe-o a um HttpClientHandler (ou SocketsHttpHandler), e passe esse handler para o construtor do HttpClient. Para produção, troque os loops manuais por IHttpClientFactory, adicione NetworkCredential para proxies autenticados e envolva as chamadas em tentativas com Polly para que IPs mortos não derrubem seu trabalhador.

Suciu Dan18 min read

May 8, 2026

Guias

Como criar um rastreador da Web usando Python - Guia para principiantes

Este tutorial irá demonstrar como rastrear a Web utilizando Python. O rastreamento da Web é uma abordagem eficaz para recolher dados da Web, localizando todos os URLs de um ou mais domínios.

Ștefan Răcilă8 min read

Apr 22, 2026

Guias

Como extrair tabelas HTML usando Python

TL;DR: A maioria das tabelas HTML pode ser raspada com uma única linha de pandas.read_html. Quando a tabela é paginada, renderizada em JavaScript ou tem cabeçalhos mesclados, mude para Requests + BeautifulSoup ou um navegador sem cabeçalho como o Playwright. Este guia fornece uma matriz de decisão, código de trabalho para todas as três abordagens e as etapas de limpeza que transformam as linhas raspadas em dados prontos para o pipeline.

Andrei Ogiolan17 min read

May 7, 2026

1 2 35728 29 30