Author Profile

Mihnea-Octavian Manolache

Desenvolvedor Full Stack

Mihnea-Octavian Manolache é engenheiro Full Stack e DevOps na WebScrapingAPI, onde desenvolve funcionalidades do produto e mantém a infraestrutura que garante o bom funcionamento da plataforma.

Python web scrapingproxy infrastructurebrowser automationanti-bot resilienceGuidesScience of Web ScrapingUse Cases
Mihnea-Octavian Manolache, Desenvolvedor Full Stack @ WebScrapingAPI

Published Articles

16

Published Articles
GuidesApr 29, 202612 min read

Scrapy vs Beautiful Soup: Que raspador Python escolher

TL;DR: Scrapy é uma estrutura de rastreamento completa que lida com solicitações, análise e exportação de dados em um único pacote. Beautiful Soup é uma biblioteca de análise leve que pode ser emparelhada com um cliente HTTP, como os pedidos. Escolha o Scrapy quando precisar de rastreamento simultâneo em grande escala com pipelines integrados. Escolha Beautiful Soup quando quiser uma configuração rápida e mínima para analisar um punhado de páginas.

Read article

Use CasesMay 1, 202619 min read

Recolha alternativa de dados para o sector financeiro: Como os dados da Web dão aos investidores uma vantagem

TL;DR: A recolha de dados alternativos utiliza técnicas de recolha na Web para reunir conjuntos de dados não tradicionais (preços de produtos, sentimentos, anúncios de emprego, registos regulamentares) que revelam sinais de mercado antes de aparecerem nos relatórios de ganhos. Este guia orienta-o através das fontes de dados de maior valor, como criar condutas de nível financeiro, validação da qualidade dos dados e as protecções de conformidade necessárias para se manter do lado certo da lei.

Read article

GuidesApr 22, 20269 min read

Guia de início rápido da API de Web Scraping

Comece a utilizar a WebScrapingAPI, a solução definitiva para a extração de dados da Web! Recolha dados em tempo real, contorne os sistemas anti-bot e beneficie de um apoio profissional.

Read article

GuidesApr 30, 202620 min read

Contornar o Cloudflare com Selenium: 5 métodos Python (2026)

TL;DR: O Cloudflare bloqueia o Selenium baunilha ao identificar o navegador, inspecionar cabeçalhos e analisar sinais comportamentais. Este guia percorre cinco métodos práticos de bypass (Undetected ChromeDriver, Selenium Stealth, SeleniumBase UC mode, integração do solucionador CAPTCHA e APIs de raspagem), completo com código Python, uma tabela de comparação e um runbook de solução de problemas para que você possa escolher a abordagem certa para sua escala e orçamento.

Read article

GuidesMay 2, 202639 min read

Arquivo para download do Puppeteer: 4 métodos para Node.js

TL;DR: Um fluxo de trabalho de arquivo de download do Puppeteer tem quatro boas formas: clique em um botão e deixe o Chrome escrever em uma pasta que você controla, execute fetch() dentro da página e canalize base64 de volta para o Node, conduza o Chrome DevTools Protocol com eventos de progresso de download, ou pule o navegador e puxe a URL com Axios usando cookies colhidos da sessão do Puppeteer. Escolha pelo tamanho do arquivo, autenticação e como o site expõe o link.

Read article

GuidesMay 1, 202613 min read

Como usar um proxy no Node-Fetch: Um Guia Prático

TL;DR: O Node-Fetch não tem um switch de proxy embutido, então você conecta um agente HTTP, HTTPS ou SOCKS5 na requisição através de sua opção de agente. Este guia mostra como usar um proxy no Node-Fetch de ponta a ponta: proxies HTTP e HTTPS autenticados, SOCKS5, rotação, novas tentativas, casos extremos de TLS, solução de problemas e a rota moderna undici para o fetch nativo do Node 18+.

Read article

GuidesApr 28, 202616 min read

Playwright Web Scraping: O Guia Completo para Python e Node.js

TL;DR: O Playwright oferece automação completa do navegador para raspagem de sites com muito JavaScript, com suporte de primeira classe para Python e Node.js. Este guia o orienta na instalação, extração de elementos, configuração de proxy, anti-deteção, paginação, downloads de imagens e exportação de dados para CSV ou JSON, tudo com exemplos de código lado a lado em ambas as linguagens.

Read article

GuidesMay 8, 202614 min read

Formulário de envio do Puppeteer: Guia do Node.js para 2026

TL;DR: Utilize page.locator(seletor).fill(value) para scripts de formulários de submissão rápidos e determinísticos do Puppeteer e page.type() quando a página procura por toques de teclas reais (autocomplete, anti-bot, validação em tempo real). Submeter clicando no botão, premindo Enter ou chamando form.requestSubmit(), e esperar sempre por um sinal de sucesso concreto em vez de um tempo limite fixo.

Read article

GuidesMay 12, 202612 min read

Como construir um Web Scraper com Pyppeteer (Guia 2026)

TL;DR: Pyppeteer é o port não-oficial do Puppeteer para Python e ainda funciona para conduzir um Chromium real a partir do asyncio. Neste guia você vai instalá-lo, escrever um web scraper moderno com Pyppeteer usando asyncio.run e try/finally, lidar com waits, formulários, screenshots, scroll infinito, cookies e proxies, e aprender quando migrar para Playwright, Selenium ou uma API de scraping hospedada.

Read article

Science of Web ScrapingApr 28, 202632 min read

15 melhores navegadores antidetecção em 2026: comparação honesta para profissionais de marketing, scrapers e gerentes de várias contas

TL;DR: Os navegadores antidetecção permitem-lhe executar vários perfis de navegador isolados, cada um com uma impressão digital única, para que as plataformas não possam ligar as suas contas. Este guia classifica os 15 melhores navegadores antidetecção de 2026 em termos de qualidade de impressão digital, suporte à automação, preço e integração de proxy. Também abordamos como essas ferramentas realmente funcionam, quando uma API de raspagem é a escolha mais inteligente e qual tipo de proxy deve ser combinado com cada caso de uso.

Read article

Science of Web ScrapingMay 8, 202611 min read

O que são Proxies ISP? Guia para Web Scraping e Automação

TL;DR: O que são proxies ISP? São IPs residenciais estáticos alojados num centro de dados. Os sistemas de deteção vêem um ASN residencial; você obtém rendimento do datacenter. Eles são a escolha certa quando as sessões, a vinculação de contas e o preço previsível por IP são mais importantes do que o alcance geográfico bruto.

Read article

GuidesApr 30, 202616 min read

Como contornar o Cloudflare em 2026: ferramentas, código e tácticas

TL;DR: O Cloudflare bloqueia scrapers colocando em camadas impressões digitais TLS, desafios JavaScript, análise comportamental e CAPTCHAs Turnstile em uma pontuação de confiança composta. Para contornar o Cloudflare de forma confiável, você precisa corresponder a todas as camadas simultaneamente. Este guia aborda a pilha de deteção, compara quatro ferramentas práticas (Nodriver, SeleniumBase UC, Camoufox, curl-impersonate) e passa por estratégias de proxy, persistência de sessão, solução de problemas de erro e escalonamento de produção.

Read article

GuidesMay 1, 202621 min read

Bibliotecas de navegador sem cabeça Python para raspagem da Web em 2026

TL;DR: Um navegador sem cabeça Python permite renderizar JavaScript, clicar em SPAs e raspar sites que clientes HTTP simples não conseguem alcançar. Selenium é o padrão mais seguro, Playwright é a escolha moderna para novos códigos, Pyppeteer e Splash ainda têm usos de nicho, e uma API de navegador hospedada é o que você procura quando as defesas anti-bot ou escala começam a incomodar.

Read article

GuidesMay 12, 202618 min read

Axios Set Headers in 2026: O manual do programador

TL;DR: Axios define cabeçalhos em cinco camadas, configuração por requisição, padrões globais, instâncias axios.create(), interceptores de requisição e resposta, e a própria resposta. Este guia percorre cada camada com trechos executáveis da v1 e, em seguida, corrige os quatro bugs que afetam a todos: limites de várias partes, cookies CORS, certificados auto-assinados e revestimento de cabeçalho.

Read article

GuidesApr 22, 202611 min read

Os 3 melhores clientes HTTP em Python para web scraping

Descubra os melhores clientes HTTP em Python para 2022 e crie o seu próprio scraper web com menos de X linhas de código.

Read article

GuidesApr 22, 20269 min read

Como utilizar o CURL com Python para a extração de dados da Web

Descubra como utilizar o CURL com Python para a extração de dados da Web e crie uma aplicação simples de extração de dados da Web em apenas alguns minutos.

Read article