A raspagem da Web é legal em 2026? Quadro de conformidade

Resumo: O web scraping é legal? Normalmente sim, mas com algumas ressalvas. A legalidade depende do tipo de dados, da forma de acesso, das jurisdições envolvidas e do que se faz com os resultados. Este guia apresenta uma conclusão direta, um esquema de cinco minutos para preparar a recolha de dados, os casos mais relevantes e uma lista de verificação que pode consultar antes de avançar.

Este artigo é informativo e não constitui aconselhamento jurídico. Para o scraping em produção à escala, consulte um advogado qualificado em todas as jurisdições abrangidas pelos seus dados.

O web scraping é legal? A resposta curta logo à partida

Se já parou para pensar antes de lançar um scraper e se perguntou «será que o web scraping é legal no meu caso?», está a fazer a pergunta certa. O web scraping é a recolha automatizada de dados de sites usando scripts que imitam a navegação humana e, por si só, não é ilegal nos EUA, na UE, no Reino Unido ou no Canadá. Nenhuma lei classifica o «web scraping» como crime.

O que é regulamentado é tudo o que envolve a recolha: os dados que extrai, como os obteve, onde se encontram as pessoas e os servidores, e o que faz com os bytes posteriormente. Um scraper que extrai preços públicos de produtos encontra-se numa situação jurídica muito diferente de um que inicia sessão numa rede social para recolher perfis.

Este guia destina-se a programadores, engenheiros de dados, equipas de crescimento e SEO, e fundadores que precisam de uma resposta defensável antes do lançamento. Abordamos o veredicto, o quadro legal, o mapa jurisdicional, os precedentes (incluindo a decisão de 2024 que a maioria dos guias mais antigos ignora) e uma lista de verificação de conformidade prática.

A resposta curta: O web scraping é legal em 2026?

Sim, na maioria dos casos, com ressalvas importantes. O scraping não é ilegal em si mesmo, e muitas empresas legítimas (motores de busca, sites de comparação de preços, investigadores académicos) dependem dele. A atividade torna-se arriscada, e por vezes ilegal, quando entra em conflito com outras regras: a CFAA dos EUA, quadros de privacidade como o RGPD, a Lei de Proteção de Dados do Reino Unido, a CCPA da Califórnia e a PIPEDA do Canadá, além da legislação sobre direitos de autor e contratos.

Portanto, a resposta à pergunta «o web scraping é legal em 2026?» depende de três fatores que você controla: o tipo de dados, o método de acesso (URL pública vs. login ou paywall) e a jurisdição legal aplicável.

Um quadro de decisão pré-scraping que pode ser executado em cinco minutos

Antes de escrever um seletor, analise o alvo através destas cinco perguntas.

Tipo de dados. HTML público, JSON incorporado, dados pessoais, meios de comunicação protegidos por direitos de autor ou conteúdo protegido por paywall? Cada nível apresenta um perfil de risco diferente.
Caminho de acesso. Um visitante sem sessão pode aceder a este URL? Se precisar de fazer login, clicar num clickwrap ou contornar um paywall, já não se encontra no território dos dados puramente públicos.
Âmbito jurisdicional. Onde está o site alojado, onde vivem os titulares dos dados e de onde irá operar?
Utilização pretendida. Análise interna, painel público, revenda ou formação em IA? A utilização a jusante altera a exposição em termos de direitos de autor e privacidade.
Armazenamento e retenção. Durante quanto tempo irá manter os registos e existe um procedimento de eliminação caso um titular dos dados o solicite?

Qualquer «não tenho a certeza» é o seu gatilho para uma revisão jurídica.

Onde se aplicam as leis de web scraping: um mapa jurisdicional

Não existe uma «lei de scraping» global. Herda obrigações de cada jurisdição que abranja a sua operação. As cinco abaixo abrangem a maioria dos projetos de produção e indicam quando a legalidade do web scraping passa de «sim» para «depende».

Estados Unidos: A CFAA e o Precedente hiQ

Nos EUA, a Lei de Fraude e Abuso Informático (CFAA) é a lei mais frequentemente invocada contra os scrapers. Foi criada para punir a pirataria informática, e o ponto-chave é o «acesso não autorizado». Os tribunais federais no caso hiQ Labs v. LinkedIn e em casos relacionados indicaram que o scraping da web aberta, sem qualquer barreira de login ou palavra-passe, não se assemelha a acesso não autorizado. Extrair conteúdo por trás de uma barreira de credenciais é uma questão diferente.

União Europeia: Regras do RGPD para Dados Pessoais

O RGPD, em vigor desde 25 de maio de 2018, não proíbe o scraping. Regula o tratamento de dados pessoais relativos a residentes da UE, independentemente da localização do scraper. Se o seu conjunto de dados contiver nomes, e-mails, IPs ou qualquer campo que identifique uma pessoa, necessita de uma base legal, deve minimizar a recolha e deve honrar os pedidos de eliminação e acesso. Um endereço de e-mail público continua a ser um dado pessoal; a sua recolha sem um objetivo claro é um alvo conhecido da aplicação da lei.

Reino Unido: A Lei de Proteção de Dados pós-Brexit

A Lei de Proteção de Dados do Reino Unido, interpretada em conjunto com o RGPD do Reino Unido, reflete as regras da UE em quase todos os aspetos relevantes neste contexto. Se os seus alvos detêm dados sobre residentes no Reino Unido, ou se o seu scraper opera a partir do Reino Unido, conte com as mesmas obrigações em matéria de base legal, limitação da finalidade, minimização e direitos de acesso dos titulares. As divergências são mínimas à data da redação deste artigo.

Califórnia: Direitos do Consumidor ao abrigo da CCPA e Implicações para o Scraping

Se o seu scraping afetar consumidores californianos, aplica-se a Lei de Privacidade do Consumidor da Califórnia (CCPA), mesmo que os seus servidores estejam localizados noutro local. A CCPA confere aos consumidores o direito de saber quais as informações pessoais que detém, de recusar a sua venda ou partilha, de solicitar a eliminação e de evitar retaliação. Ao contrário do RGPD, a CCPA baseia-se na divulgação e na opção de recusa, em vez do consentimento prévio, mas o impacto operacional num conjunto de dados obtidos por scraping é semelhante: mantenha um processo de eliminação pronto.

Canadá: Normas de Consentimento da PIPEDA

A Lei de Proteção de Informações Pessoais e Documentos Eletrónicos do Canadá rege os dados pessoais ligados a utilizadores canadianos. A PIPEDA privilegia o consentimento: recolha informações pessoais apenas com conhecimento e consentimento significativos, e apenas para fins que uma pessoa razoável consideraria apropriados. Trate os dados pessoais canadianos da mesma forma que trata os dados pessoais da UE.

Casos marcantes de scraping e o que significam para si

As decisões judiciais são a forma como a questão abstrata de saber se o web scraping é legal se torna concreta. Trate as datas e os detalhes abaixo tal como relatados e verifique-os junto de uma fonte primária antes de confiar neles.

hiQ Labs v. LinkedIn e a revogação de 2022

As primeiras fases do processo hiQ Labs v. LinkedIn são amplamente interpretadas como boas notícias para os scrapers: um tribunal federal terá decidido que a extração de dados de perfis do LinkedIn acessíveis ao público não constituía acesso não autorizado ao abrigo da CFAA, uma vez que não existia qualquer barreira de senha a impedir o acesso a essas páginas. No final de 2022, de acordo com relatos públicos, as partes chegaram a um acordo e foi emitida uma injunção permanente contra a hiQ após a apresentação de provas de contas falsas «Turker» a fazer scraping por trás de inícios de sessão. O acesso apenas público continuou a ser defensável; as contas falsas, não.

Ryanair contra PR Aviation e Ryanair contra Expedia

A Ryanair testou os limites da extração de dados em ambos os lados do Atlântico. No caso Ryanair v. PR Aviation, um tribunal holandês alegadamente concluiu que não se tinha formado qualquer contrato válido, pelo que os Termos de navegação da Ryanair não eram aplicáveis nesse país. No caso Ryanair v. Expedia, os tribunais dos EUA indicaram que a CFAA pode abranger empresas americanas que atuam internacionalmente; o caso foi posteriormente resolvido. Uma página de Termos passiva é mais fraca do que um clickwrap, e a aplicação da CFAA dos EUA pode estender-se.

Meta v. Bright Data (2024): Os dados públicos vencem novamente

O precedente mais recente que incide sobre a legalidade do web scraping em grande escala é o caso Meta v. Bright Data. Com base na ampla cobertura mediática da decisão federal dos EUA de 2024, entende-se que o tribunal decidiu contra a Meta após não ter encontrado provas de que a Bright Data tivesse extraído dados de utilizadores registados no Facebook ou no Instagram; o material extraído encontrava-se na web pública, não autenticada. A decisão reforçou a distinção da era hiQ: as páginas públicas são difíceis de caracterizar como uma violação da CFAA. Confirme a decisão relativa ao processo antes de a citar.

Classificar os dados que extrai: públicos, pessoais, restritos, protegidos por direitos de autor

A maior parte do risco legal decorre do tipo de dados, não do ato de extrair. Antes de perguntar «a extração de dados da web é legal neste domínio?», analise-a através da matriz de quatro quadrantes.

Quadrante	Como se apresenta	Exemplos concretos	Posição de risco padrão
Público, não pessoal	HTML aberto, metadados, preços, especificações	Títulos de produtos, preços de listagem, anúncios de emprego públicos, manchetes de notícias	Risco mais baixo; respeitar o ficheiro robots.txt e os limites de taxa
Dados pessoais	Qualquer coisa ligada a uma pessoa identificável	Nomes, e-mails, números de telefone, biografias de perfis, mesmo as públicas	Aplicam-se o RGPD/CCPA/PIPEDA; é necessária uma base legal e um procedimento de eliminação
Protegidos ou autenticados	Por trás de inícios de sessão, paywalls ou verificações de sessão	Artigos com paywall, painéis de controlo após login, publicações em grupos privados	Alto risco; acesso restrito sem autorização explícita
Obras criativas protegidas por direitos de autor	Texto original, imagens, vídeo, código	Artigos completos, fotografias, logótipos, conjuntos de dados proprietários	A recolha pode ser permitida; a republicação ou a integração em IA requerem uma licença

Os quadrantes sobrepõem-se (um artigo com acesso pago está restrito e protegido por direitos de autor), e uma única página pode misturá-los. Impeça uma decisão por campo, não uma suposição generalizada.

Termos de Serviço: Risco Civil, Não Direito Penal

A violação dos Termos de Serviço de um site é geralmente um problema contratual, não criminal. Os tribunais nos EUA e na UE estabelecem uma distinção entre browsewrap (uma página de Termos passiva ligada a partir do rodapé) e clickwrap (uma caixa de seleção explícita «Concordo» antes do acesso). O browsewrap é rotineiramente considerado inexequível quando o scraper nunca iniciou sessão ou clicou; o clickwrap é muito mais difícil de ignorar.

Uma violação pode ainda agravar-se. Quando o scraping envolve contornar controlos de acesso, contas falsas ou ignorar uma ordem de cessação e desistência, os queixosos utilizam esses factos para reforçar as alegações ao abrigo da CFAA. Uma ordem de cessação e desistência não é uma ordem judicial, mas é o momento em que a intenção documentada começa a ter importância: interrompa o rastreio, guarde a carta e consulte um advogado antes de retomar.

Detecção de bots, Robots.txt e por que a aplicação da lei é importante

As pilhas anti-scraping modernas vão além dos CAPTCHAs. A identificação do navegador através de verificações de entropia JavaScript (renderização canvas, WebRTC), análise do user-agent, rastreamento da taxa de pedidos e deteção de anomalias ao nível da sessão geram registos que um queixoso pode usar mais tarde para argumentar que sabia que não era bem-vindo. O mesmo se aplica ao robots.txt, formalizado na RFC 9309: ignorar uma Disallow regra não é, por si só, um crime, mas os tribunais e as entidades reguladoras citam-no como prova de intenção. Limite as solicitações, envie um User-Agent real com um e-mail de contacto e respeite o robots.txt.

O lugar dos dados de treino de IA e LLM no panorama jurídico

Os corpora de treino reabrem a questão de saber se o web scraping é legal para qualquer pipeline específico. Três pressões somam-se ao cálculo habitual. Primeiro, os direitos de autor: a incorporação de artigos de texto completo, imagens ou código num modelo capaz de os reproduzir suscita disputas de licenciamento, o que está na origem da maioria dos litígios atuais relacionados com o treino de IA. Segundo, a privacidade: a minimização de dados prevista no RGPD continua a aplicar-se a um conjunto de treino, pelo que a recolha de dados pessoais da UE «por precaução» é um ponto fraco conhecido. Em terceiro lugar, a pressão legal: a Lei da IA da UE, publicada em 2024 e a ser implementada gradualmente até 2026, impõe obrigações de transparência aos fornecedores de modelos de uso geral, incluindo a divulgação de informações sobre os dados de treino.

Uma lista de verificação de conformidade antes de executar um scraper de produção

Antes de direcionar um rastreador para o tráfego de produção, verifique esta lista. Se tudo abaixo estiver em ordem, terá uma resposta defensável para a pergunta «o web scraping é legal para este projeto?»

Inventário de dados. Documente todos os campos que pretende extrair e mapeie-os na matriz de quatro quadrantes.
Mapa de jurisdições. Enumere os países do site, os titulares dos dados, os seus servidores e a sua equipa.
Registo dos Termos de Serviço. Faça um instantâneo dos Termos em vigor, guarde o URL e agende uma nova verificação.
Captura de ecrã do robots.txt. Guarde a versão em que efetuou o scraping, com um registo de data e hora.
User-Agent identificável. Uma string real, idealmente com um e-mail de contacto.
Limitação de taxa. Segundos entre pedidos, aleatórios; sem picos de milissegundos.
Política de retenção. Janelas de armazenamento definidas e um ponto final de eliminação funcional.
Desencadeadores de revisão jurídica. Inícios de sessão, PII, texto protegido por direitos de autor, formação de IA, republicação paga, escala acima do seu limiar interno.

Alternativas mais seguras quando o scraping está fora de questão

Quando um alvo se encontra no quadrante restrito ou protegido por direitos de autor, o scraping não é a sua única opção. Verifique se o site disponibiliza uma API oficial, se um fornecedor oferece um conjunto de dados licenciado, se uma parceria direta ou um acordo de partilha de dados é viável, ou se um fornecedor de scraping gerido com práticas de conformidade documentadas pode absorver os custos legais.

Considerações finais sobre como permanecer do lado certo da lei

A legalidade do web scraping é contextual, não categórica. Classifique os dados, documente as decisões, reveja os Termos de cada alvo periodicamente e recorra a um advogado em situações de risco conhecidas.

Conclusões principais

A resposta padrão é «sim, com ressalvas». O scraping não é ilegal em si mesmo; a legalidade depende do tipo de dados, do caminho de acesso e da jurisdição.
As páginas públicas e não autenticadas são o nível mais seguro. Decisões judiciais recentes, incluindo o caso Meta v. Bright Data (2024), conforme relatado, continuam a apoiar esta distinção.
Os dados pessoais são o que mais desencadeia regras. O RGPD, a CCPA, a UK DPA e a PIPEDA abrangem todos os scrapers, independentemente da localização do scraper.
As violações dos Termos de Serviço são, por defeito, de natureza civil e não criminal, mas agravam-se com contas falsas, contornamento de login ou ignorância de ordens de cessação e desistência.
Documente tudo. Instantâneos do robots.txt, dos Termos em vigor, do seu inventário de dados e dos seus registos de acesso são o seguro mais barato que pode adquirir.

Perguntas frequentes

Posso vender ou republicar legalmente dados que extraí de um site público?

Às vezes, mas «visível publicamente» não é «livremente reutilizável». Os factos não são protegidos por direitos de autor, mas a expressão em torno deles geralmente é, e quaisquer dados pessoais estão sujeitos à legislação de privacidade. Antes da revenda, confirme se os dados são não pessoais, não estão protegidos por direitos de autor ou direitos de bases de dados e não estão abrangidos por um acordo de aceitação de termos que tenha aceitado.

É legal introduzir dados da Web extraídos num pipeline de treino de IA ou LLM?

Depende do corpus. Textos, imagens e código protegidos por direitos de autor representam o maior risco e estão na origem da maioria dos litígios atuais relacionados com o treino de IA. Os dados pessoais da UE trazem as obrigações de minimização do RGPD para o período de treino. Dê preferência a conjuntos de dados licenciados, documente a proveniência por fonte e esteja atento às obrigações de transparência da Lei da IA da UE à medida que estas forem sendo implementadas.

O que devo fazer se um site alvo me enviar uma carta de cessação e desistência?

Interrompa o rastreador no mesmo dia, guarde a carta e os seus registos de acesso e evite respostas que possam ser interpretadas como desafio. Avalie se o acesso era público ou autenticado, se estavam envolvidas contas falsas e quais as jurisdições aplicáveis. Recorra a um advogado antes de responder.

A utilização de proxies rotativos ou navegadores furtivos é, por si só, ilegal?

Não. Proxies rotativos, conjuntos de IPs residenciais e a automatização de navegadores furtivos são infraestruturas comuns e legais utilizadas por ferramentas de SEO, plataformas de verificação de anúncios e investigadores. Só se tornam problemáticos quando associados a condutas ilegais independentes: inícios de sessão com contas falsas, contornar controlos de acesso ou ignorar uma ordem de cessação e desistência documentada.

Durante quanto tempo posso guardar os dados pessoais que recolhi ao abrigo do RGPD ou da CCPA?

Apenas enquanto tiver uma base legal e um objetivo definido. A limitação de armazenamento do RGPD exige a eliminação ou anonimização quando os dados já não forem necessários; a CCPA confere aos consumidores o direito de solicitar a eliminação. Defina um período de retenção por conjunto de dados, documente a justificação e execute uma tarefa de eliminação testada de acordo com um calendário.

Conclusão sobre a legalidade do scraping

Se a sua pergunta inicial foi «o web scraping é legal?», a resposta defensável é: normalmente, quando se limita a páginas públicas, respeita o robots.txt e os limites de taxa, evita dados pessoais de que não necessita e documenta todas as decisões. Os casos mais complexos envolvem logins, paywalls, trabalhos criativos protegidos por direitos de autor ou ambições relacionadas com dados de treino; estes beneficiam de uma análise jurídica real antes do lançamento.

As equipas que lançam sem complicações tratam a conformidade como qualquer outra preocupação de engenharia: classificam as entradas, criam o percurso de eliminação, fazem um instantâneo dos Termos, implementam o rastreador e mantêm um registo escrito.

Se preferir delegar a carga de trabalho de conformidade, a nossa equipa na WebScrapingAPI executa a extração de dados da web gerida com práticas documentadas para revisão jurisdicional, tratamento do ficheiro robots.txt e filtragem de dados pessoais, para que os seus engenheiros se concentrem no que fazem com os dados, em vez de como os recolheram.