Antes de entrarmos nos pormenores do web scraping, devemos rever alguns conceitos-chave.
A maior parte do conteúdo escrito que encontrará num site está armazenada numa linguagem de marcação baseada em texto, mais frequentemente HTML. Para facilitar o processamento e a renderização em todos os navegadores e dispositivos, o HTML tem algumas regras gerais que todos os sites seguem.
Quando os humanos acedem a uma página web, vêem os resultados desse código HTML. Mas os robôs, como os rastreadores de indexação do Google, analisam o código. Pense nisso como a mesma informação, mas em formas diferentes.
Se uma pessoa quiser copiar toda a informação de uma página web, terá de selecionar manualmente todo o conteúdo (provavelmente incluindo também preenchimento inútil), clicar em «copiar» e, em seguida, colá-lo num ficheiro local. Não parece assim tão mau, mas imagine fazer isso duzentas vezes, várias vezes por semana. Vai tornar-se uma tarefa incrivelmente cansativa, e organizar todos esses dados será igualmente um pesadelo.
Alguns sites dificultam aos utilizadores a seleção e a cópia de conteúdo. Embora esses sites não sejam comuns, podem tornar-se a cereja no topo do triste sundae.
Uma ferramenta de web scraping é um bot que extrai código HTML de páginas web. Existem duas diferenças significativas em comparação com a cópia manual: o bot faz o trabalho por si e fá-lo muito mais rapidamente. A recolha do HTML de uma única página pode ser instantânea. O fator determinante é a sua velocidade de Internet, que também pode atrasá-lo ao copiar manualmente.
No entanto, é na extração de dados de múltiplas fontes que os scrapers realmente se destacam. Para um scraper web potente, há pouca diferença entre uma página web e mil. Desde que lhe forneça uma lista de URLs das páginas que pretende extrair, o bot começará a trabalhar na recolha de dados.