1. Home
  2. Glossário de Marketing

Crawling

O que é crawling e tipos de web crawlers?

Crawling é o processo realizado por um spider, bot, robô ou crawler (qualquer um dos robôs de indexação dos mecanismos de busca) que tem como objetivo localizar, ler e analisar o conteúdo presente em uma página da Web.

Vinculado a essa ação de “pesquisa” dos spiders de rastreamento está o termo crawl budgets, que é o tempo que um spider ou bot gasta para analisar toda a Web, tempo esse controlado pelos próprios aplicativos do mecanismo de busca encarregados de decidir os sites a serem rastreados e o tempo dado a cada um deles.

1. tipos de web crawlers

Existem diferentes tipos de Web crawlers, sendo a principal diferença o uso pretendido. Esses são os principais tipos de web crawlers:

Web crawler do mecanismo de pesquisa. Eles são os mais conhecidos e mais comumente usados. Cada mecanismo de busca tem seu próprio Web crawler para examinar, coletar e indexar o conteúdo da Web.

Alguns dos mais populares são: GoogleBot (Google), Bingbot (Bing), Slurpbot (Yahoo), DuckDuckBot (DuckDuckGo), Baiduspider (Baidu), Yandex Bot (Yandex) e Alexa Crawler (Amazon).

– Web crawlers comerciais Estes são Web crawlers com muitas funcionalidades e usos, criados por empresas de software para serem vendidos a terceiros.

– Web crawler para desktop. Esses são Web crawlers que podem ser executados em um PC ou laptop, geralmente são de baixo custo e de uso muito limitado, e podem rastrear pequenas quantidades de informações e sites.

– Web crawler na nuvem. Esses são Web crawlers que não armazenam dados em servidores locais, mas em uma nuvem, e geralmente são oferecidos como serviços por empresas de software. Sua principal vantagem é que são escalonáveis.

– Web crawler personalizado. Eles oferecem uma funcionalidade muito simples e são usados pelas empresas para realizar tarefas muito específicas. Um exemplo seriam aqueles que monitoram possíveis falhas de serviços da Web.

2. Aspectos do crawlingo: Google

O crawling é uma parte essencial do posicionamento na Web e do SEO, portanto, ele desempenha um papel fundamental nesse aspecto. É sabido que o Google lida com mais de 200 variáveis que determinam como os resultados da pesquisa são posicionados.

O funcionamento do algoritmo não é conhecido, logicamente, o que se sabe são alguns dos critérios que são levados em conta para posicionar uma página da Web, muitos deles obtidos com crawling, entre os quais estão

  • Idade do domínio.
  • Links externos recebidos pelo domínio.
  • Facilidade de crawling para o Web crawler.
  • A estrutura da página.
  • A extensão territorial do domínio.
  • A qualidade do conteúdo e das atualizações.
  • A existência ou não de erros no código HTML.
  • Se ele está otimizado para dispositivos móveis (smartphones e tablets).
  • Velocidade de carregamento do Website.

Há mais condições para o posicionamento de SEO do que o Google torna público e, a cada atualização de seu algoritmo, elas mudam ou perdem relevância, portanto, é necessário estar muito atento após as atualizações de seu algoritmo de posicionamento.