Crawling

¿Qué es el crawling y tipos de web crawlers?

El crawling es el recorrido llevado a cabo por una araña, bot, robot o crawler (siendo ellos cualquiera de los robots de indexación de los motores de búsqueda) que tiene como objetivo localizar, leer y analizar el contenido presente en una página web.

Unido a esta acción de “investigación» de las arañas de rastreo se encuentra asociado el término crawl budgets, que es el tiempo que una araña o bot invierte en analizar la web por completo, tiempo que es controlado por las aplicaciones del propio motor de búsqueda encargadas de decidir las web a rastrear y el tiempo que se le concede a cada una.

1. Tipos de web crawlers

Hay distintos tipos de arañas web, que tienen su principal diferencia en el uso para el que han sido concebidos. Principalmente nos podemos encontrar ante estos tipos de web crawler:

– Web crawler de motores de búsqueda. Son los mas conocidos y de uso mas común. Cada motor de busqueda cuenta con su propio web crawler para examinar, recopilan e indexan el contenido de las webs.

Algunos de los mas populares son: GoogleBot (Google), Bingbot (Bing), Slurpbot (Yahoo), DuckDuckBot (DuckDuckGo), Baiduspider (Baidu), Yandex Bot (Yandex) y Alexa Crawler (Amazon)

– Web crawler comerciales. Son web crawler con muchas funcionalidades y usos, que se crean por empresas de software para venderlas a otras.

– Web crawler de escritorio. Son web crawler que se pueden ejecutar en un PC u ordenador portátil, suelen tener bajo coste y un uso muy limitado, normalmente pueden rastrear pequeñas cantidades de información y sitios web.

– Web crawler en la nube. Son web crawler que no almacenan los datos en servidores locales, lo hacen en una nube y que, por norma general, se ofrecen como servicios por empresas de software. Su principal ventaja es que son escalables.

– Web crawler personalizados. Ofrecen una funcionalidad muy simple y se utilizan por las empresas para llevar a cabo tareas muy concretas. Un ejemplo sería los que monitorizan las posibles caídas de servicios webs.

2. Aspectos del crawling: Google

El crawling es pare vital del posicionamiento web y del SEO, por tanto cumple un propósito destacado en dicho aspecto. Es conocido que Google maneja mas de 200 variables que son las que determinan como se posicionar los resultados en las búsquedas.

El funcionamiento del algoritmo no se conoce, lógicamente, lo que si se conocen son algunos de los criterios que se tienen en cuenta para posicionar una página web, muchos de ellos los obtiene con el crawling, entre los que se encuentran:

Antigüedad del dominio.
Enlaces externos que recibe el dominio.
Facilidad de rastreo para el web crawler.
La estructura de la página.
La extension territorial del dominio.
La calidad de los contenidos y actualizaciones.
La existencia o no de errores en su HMTL.
Si está optimizada para dispositivos los móviles (smartphones y tablets).
Velocidad de carga de la web.

Hay más condicionantes para el posicionamiento SEO de los que Google hace públicos y, en cada actualización de su algoritmo, los mismos cambian o pierden relevancia, por tanto es necesario estar muy atento tras las actualizaciones de su algoritmo de posicionamiento.

Crawling

¿Qué es el crawling y tipos de web crawlers?

1. Tipos de web crawlers

2. Aspectos del crawling: Google

Entradas relacionadas

Configuración de cookies

Necesario

Funcional

Publicidad

Analytics