¿Qué es un crawler o araña web?

¿Qué es un crawler o una araña web?

Un crawler, también conocido como araña web, es un software o programa automatizado que se encarga de recorrer todos los enlaces de las páginas webs de una forma automatizada y sistemática. Es decir, va inspeccionando todas las páginas web existentes.

Cuando entra en una web empieza a inspeccionarla toda. Va a analizar, rastrear toda la web, siguiendo todos los enlaces que se encuentre.

¿Cómo funciona un crawler?

Los diferentes motores de búsqueda envían arañas webs para visitar los distintos sitios y de esa forma recolectar páginas web.

Cuando una araña visita un sitio web hace estas dos cosas:

  • Busca el archivo robots.txt y la meta etiqueta robots para ver las reglas que se han estipulado para esa web.
  • Elabora un índice de las páginas web que hay en el sitio. Para ello explora todo el contenido del texto visible, de las etiquetas HTML y los hipervínculos en listados en la página.

Normalmente, un crawler dispone de un conjunto inicial de URLs, conocidas como semillas, y va descargando las páginas web asociadas a las semillas y buscando dentro de éstas otras URLs.

Cada nueva URL encontrada se añade a la lista de URLs que la araña Web debe visitar. Por tanto, va recolectando URL’s para posteriormente procesarlas.

¿Para qué sirven las arañas web?

Los motores de búsqueda envían arañas y robots para visitar los distintos sitios y recolectar páginas web.

Dependiendo del motor de búsqueda, la información es indexada y enviada a la base de datos del motor de búsqueda.

Diferentes arañas web existentes

Motores de búsqueda distintos utilizan diferentes robots como sus arañas web.

Los crawlers utilizados por los distintos buscadores como, por ejemplo, Google.

Existen multitud de arañas web. Las más importantes son las siguientes:

  • Googlebot: La araña web utilizada por Google. Es el crawler más famoso del mundo.
  • Bingbot: El crawler utilizado por Bing.
  • Slurp bot: La araña del buscador Yahoo.
  • DuckDuckBot: El crawler utilizado por DuckDuckGo.
  • Baiduspider: Es crawler del buscador chino Baidu.
  • YandexBot: Es la araña del buscador ruso Yandex.
  • Sogou Spider: Es el bot del buscador chino Sogou.
  • Exabot: Es el crawler de Exalead.

Deja tu comentario