Cuando hablamos de la frecuencia de rastreo o Crawl Rate, hablamos de la frecuencia de paso de los robots para que analicen nuestro website para indexar nuevas páginas o actualizaciones.
En el caso de Google (por mencionar al más importante), tenemos 3 tipos de bots:
- Googlebots: Partiendo de la información previamente almacenada, rastrean con el objetivo de ampliar y actualizar los datos de los índices, así como identificar los objetos obsoletos.
- Freshbots: Rastrean urls de actualización frecuente para indexar contenido nuevo, lo más reciente. Por ejemplo, la página de un periódico, revista, etc.
- Deepbots: Es un explorador que investiga en profundidad la red intentando seguir todas los enlaces, además de poner la página en el cache y dejarla disponible para Google.
Esta es la base que luego permite construir el Pagerank y toda la plataforma Google.
¿Qué es PageRank? Según Wikipedia:
“PageRank confía en la naturaleza democrática de la web utilizando su vasta estructura de enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, de la página A, para la página B. Pero Google mira más allá del volumen de votos, o enlaces que una página recibe; también analiza la página que emite el voto. Los votos emitidos por las páginas consideradas “importantes”, es decir con un PageRank elevado, valen más, y ayudan a hacer a otras páginas “importantes”. Por lo tanto, el PageRank de una página refleja la importancia de la misma en Internet.”
La frecuencia de rastreo de los bots viene dada por un algoritmo propio. El Pagerank es un factor decisivo que determina la frecuencia de rastreo, así como la relevancia y popularidad, pero también hay otros muy importantes a tener en cuenta.
También Google te permite establecer o cambiar la frecuencia de rastreo de tu web desde las Webmaster Tools, aunque eso no quita que se deban revisar todos los aspectos de la web.
Algunos consejos para mejorar la frecuencia de rastreo:
- Regularidad de subida de contenidos.
- Calidad de los títulos y contenidos.
- Uso de buenas técnicas SEO o White Hat: Títulos y meta data, estructurar el contenido, uso eficiente de Keywords, enlaces de calidad… Schema: http://schema.org/docs/gs.html
- Un código limpio y claro. Eso a veces es difícil utilizando paquetes como WordPress, Joomla, Drupal, etc.
- El peso en KB de cada página es muy importante. http://www.emezeta.com/articulos/reducir-el-tiempo-de-carga-de-nuestra-web#axzz1mMagqFx8
- No utilizar técnicas penalizadas de Black Hat : https://davidvinuales.com/2012/03/15/seo-tecnicas-prohibidas-o-black-hat/
- Evitar el uso de tecnologías menos indexables como FLASH.
- Influye también el número de enlaces, tanto internos como externos. Para los externos es importante dedicar un tiempo en blogs, foros, formar parte de directorios, etc.
- Crear un sitemap del website para facilitar la labor de los bots. En el siguiente website os genera un xml con vuestros datos: http://www.xml-sitemaps.com/
- Crear un archivo de robots.txt para evitar que indexen partes que no te interesen. Un enlace recomendable: http://www.robotstxt.org/
- Cuantas más secciones, mejor. El tamaño sí importa :) http://www.publicidadeninternet.com.co/la-importancia-del-tamano-y-la-calidad-de-tu-web-para-atraer-trafico/
- Si tienes competencia, échale un vistazo para tratar de mejorarla.
- Las redes sociales, sobre todo Google+ , Twitter y Facebook. Google tiene en cuenta los enlaces compartidos, la importancia de estos links se calcula a partir de la influencia del autor. http://www.seomoz.org/blog/google-bing-confirm-twitter-facebook-influence-seo
No todo es PageRank. Podéis ver lo que opinan los profesionales SEO sobre los criterios de posicionamiento: http://www.seomoz.org/article/search-ranking-factors
Como detalle anecdótico, os adjunto un artículo de como Google ajustó Googlebot para no penalizar webs que se hayan sumado al blackout contra SOPA.