Rogama Informática

Como mejorar el rastreo de Google

Tabla de contenidos

Pues la verdad es que iba a empezar directamente al grano, pero luego he caido en que muchos de los que me leeis no sois tecnicos y si tengo suerte me pedis que os traduzca, y si no dejais de leer a la segunda linea, asi que voy a intentar empezar de cero; si por el contrario ves que lo que cuento es super básico, justo encima de estas lineas esta la tabla de contenidos, para que te saltes la parte que te aburre y puedas ir al grano, aprovechando el 100% de tu tiempo.

¿Que es el rastreo de Google?

Google y otros buscadores, rastrean tu web, eso quiero decir que entran y la leen, y aunque por desgracia no hay formulas ni formas exactas para saber cuanto tiempo o cuantas URLs, si tenemos cierta forma de ver como nos rastrea y las solicitudes que hace a nuestra web, y como suelo decir, lo que no se mide no se puede mejorar, o mejor para este caso, al poder medirlo podemos mejorarlo.

¿Para que quiero mejorar el rastreo de Google?

Es sencillo, cuanto más tiempo y URLs lea de nuestra web, antes se enterara de las URLs nuevas que publiquemos, y de los cambios que realicemos en las que tenemos, y esto lo queremos para no tener que esperar la vida en que los cambios que realicemos tengan efecto en los rankings.

¿Como puedo ver cuanto me rastrea Google?

Hay varias maneras de verlo, podemos ver los logs de nuestro servidor con herramientas como Screaming Frog Log File Analyser, filtrando por Bot de Google y sus IPs o algo muchisimo mas sencillo y que para el 90% de los casos es suficiente, y es ver los datos que nos da Google en Search Console, aqui te voy a explicar esto, si quieres que amplie con Screaming Frog en otro articulo dejamelo en los comentarios.

Vamos a ajustes en Search Console
Entramos en estadísticas de rastreo
Tenemos en pantalla nuestra gráfica de rastreo

Ahora que sabemos ver cuantas veces pasa Google por nuestra web, o al menos las que nos quiere comunicar, deberemos fijarnos en la línea azul, el número total de solicitudes (es importante que pase diariamente por nuestra web); además en esas solicitudes, están las URLs que pide, pero tambien los CSS, JS, imágenes, PDF, etc, asi que ojo, el valor suele ser menos optimista de lo que podemos pensar.

La línea naranja es el tiempo de respuesta media de nuestra web para esas solicitudes, esto como es lógico, cuanto mas bajo mucho mejor, igualmente es un promedio de todas las solicitudes no solo del HTML.

Tenemos la opción de ver también el total del peso de la descarga, aunque pocas veces es relevante ya que suele estar muy de la mano con el tiempo de respuesta.

Rastreo por código de respuesta

rastreo por codigo de respuesta

Aquí podemos ver el grafico de las solicitudes de cada tipo de respuesta, el objetivo es tener el código 200 lo más alto posible, y que el resto de codigos practicamente desaparezcan; asi le estamos diciendo al buscador, no tengo errores, mi web esta limpia y cuidada, y además todo el tiempo que inviertes en mi web es tiempo de utilidad.

Pero ojo con un pequeño detalle, en la captura superior ves un 11% de solicitudes con codigo 304 este código dice que no se ha modificado, es un codigo muy positivo especialmente en imágenes, para evitar que pierda tiempo solicitando imagenes que ya tiene procesadas.

Rastreo por tipo de archivo

rastreo por tipo de archivo

Este gráfico muy similar al anterior nos indica el tipo e archivos que se estan solicitando, cada web es diferente, pero podemos ver si falta algun tipo como el CSS, o JS, por que esten bloqueados en el robots.txt por ejemplo, lo cual impedira el renderizado de la web en las peticiones de los robots.

Coger con pinzas esto, ya que cada web es diferente, pero en la mayoria el porcentaje de HTML debe ser superior al de las imágenes y ficheros de renderizado (CSS, JS)

OK, ya se leer el rastreo de Google en mi página. ¿Cómo lo mejoro?

Hay que identificar donde tenemos el mayor margen de mejora, y comenzar por allí, en las capturas anteriores hay más amrgen de mejora en los codigos de respuesta, asi que empecemos por alli.

Mejorar el rastreo de Google optimizando los códigos de respuesta

En este caso, lo primero que debemos hacer es eliminar los errores en las respuesta de nuestro servidor, en la captura anterior de los códigos de respuesta, puedes ver un 4% de errores 404, y un 3% de 301, tambien se aprecia menos de un 1% de errores 5xx, si lo sumamos todo, tendremos casi un 8% de oportunidad de mejora, en ocasiones esta cifra sera tan baja que no merecera la pena invertir tiempo en mejorar esto, pero en otras ocasiones esta mejora sera considerable, me he encontrado con webs con más del 50% de errores 404 o redirecciones 301, solucionando solo ese punto tendremos un impacto importante en el rastreo.

Es decir; en el ejemplo que os he compartido solo con esta mejora conseguiremos que ese casi 8% de solicitudes sin valor que hace Google sea en las páginas que si queremos posicionar y que tienen valor; esto no quiere decir que Google pase un 8% más de tiempo en nuestra web, pero si que sera un 8% más productivo, y es que no siempre más es mejor.

Consecuencias que solemos tener tras optimizar esta parte:

  • Google se entera antes de los cambios que realizamos
  • Al dar imagen de tener una web mas cuidada (menos errores) aumentan las solicitudes

Mejorar el rastreo de Google optimizando los archivos que solicita

En nuestro ejemplo teniamos un 35% de solicitudes HTML, y un 31% de imagenes, lo cual indica que probablemente es un blog, ya que tiene bastantes imagenes, pero el ratio es casi 1-1 con los contenidos HTML, en cuanto al CSS teniamos un 12% y un 3% de JS, es una web con pocas animaciones, y bastante estatica, si sumamos los porcentajes del CSS y del JS tenemos un 15%, lo cual es menos de la mitad del HTML, la oportunidad de mejora es minuscula, seguramente no sea necesaria, y en caso de optimizarla el impacto sea nulo.

En otros casos en los que nos encontremos porcentajes mucho más elevados, lo primero que debemos preguntarnos es: ¿es necesario? Hay muchas webs que dependen del JS para todo, por lo que ese porcentaje es muy elevado, aunque no es lo más optimo para que los buscadores lo entiendan. Si no fuera necesario necesita optimizacion, para optimizar esto ha 2 formas:

  • Eliminar los recursos que no sean necesarios (por ejemplo si se solicitan 100 JS o 50 hojas de estilos que incluyen información para paginas que no son las que estamos visualizando, seguramente podamos eliminar esos ficheros de las peticiones)
  • Reducir su peso, ya sea minificando o eliminando contenido que no sea necesario

Mejorar el rastreo de Google optimizando el tamaño o peso

Antes os he dicho que no suelo hacer mucho caso a la gráfica de peso, y es por que esta estrechamente ligada a los tiempos de respuesta.

estadisticas de rastreo y tiempos de respuesta

Como veis la gráfica esta practicamente pareja, excepto momentos puntuales en los que se dispara cualquiera de las 2 por otras causas, pero al final el peso de los documentos de la web, esta estrechamente ligado al tiempo de respuesta, por lo tanto si lo optimizamos, tendremos mejor tiempo de respuesta y esto suele tener un impacto directo en el rastreo, ya que si por ejemplo nos dedican 1 minuto a rastrear nuestra web, y tardamos en responder 6 segundos, tan solo podra pedir 10 URLs (10 Urls x 6 segundos = 60s) en cambio si optimizamos 1 segundo la respuesta habremos conseguido que pida un 20% más URLs en el mismo tiempo (60 segundos / 5s = 12 URLs)

Como veis con una mejora de un segundo conseguimos un impacto importante, si sumamos esta mejora a todas las anteriores, la tasa de solicitudes aumenta inevitablemente, con lo que Google y otros buscadores se enteran mucho antes de las URLs nuevas que publicamos, y de los cambios que hacemos a las existentes, y estos se traduce en un impacto mucho antes de todas y cada una de nuestras acciones.

La teoria esta muy bien, ¿pero esto es real?

Aumento de solicitudes de Google

En esta web de uno de mis clientes podemos ver como tras unas mejoras, el tiempo de respuesta de su web bajo casi en un 50% y con ello conseguimos que Google realizara un x30 en solicitudes diarias.

Lo cual además le llevó a tener 5 veces más visitas a su web cada día, como puedes ver aquí debajo

cinco veces mas trafico

Y el primer impacto que se puede esperar tras estas acciones es conseguir más apariciones en las busquedas de los usuarios, tras las que luego llegan los clicks aunque en este caso llegaron casi a la par.

Search Console mas visitas

¿Tu web tiene un problema de rastreo como este?

Esto no es un caso aislado, es lo que suele pasar cuando nadie revisa el Crawl Budget de una web. Reservemos una sesión 1 a 1 y lo revisamos juntos en directo.

Reserva tu sesión 1 a 1 →

Ok, pero ¿esto trae negocio o solo son visitas sin valor?

Pues aqui te dejo la subida de una de las KW que nos dejo mostrar el cliente en el blog de Dean Romero 

dinorank trackin de posiciones Excavaciones en Barcelona

Pero hay algo más importante aún la conectividad de servidor

Nada de lo anterior sirve si tenemos problemas de conectividad, y cuando Google nos solicita nuestra web, marcamos error, como podeis ver en esa grafica se marcan casi un 14% de errores, aunque casi a diario tenemos porcentajes menores, si Google nos hace una petición y no somos capaces de devolver contenido usable, marcamos errores, es aún peor que devolver redrecciones o 404.

Errores de conectividad de servidor

Lo cual da el resultado contrario, al objetivo que buscamos, en la gráfica inferior se puede ver como tenemos una media de 63 solicitudes diarias, al comienzo, del periodo (90 dias) tras el cual tenemos tan solo una media de 46 solicitudes diarias, por lo que en solo 90 dias hemos perdido unas 17 solicitudes diarias.

solicitudes en bajada

Este sitio lleva asi meses, ya que esos errores los da el servidor y aunque le hemos sugerido al cliente cambiar a Lucus para mejorarlo, no ha querido y por lo tanto sigue en bajada, la lastima de esto es que cualquier acción que se realice no tendrá impacto o lo tendrá mucho despues, por que al bajar el Crawl Budget Google se entera despues, pero además como le estamos mandando señales negativas, penaliza el funcionamiento y la calidad de toda la web; para que quede mas claro pongo el gráfico con la linea de tendencia.

tendencia de rastreo en bajada

Otros factores que importan

Para mi esto es lo mas importante en cuanto a optimizar el Crawl Budget, pero hay otros factores de los que no nos debemos olvidar, y que aunque directamente no mejoran el presupuesto de rastreo, si ayudan a que los robots rastreen nuestra web y a guiarlos hacia el contenido que para nosotros es importante, por lo que los quiero mencionar a continuación:

Enlazado interno y arquitectura web

Si trabajamos y optimizamos el enlazado interno, seremos capaces de guiar al bot hacia las páginas que para nosotros son más importantes e incluso ayudarle a descubrir nuevos contenidos, por lo que debemos tener muy buena base sobre los silos, cluster, arquitectura plana, etc y algo que parece obvio, pero no tener páginas huerfanas en nuestra web. (Todo esto lo explico en mi curso de SEOWarriors)

Contenido duplicado, canonical, y URLs con parámetros

Muy de la mano con el punto anterior es este, ya que si tenemos a los robots rastreando varias veces las mismas URLs solo por que tienen un parámetro, o tenemos contenido duplicado, estaremos desperdiciando ese precioso tiempo que nos dedican a entender nuestra web, y aunque es una de las cosas que debemos ver, mejorar y controlar, encaja mas con tener contenido sano, con canonicals correctas, y etiquetas hrelang bien implementadas (si es un sitio multilingüe) que con la optimización del propio rastreo, ya que de tenerlo mal, nos penaliza en el rastreo, pero de tenerlo bien no mejora.

Sitemap

El Sitemap.xml de la web, es uno de los documentos más importantes y que debemos trabajar y mantener actualizado, cuando lo damos de alta en Search Console o en Bing WebmasterTool, le damos un indice de todas las URLs que queremos que rastree, esto en si, tampoco optimiza el rastreo, pero si ayuda a que se descubran todas nuestras URLs.

Actualización o Freshness

En el apartado de rastreo de Google seguro que has visto la grafica de «Por finalidad» y tan solo tiene 2 valores:

  • Actualización
  • Detección

Es decir Google ya nos esta dando pistas, puede pasar para descubrir nuevo contenido o cambios sobre el que ya tenemos, le gusta el contenido actualizado y «fresco» así que siempre que puedas pasate por tus publicaciones y actualízalas, pero no me refiero a entrar y darle a actualizar, cambiar la fecha de modificación, o cosas similares, curratelo, borra las partes que ya están obsoletas, actualiza con imágenes nuevas o información actual y verás como te premia tanto en posicionamiento, como pasando aún más por tu web

Conclusión: revisa y preocupate por tu Crawl Budget, o lo que es lo mismo, el presupuesto de rastreo

Aunque Google dice que los sitios pequeños no deben preocuparse de el; en la practica afecta a todos los sitios, si que es verdad que cuando tu web tiene 50-100 páginas o incluso menos, con tan solo 10-15 solicitudes diarias Google revisa tu web entera en pocos días, y una web de miles o millones de URLs tiene que tener estoy muy bien atado, pero tu dime, ¿si haces un cambio quieres que Google se entere hoy, o dentro de 3 días? Por esa razón debes optimizarlo, sea del tamaño que sea tu web.

Preguntas Frecuentes sobre el Crawl Budget

¿Cuánto tarda Google en rastrear mi web?

Depende de varios factores, pero como referencia:

  • Web nueva: puede tardar desde unas horas hasta varias semanas en ser rastreada por primera vez.
  • Web con cierta autoridad y actualizaciones frecuentes: el rastreo puede producirse en minutos, horas o pocos días tras publicar contenido nuevo.
  • Webs grandes o muy populares: algunas páginas se rastrean varias veces al día.

La frecuencia de rastreo depende principalmente de:

  • La autoridad y popularidad de la web.
  • La frecuencia con la que se publica contenido nuevo.
  • La calidad del enlazado interno.
  • La velocidad y disponibilidad del servidor.
  • Los enlaces externos que recibe la página.

Si quieres acelerar el proceso, puedes solicitar la indexación desde Google Search Console mediante la herramienta Inspección de URLs. Aunque esto no garantiza un rastreo inmediato, suele ayudar a que Google descubra antes los cambios.

En cualquier caso, conviene recordar que rastreo e indexación no son lo mismo: Google puede rastrear una página rápidamente, pero decidir indexarla horas, días o incluso semanas después.

No directamente. El rastreo no es un factor de posicionamiento, pero sí es un requisito para que Google pueda evaluar y clasificar una página.

En otras palabras:

  • Si Google no rastrea una página, no puede descubrir su contenido ni sus cambios, por lo que difícilmente podrá posicionarla.
  • Si Google la rastrea, eso no significa que vaya a posicionarla mejor. Después debe analizarla, decidir si la indexa y valorar su relevancia y calidad frente a otras páginas.

Por eso, un rastreo frecuente puede ser beneficioso de forma indirecta, especialmente si publicas contenido nuevo o realizas mejoras SEO. Cuanto antes detecte Google esos cambios, antes podrá tenerlos en cuenta en los resultados de búsqueda.

El crawl budget (presupuesto de rastreo) es la cantidad de recursos y tiempo que Googlebot está dispuesto a dedicar a rastrear un sitio web en un periodo determinado.

Dicho de forma práctica: Google no rastrea todo lo que existe en una web sin límites. Decide cuántas URLs visita, con qué frecuencia y hasta dónde “merece la pena” seguir rastreando.

Es la velocidad a la que Google puede rastrear tu web sin sobrecargar el servidor.

  • Si tu servidor responde rápido y sin errores → Google puede rastrear más.
  • Si hay lentitud o errores 5xx → Google reduce el ritmo.

Es el interés de Google en tu contenido.

Sube si:

  • Publicas contenido nuevo con frecuencia
  • Tienes páginas que reciben muchas visitas o enlaces
  • Tu web es relevante o tiene autoridad

Baja si:

  • El contenido es viejo o no cambia
  • Hay muchas páginas de baja calidad
  • Hay duplicados o thin content
  • Tienes errores en la web o servidor

¿Empezamos a optimizar el rastreo de tu web?

Mejorar el Crawl Budget no es solo teoría: cuando se hace bien, el impacto en tráfico y negocio es real. Hablemos en una sesión 1 a 1 y vemos juntos por dónde empezar.

Reserva tu sesión 1 a 1 de consultoría SEO →

Deja un comentario