Cómo bloquear la indexación de URLs innecesarias para mejorar tu SEO

Cómo bloquear la indexación de URLs innecesarias para mejorar tu SEO

El posicionamiento en buscadores (SEO) se centra más que nada en aspectos visibles de tu web como el contenido, optimización de etiquetas y los enlaces entrantes y salientes. Pero hay otro elemento muy importante que si no se implementa correctamente puede tener un efecto negativo en tu posicionamiento en los buscadores y se trata del archivo robots.txt

¿Qué es el robots.txt?

Los más novatos no sabrán lo que es, y más si no te has parado a mirar en el archivo raíz de tu hosting, mientras que los más avanzados ya lo conocerán de sobra seguro, pero el caso es que este archivo tienen una función realmente importante en el posicionamiento en buscadores de tu sitio web ya que controla que partes de tu web o blog pueden ver o acceder a ellas los buscadores. O lo que es lo mismo, le dice a los buscadores que partes de tu sitio web no quieres que sean indexadas por ellos, motivo por el que tendrás que asegurarte de hacerlo bien si no quieres acabar bloqueando tu sitio entero a los buscadores.

El archivo robots.txt, como su nombre sugiere es un archivo de texto y como he comentado antes se ubica en el directorio raíz de tu alojamiento web y se puede ver entrando a http://www.tudominio.com/robots.txt (echa un vistazo ahora a ver si en tu sitio web hay uno).

El motivo de que este archivo no esté integrado en la web es porque no es un archivo para los usuarios, es solamente para los rastreadores de los buscadores. Si en tu sitio web había un robots.txt se parecerá a esto:

User-agent: *
Disallow:

Esa es la forma más simple de un robots.txt y ésta es su explicación: el archivo contiene dos elementos: el User-agent que especifica qué buscadores deben obedecer esa orden y el Disallow que especifica que partes de la web no deben ser indexadas.

En este caso el valor del User-agent es *, lo que significa que esa orden va dirigida a todos los buscadores, y Disallow está en blanco porque no se quiere bloquear ninguna URL y se permite acceder al buscador a toda la web.

Ahora cambiemos un elemento:

User-agent: *
Disallow: /

Añadiendo / en el Disallow hemos cambiado el permiso de los buscadores para acceder a todas las partes de la web de forma que ahora no podrán acceder a ninguna parte de tu sitio web y no será indexado. Esto es por lo que debes llevar cuidado al editar el robots.txt de tu sitio web si no quieres que tu sitio desaparezca de los resultados de búsqueda.

Otra cosa que podemos hacer con el robots.txt es dar órdenes específicas para un rastreador de un buscador en concreto, normalmente Googlebot y Bingbot ya que son los que más nos interesan. De esa forma si no queremos que Google indexe determinadas secciones, pero si que queremos que Bing las vea, podremos decírselo como en el siguiente ejemplo:

User-agent: Googlebot
Disallow: /directorio1/
User-agent: BingBot
Disallow: /directorio2/

¿Por qué prohibir el acceso a los buscadores?

Son varias las razones por las que se pueda querer bloquear el acceso a un buscador aunque la más habitual en cuanto a SEO es que hayan páginas que no quieras que sean indexadas por los buscadores por ser contenido duplicado de otras. Por ejemplo, si tenemos varias webs es posible que tengamos en todas la misma política de cookies, política de privacidad, sección de contactar, página de login, etc. Lo mejor en este caso es no indexarlas, aparte de que no es contenido útil que deba salir en los buscadores. Algunos CMS como por ejemplo WordPres crean y modifican el robots.txt según tu configuración del blog, plugins SEO, etc.

Además también podemos utilizar el robots.txt para decirle a los buscadores dónde encontrar nuestro sitemap simplemente añadiendo la siguiente línea:

Sitemap: http://www.tudominio.com/sitemap.xml

Artículos Relacionados
Dejar un Comentario