SEO & SEM Data Science

Qué es el archivo robots.txt y para qué sirve

    Por Laia Cardona, publicado en 24 mayo 2024

    Un archivo robots.txt es un archivo de texto que se utiliza para decirle a los rastreadores de los motores de búsqueda qué URL del sitio web pueden o no rastrear. Es decir, sirve para especificar qué partes del sitio web deben ser indexadas y cuáles ignoradas por los buscadores, lo que puede ayudar a controlar la visibilidad de cierto contenido dentro de los resultados de búsqueda.


    Que es el archivo robotstxt y para que sirve


    Funciones del robots.txt en el rastreo de una web

    Hay unas funciones o motivos por los que es necesario utilizar un archivo robots.txt en una página web. Una de estas funciones es que permite controlar qué URL deben ser indexadas y cuáles no, lo que hace posible optimizar al máximo el presupuesto de rastreo y evitar que páginas irrelevantes o duplicadas aparezcan entre los resultados de búsqueda, algo que podría afectar de forma negativa al posicionamiento.

    También es una forma de ocultar recursos o controlar el acceso a cierto contenido evitando que PDF, vídeos, imágenes, información sensible u otros contenidos puedan ser rastreados por los motores de búsqueda. En este caso, a través del archivo robots.txt se puede lograr los rastreadores se centren únicamente en el contenido más relevante.


    Cómo crear el archivo robots.txt

    Se puede crear un archivo robots.txt de forma rápida y sencilla, ya que basta con abrir un editor de texto, como el Bloc de notas de Windows o el TextEdit de macOS, y escribir los comandos.

    Cada uno de estos comandos debe ser un user-agent específico, que sirve para indicar a qué motor de búsqueda va dirigido; y una instrucción de allow, para indicarle al rastreador que puede acceder a esa página; o disallow, para indicarle que no.

    Este sería un ejemplo de bloque que puede tener un archivo robot.txt:

    • User-agent: Googlebot

    • Disallow: /wp-admin

    • User-agent: Googlebot

    • Allow: /blog

    • Sitemap: https://www.ejemplo.com/sitemap.xml

    En este caso se le estaría indicando a los rastreadores de Google que, por un lado, se bloquea el acceso a la página de admin de WordPress, mientras que, por otro lado, sí se autoriza el acceso al blog. También debe añadirse el sitemap para indicarle a los rastreadores dónde encontrar el sitemap XML de la página web.


    Sintaxis y ejemplos en un archivo robot.txt

    Para entender mejor la sintaxis y lo que contiene un bloque de archivo robot.txt, a continuación te explicamos qué significa cada uno de los comandos:

    Disallow y Allow

    Disallow y Allow son dos comandos que sirven para indicar qué partes son accesibles para el rastreador y cuáles no.

    Con Disallow se estaría indicando qué partes no son accesibles para el rastreador, por lo que dejar la línea Disallow en blanco significaría que todas las secciones de la web son accesibles. En cambio, con el comando Allow se estaría indicando cuáles son accesibles y puede utilizarse para indicarle al rastreador que acceda a un subdirectorio o página específica dentro de un directorio prohibido.

    Por ejemplo:

    • User-agent: Googlebot

    • Disallow: /blog

    • Allow: /blog/post-de-ejemplo

    En este caso se prohíbe al rastreador de Google acceder al directorio blog, a excepción del post-de-ejemplo, que se encuentra dentro del blog y sí puede ser rastreado.


    User agent

    El User agent sirve para darle órdenes específicas a un motor de búsqueda concreto. Por ejemplo, el User agent de Google es Googlebot, el de Bing es Bingbot y el de Twitter es Twitterbot. En caso de que las órdenes deban seguirlas todos los robots de búsqueda basta con poner un asterisco.


    Sitemap

    Y, finalmente, el Sitemap sirve para que los robots de búsqueda puedan encontrar todas las páginas del sitio. Es un archivo XML que contiene todas las URL de la web, por lo que le da a los motores de búsqueda una guía estructurada del contenido que hay en el sitio. En este caso deberá especificarse así: https://www.ejemplo.com/sitemap.xml.


    ¿Dónde ubicarlo?

    Para que los rastreadores puedan encontrar el archivo robots.txt deberá ubicarse en el directorio raíz del sitio web. Es decir, en la carpeta principal, donde se encuentran todos los archivos principales del sitio web, y su URL debería ser: nombre-del-dominio.com/robots.txt.

    Ebook las 20 + 1 claves para un buen posicionamiento SEO en buscadores

    Laia Cardona