Todos los que estáis en este mundo de Internet soléis querer dos cosas, tener tráfico web hacia vuestro portal o servicio y que este sea gratuito. Probablemente hayas oído hablar del SEO, hoy hablaremos de un tema importante que tiene que ver con él: el archivo robots.txt, por qué es importante y cómo usarlo.
Conseguir visibilidad para tu sitio apareciendo arriba en las páginas de resultados de Google o de cualquier otro motor de búsqueda, es un objetivo que creo que compartimos todos. Sin embargo, probablemente hay algunas páginas en las que preferirás no dirigir el tráfico, como un área de preproducción o algún contenido duplicado.
Afortunadamente, hay una manera simple de hacerlo en tu sitio WordPress o tu tienda WooCommerce. El uso de un archivo robots.txt alejará a los motores de búsqueda (y, por lo tanto, a los visitantes) de cualquier contenido que desees ocultar, reforzando tus esfuerzos de optimización en cuanto a SEO.
¿De qué hablamos aquí?
De forma breve podemos decir que robots.txt es un archivo de texto sin formato que se almacena en el directorio principal de nuestro sitio web. Su función es dar instrucciones a los rastreadores de motores de búsqueda antes de que exploren e indexen las páginas del sitio.
Para comprender el archivo robots.txt, debes conocer un poco sobre los rastreadores de motores de búsqueda. Estos son programas (o «bots») que visitan sitios web para conocer su contenido. La forma en que los rastreadores indexan las páginas de su sitio determina si terminan en los resultados de los motores de búsqueda, los llamados SERP (y qué tan alto se clasifican en los mismos).
Cuando un rastreador de motores de búsqueda llega a un sitio web, lo primero que hace es buscar un archivo robots.txt en el directorio principal del sitio. Si encuentra uno, tomará nota de las instrucciones que figuran en la lista y las seguirá al explorar el sitio.
Si no hay un archivo robots.txt, el bot simplemente rastreará e indexará todo el sitio (o la mayor parte del sitio que pueda encontrar). Esto no siempre es un problema, pero hay varias situaciones en las que podría resultar perjudicial para tu sitio y tu SEO.
Uno de los usos más comunes de robots.txt es ocultar el contenido (o parte del contenido) del sitio web a los motores de búsqueda. Esto también se conoce como «no permitir» (del inglés disallow) que los robots rastreen ciertas páginas. Aunque parezca algo absurdo y contraproducente, es algo que suele ser necesario.
La primera razón es para proteger su clasificación en los resultados de los motores de búsqueda (a partir de ahora los llamaremos SERP). El contenido duplicado tiende a confundir a los rastreadores de los motores de búsqueda, ya que no pueden enumerar todas las copias en SERPs y, por lo tanto, tienen que elegir qué versión priorizar. Esto puede llevar a algo tan absurdo como que tu propio contenido compita consigo mismo por las primeras clasificaciones, lo cual como podéis comprender es contraproducente.
Otra razón por la que es posible que desee ocultar contenido de los motores de búsqueda es para evitar que muestren secciones de su sitio web que desea mantener en privado, como un área de preproducción o foros privados solo para miembros. Encontrar estas páginas puede crear confusión a tus usuarios y entonces alejar el tráfico del resto de su sitio.
Además de no permitir que los robots exploren ciertas áreas de su sitio, también puede especificar un «retraso de rastreo» en su archivo robots.txt. Esto evitará las sobrecargas del servidor causadas por la carga de robots y el rastreo de varias páginas en su sitio a la vez.
Se puede hacer por varios medios, pero os voy a explicar el más sencillo. Usaremos el plugin Yoast SEO. También podríamos crearlo o editarlo con un editor de textos normal y luego subirlo vía FTP o SFTP pero este método requiere de menos herramientas. Lo primero será que instaléis ese plugin (como siempre en el escritorio de WordPress, en «Plugins», añadir nuevo y lo buscáis, instaláis y activáis).
Una vez tengáis instalado y activo el plugin, sólo tendréis que ir a SEO, Herramientas; y dentro de él en la pantalla que aparece elegís «Editor de archivos», tal como os muestro en la imagen siguiente.
Si ya tienes un archivo robots.txt, se abrirá un editor de texto donde podrás realizar cambios. Si no tienes un archivo robots.txt, verás un botón para crearlo. Lo creará en el sitio adecuado con la ortografía adecuada, pensad que si os equivocáis en el sitio o en cómo se escribe, los buscadores, los ignorarán.
Para comunicarse efectivamente con los rastreadores de motores de búsqueda, deberá asegurarse de que su archivo robots.txt esté escrito correctamente. Todos los archivos robots.txt incluyen un listado de reglas donde se especifica «agente de usuario» y luego «directivas» para que el agente las siga.
Un agente de usuario es un rastreador de motor de búsqueda específico al que se desea dar instrucciones. Por ejemplo:
La segunda parte, las directivas son las instrucciones que desea que sigan los rastreadores de motores de búsqueda. Básicamente daremos dos tipos de directivas: no permitir y retrasar el rastreo. Cuando juntas estos dos elementos, obtienes un archivo robots.txt completo.
Otro elemento de formato importante es el «comodín». Este es un símbolo utilizado para indicar múltiples rastreadores de motores de búsqueda a la vez. Se usa como un asterisco (*) y sustituye a todos los agentes de usuario, por lo que las directivas que siguen se aplicarán a cualquier bot que los lea.
El otro comodín de uso común es el símbolo del dólar ($). Puede representar el final de una URL y se usa para dar directivas que deberían aplicarse a todas las páginas con una finalización de URL específica.
Veamos un ejemplo:
User-agent: * Disallow: /aqui_no_entres/ Disallow: /foro_privado? Crawl-delay: 10
Línea por línea:
También puedes incluir una referencia a dónde está tu sitemap, el mapa del sitio, en el robots.txt para facilitar a los buscadores que encuentren dicho fichero donde indicas tu contenido y su forma a estos motores de búsqueda.
Puedes indicarlo de esta forma:
Muy fácil, al ser un fichero público para que lo vean los buscadores, tú también podrás encontrarlo haciendo lo siguiente: en tu navegador, incluye el dominio del sitio del que quiere ver su robots.txt e incluye robots.txt y con tu navegador podrá verlo, por ejemplo: http://sitioquequierover.com/robots.txt
Así podrás fisgonear los ficheros robots.txt de todo aquel sitio web que te interese.Nota: Hay una valoración incrustada en esta entrada, por favor, visita esta entrada para valorarla.
RedSys aparte de los pagos normales, llamados autorizaciones, acepta una variedad de operaciones: desde autorizaciones…
WooCommerce permite ordenar los productos de una forma nativa, para poder presentar primero los que…
Cada vez que hay una actualización grande del núcleo WordPress, por defecto WordPress te instala…
Una pantalla LCD es una pantalla delgada y hecha de cristal líquido. Se usa en…
De todos los plugins que existen para Gravity Forms, que son numerosos porque la propia…
Un CMS, como WordPress, facilita la creación y gestión de contenido en la web, sin…