Existe un protocolo alrededor del archivo robots.txt, que se coloca en la carpeta raíz de nuestro sitio web. El archivo se puede editar con cualquier programa de bloc de notas como el Notetap y se compone de las siguientes líneas:
User-agent:
Disallow:
Tras «User-agent:» hemos de colocar el código del robot al que nos queramos referir.
Tras «Disallow» debemos especificar los directorios o documentos que queremos ocultar o que recorran los robots. El símbolo barra significaría todos los directorios a partir del mismo, si no se pone nada es que está permitido recorrer ese directorio y subdirectorio.
http://www.youtube.com/watch?v=CrvDOYp4EjA
Lo veremos más fácilmente con ejemplos:
Si queremos impedir la lectura al robot de Google todo nuestro site, pondremos:
User-agent: googlebot
Disallow:/
Si queremos dar acceso completo al robot de Altavista:
User-agent: scooter
Disallow:
Si queremos que la prohibición se haga extensiva a cualquier robot deberemos poner un asterisco.
User-agent: *
Disallow: /
Por el contrario, para invitarles a un acceso completo:
User-agent: *
Disallow:
Este último ejemplo sería equivalente a crear un fichero robots.txt en blanco.
En la mayoría de los casos se da que tenemos directorios que no nos interesa que los buscadores puedan entrar. Por ejemplo, si quisiéramos excluirles de los directorios «intranet» y «confidencial»
User-agent: *
Disallow: /intranet/
Disallow: /confidencial/
Finalmente, si no quisiéramos que indexaran los archivos PDF
User-agent: *
Disallow: /*.pdf/
Existe un listado completo de robots con sus especificaciones en
http://www.robotstxt.org/wc/active/all.txt
Hay etiquetas o metatags que hacen la tienen funciones similares a la de los ficheros robots.txt. Los robots siempre van a dar prioridad al robots.txt si este existe.
Estas instrucciones son «index», que invita al robot a analizar la página («noindex» si queremos prohibírselo) y «follow» que le invita a seguir los enlaces que encuentre en ella (o «nofollow» que se lo prohíbe). Los valores ALL y NONE pueden usarse para dar todos los permisos o denegarlos de ese modo
Ejemplos:
<meta name=»robots» content=»index,follow»> sería equivalente a <meta name=»robots» content=»all»>
y por el contrario :
<meta name=»robots» content=»noindex,nofollow»> produciría los mismos efectos que <meta name=»robots» content=»none»>
¡Muchas gracias y espero sus comentarios!
Profesor de Dirección de Sistemas y Tecnologías de la Información
Nota: aprender de una forma práctica y rápida como poner en marcha, desarrollar y controlar planes de marketing interactivo, publicidad digital y comunicación online totalmente eficaces, les invitamos a que consulten la Especialidad Europea en Marketing Interactivo y Publicidad Digital
* Los contenidos publicados en este post son responsabilidad exclusiva del Autor.
¡Pronto grandes sorpresas en Facebook, Twitter y Youtube!: