Primer nivel – Piramide SEO

Primer nivel – Piramide SEO
Robots.txt Primer nivel – Piramide SEO

estándar de exclusión de robots
El estándar de exclusión de robots, también conocido como el protocolo de la exclusión de robots o protocolo de robots.txt es un método para evitar que ciertos bots que analizan los sitios Web ya sean públicos o privados, agreguen información innecesaria a los resultados de búsqueda. Existen numerosos crawler (rastreadores) en la web. Googlebot es el nombre del crawler del buscador Google Googlebot-Image, robot indexador de imágenes de Google. Bingbot, bot de indexación del buscador Bing de Microsoft Slurp, se encargaba de la indexación del antiguo buscador Yahoo! Scooter, bot del metabuscador Altavista. Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.

<META name="robots" content="NOINDEX">
Robots.txt El archivo robots.txt se encuentra en la raíz de un sitio e indica a qué partes no queremos que sean accesibles por los rastreadores de los motores de búsqueda. Utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio por sección y por tipos específicos de rastreadores web. Es un protocolo simplemente consultivo por lo que de esta forma no evitamos el acceso a los contenidos, simplemente indicamos a los bots o arañas que rastrean la red las partes de nuestra web que no deseamos sean indexadas. NO SE USA PARA SEGURIDAD. Aunque los rastreadores web respetables siguen las indicaciones de los archivos robots.txt, cada rastreador puede interpretar las indicaciones de forma distinta. Las indicaciones de robots.txt no pueden impedir las referencias a las URL que provienen de otros sitios. En estos casos la mejor opción es usar una combinación de robots.txt y el uso de metaetiquetas HTML. <META name="robots" content="NOINDEX">

Creación de robots.txt El fichero robots.txt es un fichero de texto con unas simples líneas de comando que debe de encontrarse en la raíz de nuestro sitio web. En caso de que no se encuentre se entenderá que el acceso completo esta permitido. Hay que indicar que las mayúsculas y minúsculas son diferentes por lo que usuarios y Usuarios son cosas diferentes. User-agent: * Disallow: Esto es como si no estuviera, se permite a todos los robots el acceso y no restringimos ningún contenido

Uso de User-Agent En User-agent podemos indicar el nombre del robot al que queremos aplicar las indicaciones y a continuación las rutas donde queremos permitir o prohibir que se acceda. Normalmente indicamos las mismas restricciones para todos los bots pero podríamos añadir distintas restricciones para cada bot. Cada vez que añadamos un User-agent deberemos dejar una línea en blanco de separación. # Crawler de Bing User-agent: bingbot Disallow: /usuarios.html Disallow: /privado/ Disallow: /pdf/ # Crawler de Yahoo User-agent: slurp

Uso de Disallow El comando Disallow se utiliza para restringir.
Disallow: / prohibe el acceso a todo el sitio. ¡CUIDADO¡ Disallow: /privado/ prohibe el acceso al directorio privado. Disallow: /usuarios.html prohíbe el acceso a una página en concreto Disallow: permite el acceso a todo el sitio al igual que si no decimos nada. Lo normal es que el robots actúen por igual con todos los User- agent El comodín * equivale a todo, por ejemplo *.pdf indicaría todos los pdf El comodín $ indica que acaben con esos caracteres, por ejemplo *.pdf$ indicaría todos los archivos que terminen en .pdf

Sitemap: http://www.midominio.com/sitemap.xml
Acceso al sitemap.xml La primera línea de nuestro robots.txt debería de ser la indicación del sitemap de forma que facilitemos la indexación de los contenidos que pretendemos priorizar de cara al bot. Lo haremos introduciendo la línea Sitemap:

Consideraciones importantes
El nombre del archivo debe ser robots.txt, todo en minúsculas. Se debe tener un robots.txt por dominio y por cada subdominio. Si no tienes interés en bloquear el acceso de los bots a partes de tu sitio, de todos modos crea un robots.txt que contenga lo siguiente: Sitemap: User-Agent: * Disallow: Si establecemos directivas generales para User-agent: * y después establecemos directivas especificas a un bot en concreto este bot obedecerá solo esas directivas específicas y no las generales. El 27 de Octubre del 2014 se actualizan las directrices para webmasters, indicando que “Para que Google pueda entender completamente el contenido de tu sitio debes permitir que se rastreen todos los elementos de tu sitio como, por ejemplo, CSS y archivos de JavaScript”. Por tanto no debemos de impedir el acceso de los robots a las carpetas donde tengamos nuestras hojas de estilos y los archivos de Javascript.

Etiqueta Meta robots <META name="robots" content="NOINDEX">
En el atributo Content de la etiqueta meta debemos colocar las directrices que deseemos para buscadores, tantas como deseemos, separadas por comas. Las distintas directrices a aplicar son las siguientes: INDEX / NOINDEX : Indica si permitimos la indexación o no de la página por los motores de búsqueda. FOLLOW / NOFOLLOW : Con esta opción indicamos si permitimos o no seguir el rastreo de los enlaces que se encuentran en la página. Un ejemplo sería este para permitir el indexado de la página y sus enlaces <META name="robots" content="INDEX,FOLLOW"> o este donde permitimos el indexado de la página pero que no se sigan sus enlaces <META name="robots" content="INDEX,NOFOLLOW">

Ejemplo real – Casa Real

Primer nivel – Piramide SEO

Presentaciones similares

Presentación del tema: "Primer nivel – Piramide SEO"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Primer nivel – Piramide SEO

Presentaciones similares

Presentación del tema: "Primer nivel – Piramide SEO"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback