Copyright © 2024 IPzen | Mentions légales | Politique de confidentialité | Politique cookie
Robots.txt
Robots.txt
Définition
Le fichier robots.txt est un fichier texte placé à la racine d’un site (ex. https://ipzen.com/robots.txt) qui indique aux robots d’exploration quelles parties du site ils peuvent ou non parcourir. Il suit le Robots Exclusion Protocol, officialisé comme standard par l’IETF en 2022.
À quoi il sert
- Bloquer le crawl des espaces privés (zones d’administration, comptes utilisateurs)
- Préserver le budget de crawl sur les sites volumineux
- Empêcher l’indexation de doublons ou de filtres e-commerce
- Déclarer l’emplacement du sitemap XML
Bonnes pratiques
Un robots.txt mal configuré peut bloquer involontairement tout le site. Quelques règles clés :
- Ne jamais utiliser
Disallow: /sans raison sur un site en production - Ne pas s’en servir pour cacher du contenu sensible : il est public et n’empêche pas l’indexation via des liens externes
- Tester avec l’outil de Google Search Console avant tout déploiement
- Préciser les User-agent ciblés (Googlebot, Bingbot, GPTBot, ClaudeBot, etc.)