Robots.txt

Robots.txt

Définition

Le fichier robots.txt est un fichier texte placé à la racine d’un site (ex. https://ipzen.com/robots.txt) qui indique aux robots d’exploration quelles parties du site ils peuvent ou non parcourir. Il suit le Robots Exclusion Protocol, officialisé comme standard par l’IETF en 2022.

À quoi il sert

  • Bloquer le crawl des espaces privés (zones d’administration, comptes utilisateurs)
  • Préserver le budget de crawl sur les sites volumineux
  • Empêcher l’indexation de doublons ou de filtres e-commerce
  • Déclarer l’emplacement du sitemap XML

Bonnes pratiques

Un robots.txt mal configuré peut bloquer involontairement tout le site. Quelques règles clés :

  • Ne jamais utiliser Disallow: / sans raison sur un site en production
  • Ne pas s’en servir pour cacher du contenu sensible : il est public et n’empêche pas l’indexation via des liens externes
  • Tester avec l’outil de Google Search Console avant tout déploiement
  • Préciser les User-agent ciblés (Googlebot, Bingbot, GPTBot, ClaudeBot, etc.)