Robots.txt

Définition

Le fichier robots.txt est un fichier texte placé à la racine d’un site (ex. https://ipzen.com/robots.txt) qui indique aux robots d’exploration quelles parties du site ils peuvent ou non parcourir. Il suit le Robots Exclusion Protocol, officialisé comme standard par l’IETF en 2022.

À quoi il sert

Bloquer le crawl des espaces privés (zones d’administration, comptes utilisateurs)
Préserver le budget de crawl sur les sites volumineux
Empêcher l’indexation de doublons ou de filtres e-commerce
Déclarer l’emplacement du sitemap XML

Bonnes pratiques

Un robots.txt mal configuré peut bloquer involontairement tout le site. Quelques règles clés :

Ne jamais utiliser Disallow: / sans raison sur un site en production
Ne pas s’en servir pour cacher du contenu sensible : il est public et n’empêche pas l’indexation via des liens externes
Tester avec l’outil de Google Search Console avant tout déploiement
Préciser les User-agent ciblés (Googlebot, Bingbot, GPTBot, ClaudeBot, etc.)

Robots.txt

Robots.txt

Définition

À quoi il sert

Bonnes pratiques

CARACTÉRISTIQUES

S'inscrire à notre newsletter

RESSOURCES

CONTACT