Imaginez que votre site web soit une maison. Le fichier robots.txt, c'est comme un panneau à l'entrée qui dit aux visiteurs robots de Google : "Vous pouvez entrer dans ces pièces, mais pas dans celles-là".
En termes simples : robots.txt est un petit fichier texte qui donne des instructions à Google sur ce qu'il peut ou ne peut pas regarder sur votre site.
Exemple d'URL :
https://socium.fr/robots.txt
https://www.art-conseil-technique.com/robots.txt
Pourquoi c'est important ?
Imaginez que vous avez :
Le robots.txt vous permet de dire à Google : "Montre mes articles, mais ignore mes pages d'administration".
Imaginez que vous ayez une page où vous vous connectez pour gérer votre site. Vous ne voulez pas que cette page apparaisse quand quelqu'un cherche votre nom sur Google !
Exemples de pages à protéger :
Avec robots.txt, vous dites à Google : "Ne montre pas ces pages au public".
Google est comme un visiteur pressé : il n'a pas le temps de regarder toutes les pages de votre site chaque jour. Il a un "budget de temps" limité.
Analogie simple :
Solution : Avec robots.txt, vous bloquez les 30 pages inutiles (admin, tests, etc.). Maintenant Google se concentre sur vos 70 vraies pages et les explore en 3-4 jours au lieu de 5.
Résultat : Vos nouvelles pages apparaissent plus vite dans Google !
Si vous avez la même page accessible de 2 façons différentes (version normale + version PDF par exemple), Google peut être confus. Avec robots.txt, vous lui dites : "Ignore la version PDF, concentre-toi sur la version normale".
Le robots.txt peut dire à Google : "Hey, voici mon plan du site (sitemap) complet !". Comme ça, Google sait immédiatement toutes les pages qui existent.
Sitemap: https://socium.fr/sitemap.xml
C'est comme donner un plan de votre maison au visiteur dès l'entrée.
Voici à quoi ressemble un fichier robots.txt basique :
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction en langage courant :
User-agent: * → "Pour tous les robots qui visitent mon site"Disallow: /admin/ → "N'entre pas dans le dossier /admin/"Allow: / → "Tu peux visiter tout le reste"Sitemap: → "Au fait, voici le plan complet de mon site"Vous avez seulement besoin de connaître 4 instructions :
1. User-agent (À qui s'adressent les règles ?)
User-agent: * → Tous les robots
User-agent: Googlebot → Seulement le robot de Google
2. Disallow (Interdire l'accès)
Disallow: /admin/ → Bloque le dossier /admin/
Disallow: /login/ → Bloque le dossier /login/
3. Allow (Autoriser l'accès)
Allow: / → Autorise tout
Allow: /blog/ → Autorise seulement /blog/
4. Sitemap (Indiquer le plan du site)
Sitemap: https://socium.fr/sitemap.xml
Situation : Vous avez un site vitrine avec quelques pages.
User-agent: *
Disallow:
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, tu peux tout explorer. Voici mon plan de site."
C'est pour vous si : Vous avez un site simple sans pages privées.
Situation : Vous avez des pages d'administration que vous ne voulez pas voir apparaître sur Google.
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, explore tout sauf les dossiers /admin/ et /login/."
C'est pour vous si : Vous gérez votre site vous-même et avez une page de connexion.
Situation : Vous avez un blog et voulez éviter que Google perde du temps sur les pages inutiles.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, ignore les pages WordPress d'administration."
C'est pour vous si : Vous utilisez WordPress ou un CMS similaire.
Situation : Vous vendez des produits en ligne. Vous ne voulez pas que Google indexe les paniers ou les comptes clients.
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, explore mes produits mais ignore les paniers et comptes clients."
C'est pour vous si : Vous avez une boutique en ligne (WooCommerce, Shopify, etc.).
Situation : Votre site n'est pas encore prêt à être montré au public.
User-agent: *
Disallow: /
Traduction : "Google, reviens plus tard, le site n'est pas encore prêt."
C'est pour vous si : Votre site est en développement et vous ne voulez pas qu'il apparaisse dans Google.
Situation : Vous voulez que seulement les grands moteurs de recherche explorent votre site.
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: *
Disallow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google et Bing, vous pouvez entrer. Tous les autres robots, interdiction."
C'est pour vous si : Vous voulez limiter le nombre de robots qui visitent votre site (peut réduire la charge serveur).
Option A : Création manuelle (pour les débutants)
robots.txt (sans majuscule)Exemple d'emplacement :
monsite.com/
├── robots.txt ✅ Ici
├── index.html
├── images/
└── css/
Option B : Via votre hébergeur
Si vous utilisez un hébergeur web, vous pouvez créer le fichier directement :
robots.txtOption C : Avec WordPress
Si vous utilisez WordPress, plusieurs plugins gèrent automatiquement robots.txt :
Une fois votre fichier en ligne, testez-le :
https://votre-site.fr/robots.txtExemple : https://socium.fr/robots.txt
Problème courant : Vous avez un site de test (pour essayer vos modifications) et un site officiel. Vous ne voulez pas que Google explore le site de test.
Solution simple :
Site de test : Bloquez tout
User-agent: *
Disallow: /
Site officiel : Autorisez tout
User-agent: *
Disallow:
Sitemap: https://socium.fr/sitemap.xml
Astuce technique : Sur mes projets comme Art Conseil, j'utilise Nuxt SEO qui change automatiquement le robots.txt selon l'environnement. Pas besoin d'y penser !
La manière la plus simple :
https://votre-site.fr/robots.txtCe que vous devez voir :
Exemple :
Pourquoi ? Google vous dit si une page spécifique est bloquée ou non.
Comment faire :
Exemple de test :
URL testée : https://socium.fr/admin/login
Résultat : ❌ Bloqué par robots.txt
✅ Parfait ! C'est ce qu'on voulait.
URL testée : https://socium.fr/blog/paiement/stripe
Résultat : ✅ Autorisé
✅ Parfait ! Google peut explorer cette page.
Si vous ne voulez pas créer de compte Google Search Console, vous pouvez utiliser des outils gratuits :
Comment l'utiliser :
❌ À ne JAMAIS faire :
User-agent: *
Disallow: /images/
Disallow: /css/
Disallow: /js/
Pourquoi c'est grave ? Google a besoin de voir vos images et le design de votre site pour bien le comprendre. En bloquant ces fichiers, votre site sera mal référencé.
Analogie : C'est comme inviter quelqu'un chez vous mais lui interdire de regarder les murs et les meubles. Il ne peut pas se faire une bonne idée de votre maison.
✅ Ce qu'il faut faire : Ne bloquez jamais /images/, /css/ ou /js/
⚠️ TRÈS IMPORTANT : Robots.txt ne sécurise RIEN.
Exemple de ce qui NE marche PAS :
User-agent: *
Disallow: /mes-documents-confidentiels/
Le problème : N'importe qui peut taper https://votre-site.fr/mes-documents-confidentiels/ dans son navigateur et accéder aux documents.
Robots.txt dit seulement à Google : "N'affiche pas cette page dans les résultats de recherche."
Mais ça ne protège pas la page.
✅ Ce qu'il faut faire : Pour protéger vraiment une page, utilisez un mot de passe (login/mot de passe).
Beaucoup de gens oublient cette ligne pourtant essentielle :
❌ Sans sitemap :
User-agent: *
Disallow: /admin/
✅ Avec sitemap (recommandé) :
User-agent: *
Disallow: /admin/
Sitemap: https://socium.fr/sitemap.xml
Pourquoi c'est important ? Le sitemap aide Google à découvrir toutes vos pages rapidement.
Analogie : C'est comme donner un plan de votre maison au visiteur dès l'entrée. Sans plan, il doit chercher chaque pièce lui-même.
Les robots sont très stricts sur l'orthographe :
❌ Erreurs courantes :
user-agent: * ❌ (doit être User-agent avec des majuscules)
Disallow: /admin ❌ (manque le slash final)
Disallow /admin/ ❌ (manque les deux points)
✅ Syntaxe correcte :
User-agent: *
Disallow: /admin/
Conseil : Copiez-collez exactement les exemples de cet article.
❌ L'erreur fatale :
User-agent: *
Disallow: /
Ce que ça fait : Google ne peut plus explorer AUCUNE page de votre site. Il disparaît complètement de Google.
Quand utiliser cette règle ? Seulement si votre site est en construction et que vous ne voulez pas encore être visible.
✅ Pour un site normal :
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Non, mais c'est fortement recommandé.
Sans robots.txt : Google va quand même explorer votre site, mais il va tout regarder, même les pages inutiles.
Avec robots.txt : Vous contrôlez ce que Google explore et gagnez du temps.
Rien de grave ! Google va simplement explorer toutes les pages de votre site.
Impact : Google peut perdre du temps sur des pages inutiles (admin, connexion, etc.) au lieu de se concentrer sur vos contenus importants.
Très rapide : Google vérifie votre robots.txt à chaque visite. Les changements sont généralement pris en compte en quelques heures.
Non, absolument pas.
Robots.txt dit seulement à Google quoi ne pas afficher dans les résultats de recherche. N'importe qui peut quand même accéder directement à vos pages en tapant l'URL.
Pour protéger vraiment vos pages : Utilisez un mot de passe (authentification).
Oui ! Vous pouvez donner des instructions différentes selon le robot :
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Allow: /
Sitemap: https://socium.fr/sitemap.xml
(Mais pourquoi voudriez-vous faire ça ? 😊)
Peut-être ! Vérifiez votre fichier robots.txt :
https://votre-site.fr/robots.txtDisallow: /Si oui, c'est le problème ! Vous bloquez tout le site.
Solution : Changez pour :
User-agent: *
Disallow:
Sitemap: https://votre-site.fr/sitemap.xml
Votre situation : Site qui présente votre entreprise, vos services, avec quelques pages (accueil, services, à propos, contact).
Ce qu'il faut faire :
User-agent: *
Disallow:
Sitemap: https://www.votre-site.fr/sitemap.xml
Pourquoi : Vous n'avez rien à cacher, vous voulez que Google explore tout.
Exemple réel : C'est ce que j'utilise sur Art Conseil.
Votre situation : Blog avec des articles, mais aussi une page de connexion WordPress.
Ce qu'il faut faire :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /
Sitemap: https://www.votre-blog.fr/sitemap.xml
Pourquoi : Bloquer les pages d'administration WordPress, mais autoriser tous vos articles.
Votre situation : Site e-commerce avec des produits à vendre.
Ce qu'il faut faire :
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /
Sitemap: https://www.votre-boutique.fr/sitemap.xml
Pourquoi : Google doit voir vos produits, mais pas les paniers ou comptes clients.
Votre situation : Site pas encore terminé, vous ne voulez pas qu'il apparaisse sur Google.
Ce qu'il faut faire :
User-agent: *
Disallow: /
Pourquoi : Bloque complètement Google le temps de finaliser le site.
⚠️ Important : N'oubliez pas de changer ça quand le site est prêt !
Imaginez : Google est comme un visiteur qui n'a que 2 heures pour visiter votre musée (site web).
Sans robots.txt :
Avec robots.txt :
Résultat : Vos pages importantes sont mieux explorées et mieux référencées.
Site de 100 pages :
Avec un bon robots.txt :
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /test/
Impact : Google passe 100% de son temps sur vos 70 vraies pages au lieu de perdre 30% de son temps sur les pages inutiles.
1. Robots.txt = panneau d'instructions pour Google
C'est un petit fichier texte qui dit à Google quelles pages il peut ou ne peut pas explorer sur votre site.
2. Robots.txt NE protège PAS vos pages
Il dit seulement à Google de ne pas afficher certaines pages dans les résultats de recherche. Pour vraiment protéger une page, utilisez un mot de passe.
3. Toujours inclure votre sitemap
N'oubliez jamais cette ligne dans votre robots.txt :
Sitemap: https://votre-site.fr/sitemap.xml
Si vous n'êtes pas sûr, utilisez simplement ceci :
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://votre-site.fr/sitemap.xml
Ce que ça fait : Autorise Google à tout explorer sauf les pages d'administration, et lui indique où trouver votre plan de site.
❌ Ne bloquez jamais /images/, /css/ ou /js/
❌ Ne pensez pas que robots.txt protège vos pages sensibles
❌ N'oubliez pas d'ajouter votre sitemap
Maintenant que vous comprenez robots.txt, découvrez d'autres outils pour améliorer votre référencement :
Sur tous mes projets comme Art Conseil, j'intègre automatiquement robots.txt avec Nuxt SEO pour maximiser le référencement naturel.
Des questions ? Contactez-moi pour discuter de votre projet.
Cet article vous a-t-il été utile ?
Vos retours sont complètement anonymes et m'aident à améliorer mon contenu
Meta Title et Meta Description : optimiser pour le SEO
Découvrez comment optimiser vos balises meta title et meta description pour améliorer votre référencement Google et augmenter votre taux de clic dans les résultats de recherche.
Schema.org : données structurées pour améliorer votre référencement
Découvrez Schema.org et les données structurées qui permettent aux moteurs de recherche de mieux comprendre votre contenu. Guide complet avec exemples JSON-LD pour améliorer votre SEO.