Robots.txt : contrôler l'indexation de votre site par les moteurs de recherche
Qu'est-ce que le fichier robots.txt ?
Imaginez que votre site web soit une maison. Le fichier robots.txt, c'est comme un panneau à l'entrée qui dit aux visiteurs robots de Google : "Vous pouvez entrer dans ces pièces, mais pas dans celles-là".
En termes simples : robots.txt est un petit fichier texte qui donne des instructions à Google sur ce qu'il peut ou ne peut pas regarder sur votre site.
Exemple d'URL :
https://socium.fr/robots.txt
https://www.art-conseil-technique.com/robots.txt
Pourquoi c'est important ?
Imaginez que vous avez :
- Une page "Admin" où vous vous connectez → ❌ Vous ne voulez pas que Google l'affiche dans les résultats
- Un article de blog sur votre expertise → ✅ Vous voulez que Google le montre à tout le monde
- Des pages de test ou brouillons → ❌ Vous ne voulez pas qu'elles apparaissent avant d'être prêtes
Le robots.txt vous permet de dire à Google : "Montre mes articles, mais ignore mes pages d'administration".
Pourquoi c'est important pour votre site ?
1. Protéger votre vie privée (et celle de vos visiteurs)
Imaginez que vous ayez une page où vous vous connectez pour gérer votre site. Vous ne voulez pas que cette page apparaisse quand quelqu'un cherche votre nom sur Google !
Exemples de pages à protéger :
- Page de connexion admin
- Pages en brouillon ou en construction
- Vos tests et expérimentations
Avec robots.txt, vous dites à Google : "Ne montre pas ces pages au public".
2. Aider Google à se concentrer sur l'essentiel
Google est comme un visiteur pressé : il n'a pas le temps de regarder toutes les pages de votre site chaque jour. Il a un "budget de temps" limité.
Analogie simple :
- Vous avez 100 pages sur votre site
- Google peut en regarder seulement 20 par jour
- → Il faut 5 jours pour qu'il voie tout
Solution : Avec robots.txt, vous bloquez les 30 pages inutiles (admin, tests, etc.). Maintenant Google se concentre sur vos 70 vraies pages et les explore en 3-4 jours au lieu de 5.
Résultat : Vos nouvelles pages apparaissent plus vite dans Google !
3. Éviter les doublons
Si vous avez la même page accessible de 2 façons différentes (version normale + version PDF par exemple), Google peut être confus. Avec robots.txt, vous lui dites : "Ignore la version PDF, concentre-toi sur la version normale".
4. Indiquer où trouver votre plan du site
Le robots.txt peut dire à Google : "Hey, voici mon plan du site (sitemap) complet !". Comme ça, Google sait immédiatement toutes les pages qui existent.
Sitemap: https://socium.fr/sitemap.xml
C'est comme donner un plan de votre maison au visiteur dès l'entrée.
Comment fonctionne un fichier robots.txt ?
Exemple simple
Voici à quoi ressemble un fichier robots.txt basique :
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction en langage courant :
User-agent: *
→ "Pour tous les robots qui visitent mon site"Disallow: /admin/
→ "N'entre pas dans le dossier /admin/"Allow: /
→ "Tu peux visiter tout le reste"Sitemap:
→ "Au fait, voici le plan complet de mon site"
Les 4 instructions principales
Vous avez seulement besoin de connaître 4 instructions :
1. User-agent (À qui s'adressent les règles ?)
User-agent: * → Tous les robots
User-agent: Googlebot → Seulement le robot de Google
2. Disallow (Interdire l'accès)
Disallow: /admin/ → Bloque le dossier /admin/
Disallow: /login/ → Bloque le dossier /login/
3. Allow (Autoriser l'accès)
Allow: / → Autorise tout
Allow: /blog/ → Autorise seulement /blog/
4. Sitemap (Indiquer le plan du site)
Sitemap: https://socium.fr/sitemap.xml
Exemples concrets pour votre site
1. Petit site simple (recommandé pour débuter)
Situation : Vous avez un site vitrine avec quelques pages.
User-agent: *
Disallow:
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, tu peux tout explorer. Voici mon plan de site."
C'est pour vous si : Vous avez un site simple sans pages privées.
2. Site avec administration
Situation : Vous avez des pages d'administration que vous ne voulez pas voir apparaître sur Google.
User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, explore tout sauf les dossiers /admin/ et /login/."
C'est pour vous si : Vous gérez votre site vous-même et avez une page de connexion.
3. Blog (WordPress par exemple)
Situation : Vous avez un blog et voulez éviter que Google perde du temps sur les pages inutiles.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, ignore les pages WordPress d'administration."
C'est pour vous si : Vous utilisez WordPress ou un CMS similaire.
4. Boutique en ligne (e-commerce)
Situation : Vous vendez des produits en ligne. Vous ne voulez pas que Google indexe les paniers ou les comptes clients.
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google, explore mes produits mais ignore les paniers et comptes clients."
C'est pour vous si : Vous avez une boutique en ligne (WooCommerce, Shopify, etc.).
5. Site en construction
Situation : Votre site n'est pas encore prêt à être montré au public.
User-agent: *
Disallow: /
Traduction : "Google, reviens plus tard, le site n'est pas encore prêt."
C'est pour vous si : Votre site est en développement et vous ne voulez pas qu'il apparaisse dans Google.
6. Autoriser seulement Google et Bing
Situation : Vous voulez que seulement les grands moteurs de recherche explorent votre site.
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: *
Disallow: /
Sitemap: https://socium.fr/sitemap.xml
Traduction : "Google et Bing, vous pouvez entrer. Tous les autres robots, interdiction."
C'est pour vous si : Vous voulez limiter le nombre de robots qui visitent votre site (peut réduire la charge serveur).
Comment mettre en place votre robots.txt ?
Étape 1 : Créer le fichier
Option A : Création manuelle (pour les débutants)
- Ouvrez un éditeur de texte (Bloc-notes, TextEdit, etc.)
- Écrivez votre contenu robots.txt (choisissez un exemple ci-dessus)
- Enregistrez le fichier sous le nom
robots.txt
(sans majuscule) - Placez-le à la racine de votre site web
Exemple d'emplacement :
monsite.com/
├── robots.txt ✅ Ici
├── index.html
├── images/
└── css/
Option B : Via votre hébergeur
Si vous utilisez un hébergeur web, vous pouvez créer le fichier directement :
- Connectez-vous à votre espace d'hébergement
- Allez dans le gestionnaire de fichiers
- Créez un nouveau fichier nommé
robots.txt
- Collez votre contenu
- Enregistrez
Option C : Avec WordPress
Si vous utilisez WordPress, plusieurs plugins gèrent automatiquement robots.txt :
- Yoast SEO (gratuit) : génère automatiquement un robots.txt
- Rank Math (gratuit) : plus d'options de personnalisation
Étape 2 : Vérifier que ça marche
Une fois votre fichier en ligne, testez-le :
- Tapez dans votre navigateur :
https://votre-site.fr/robots.txt
- Vous devez voir le contenu de votre fichier
Exemple : https://socium.fr/robots.txt
Cas particulier : site en test vs site en ligne
Problème courant : Vous avez un site de test (pour essayer vos modifications) et un site officiel. Vous ne voulez pas que Google explore le site de test.
Solution simple :
Site de test : Bloquez tout
User-agent: *
Disallow: /
Site officiel : Autorisez tout
User-agent: *
Disallow:
Sitemap: https://socium.fr/sitemap.xml
Astuce technique : Sur mes projets comme Art Conseil, j'utilise Nuxt SEO qui change automatiquement le robots.txt selon l'environnement. Pas besoin d'y penser !
Comment vérifier que votre robots.txt fonctionne ?
Test 1 : Vérification simple (la base)
La manière la plus simple :
- Ouvrez votre navigateur (Chrome, Firefox, Safari...)
- Tapez :
https://votre-site.fr/robots.txt
- Appuyez sur Entrée
Ce que vous devez voir :
- Le contenu de votre fichier robots.txt s'affiche
- Si vous voyez "404" ou "Page introuvable" → le fichier n'est pas au bon endroit
Exemple :
- ✅ Ça marche : https://socium.fr/robots.txt
- ✅ Ça marche : https://www.art-conseil-technique.com/robots.txt
Test 2 : Vérifier avec Google (recommandé)
Pourquoi ? Google vous dit si une page spécifique est bloquée ou non.
Comment faire :
- Allez sur Google Search Console (gratuit)
- Ajoutez votre site (si ce n'est pas déjà fait)
- Cherchez l'outil "Testeur robots.txt" dans les anciens outils
- Testez une URL de votre site
Exemple de test :
URL testée : https://socium.fr/admin/login
Résultat : ❌ Bloqué par robots.txt
✅ Parfait ! C'est ce qu'on voulait.
URL testée : https://socium.fr/blog/paiement/stripe
Résultat : ✅ Autorisé
✅ Parfait ! Google peut explorer cette page.
Test 3 : Outils en ligne (si vous n'avez pas Google Search Console)
Si vous ne voulez pas créer de compte Google Search Console, vous pouvez utiliser des outils gratuits :
Comment l'utiliser :
- Collez votre URL
- L'outil vous montre ce que Google peut ou ne peut pas explorer
Les 5 erreurs à éviter absolument
Erreur 1 : Bloquer vos images, CSS ou JavaScript
❌ À ne JAMAIS faire :
User-agent: *
Disallow: /images/
Disallow: /css/
Disallow: /js/
Pourquoi c'est grave ? Google a besoin de voir vos images et le design de votre site pour bien le comprendre. En bloquant ces fichiers, votre site sera mal référencé.
Analogie : C'est comme inviter quelqu'un chez vous mais lui interdire de regarder les murs et les meubles. Il ne peut pas se faire une bonne idée de votre maison.
✅ Ce qu'il faut faire : Ne bloquez jamais /images/, /css/ ou /js/
Erreur 2 : Croire que robots.txt protège vos pages
⚠️ TRÈS IMPORTANT : Robots.txt ne sécurise RIEN.
Exemple de ce qui NE marche PAS :
User-agent: *
Disallow: /mes-documents-confidentiels/
Le problème : N'importe qui peut taper https://votre-site.fr/mes-documents-confidentiels/
dans son navigateur et accéder aux documents.
Robots.txt dit seulement à Google : "N'affiche pas cette page dans les résultats de recherche."
Mais ça ne protège pas la page.
✅ Ce qu'il faut faire : Pour protéger vraiment une page, utilisez un mot de passe (login/mot de passe).
Erreur 3 : Oublier d'indiquer votre sitemap
Beaucoup de gens oublient cette ligne pourtant essentielle :
❌ Sans sitemap :
User-agent: *
Disallow: /admin/
✅ Avec sitemap (recommandé) :
User-agent: *
Disallow: /admin/
Sitemap: https://socium.fr/sitemap.xml
Pourquoi c'est important ? Le sitemap aide Google à découvrir toutes vos pages rapidement.
Analogie : C'est comme donner un plan de votre maison au visiteur dès l'entrée. Sans plan, il doit chercher chaque pièce lui-même.
Erreur 4 : Fautes de frappe ou syntaxe incorrecte
Les robots sont très stricts sur l'orthographe :
❌ Erreurs courantes :
user-agent: * ❌ (doit être User-agent avec des majuscules)
Disallow: /admin ❌ (manque le slash final)
Disallow /admin/ ❌ (manque les deux points)
✅ Syntaxe correcte :
User-agent: *
Disallow: /admin/
Conseil : Copiez-collez exactement les exemples de cet article.
Erreur 5 : Bloquer tout le site par accident
❌ L'erreur fatale :
User-agent: *
Disallow: /
Ce que ça fait : Google ne peut plus explorer AUCUNE page de votre site. Il disparaît complètement de Google.
Quand utiliser cette règle ? Seulement si votre site est en construction et que vous ne voulez pas encore être visible.
✅ Pour un site normal :
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://socium.fr/sitemap.xml
Questions fréquentes
Est-ce que robots.txt est obligatoire ?
Non, mais c'est fortement recommandé.
Sans robots.txt : Google va quand même explorer votre site, mais il va tout regarder, même les pages inutiles.
Avec robots.txt : Vous contrôlez ce que Google explore et gagnez du temps.
Que se passe-t-il si je n'ai pas de fichier robots.txt ?
Rien de grave ! Google va simplement explorer toutes les pages de votre site.
Impact : Google peut perdre du temps sur des pages inutiles (admin, connexion, etc.) au lieu de se concentrer sur vos contenus importants.
Combien de temps avant que Google prenne en compte mon robots.txt ?
Très rapide : Google vérifie votre robots.txt à chaque visite. Les changements sont généralement pris en compte en quelques heures.
Est-ce que robots.txt protège mes pages contre les pirates ?
Non, absolument pas.
Robots.txt dit seulement à Google quoi ne pas afficher dans les résultats de recherche. N'importe qui peut quand même accéder directement à vos pages en tapant l'URL.
Pour protéger vraiment vos pages : Utilisez un mot de passe (authentification).
Puis-je bloquer seulement Google et autoriser Bing ?
Oui ! Vous pouvez donner des instructions différentes selon le robot :
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Allow: /
Sitemap: https://socium.fr/sitemap.xml
(Mais pourquoi voudriez-vous faire ça ? 😊)
Mon site n'apparaît plus sur Google, est-ce à cause de robots.txt ?
Peut-être ! Vérifiez votre fichier robots.txt :
- Allez sur :
https://votre-site.fr/robots.txt
- Regardez si vous voyez :
Disallow: /
Si oui, c'est le problème ! Vous bloquez tout le site.
Solution : Changez pour :
User-agent: *
Disallow:
Sitemap: https://votre-site.fr/sitemap.xml
Exemples selon votre situation
Vous avez un site vitrine simple
Votre situation : Site qui présente votre entreprise, vos services, avec quelques pages (accueil, services, à propos, contact).
Ce qu'il faut faire :
User-agent: *
Disallow:
Sitemap: https://www.votre-site.fr/sitemap.xml
Pourquoi : Vous n'avez rien à cacher, vous voulez que Google explore tout.
Exemple réel : C'est ce que j'utilise sur Art Conseil.
Vous avez un blog WordPress
Votre situation : Blog avec des articles, mais aussi une page de connexion WordPress.
Ce qu'il faut faire :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /
Sitemap: https://www.votre-blog.fr/sitemap.xml
Pourquoi : Bloquer les pages d'administration WordPress, mais autoriser tous vos articles.
Vous avez une boutique en ligne
Votre situation : Site e-commerce avec des produits à vendre.
Ce qu'il faut faire :
User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /
Sitemap: https://www.votre-boutique.fr/sitemap.xml
Pourquoi : Google doit voir vos produits, mais pas les paniers ou comptes clients.
Votre site est en construction
Votre situation : Site pas encore terminé, vous ne voulez pas qu'il apparaisse sur Google.
Ce qu'il faut faire :
User-agent: *
Disallow: /
Pourquoi : Bloque complètement Google le temps de finaliser le site.
⚠️ Important : N'oubliez pas de changer ça quand le site est prêt !
Pourquoi robots.txt aide votre référencement
Le "budget crawl" expliqué simplement
Imaginez : Google est comme un visiteur qui n'a que 2 heures pour visiter votre musée (site web).
Sans robots.txt :
- Il passe 30 minutes dans les toilettes (pages admin)
- 30 minutes dans les locaux techniques (pages de test)
- Il lui reste seulement 1 heure pour voir vos vraies œuvres d'art (vos pages importantes)
Avec robots.txt :
- Vous lui dites : "Ignore les toilettes et les locaux techniques"
- Il a maintenant 2 heures complètes pour admirer vos œuvres
Résultat : Vos pages importantes sont mieux explorées et mieux référencées.
Exemple concret
Site de 100 pages :
- 70 pages importantes (articles de blog, services, etc.)
- 30 pages inutiles (admin, connexion, pages de test)
Avec un bon robots.txt :
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /test/
Impact : Google passe 100% de son temps sur vos 70 vraies pages au lieu de perdre 30% de son temps sur les pages inutiles.
Ce qu'il faut retenir
L'essentiel en 3 points
1. Robots.txt = panneau d'instructions pour Google
C'est un petit fichier texte qui dit à Google quelles pages il peut ou ne peut pas explorer sur votre site.
2. Robots.txt NE protège PAS vos pages
Il dit seulement à Google de ne pas afficher certaines pages dans les résultats de recherche. Pour vraiment protéger une page, utilisez un mot de passe.
3. Toujours inclure votre sitemap
N'oubliez jamais cette ligne dans votre robots.txt :
Sitemap: https://votre-site.fr/sitemap.xml
Le robots.txt idéal pour débuter
Si vous n'êtes pas sûr, utilisez simplement ceci :
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://votre-site.fr/sitemap.xml
Ce que ça fait : Autorise Google à tout explorer sauf les pages d'administration, et lui indique où trouver votre plan de site.
Les 3 erreurs à ne JAMAIS faire
❌ Ne bloquez jamais /images/
, /css/
ou /js/
❌ Ne pensez pas que robots.txt protège vos pages sensibles
❌ N'oubliez pas d'ajouter votre sitemap
Pour aller plus loin
Maintenant que vous comprenez robots.txt, découvrez d'autres outils pour améliorer votre référencement :
- Sitemap : le plan de votre site pour Google - Aidez Google à découvrir toutes vos pages
- Schema.org : aidez Google à mieux comprendre votre contenu - Données structurées expliquées simplement
- Images Open Graph : optimisez vos partages sociaux - Contrôlez l'aperçu de vos liens sur Facebook, LinkedIn, etc.
Sur tous mes projets comme Art Conseil, j'intègre automatiquement robots.txt avec Nuxt SEO pour maximiser le référencement naturel.
Des questions ? Contactez-moi pour discuter de votre projet.
Cet article vous a-t-il été utile ?
Vos retours sont complètement anonymes et m'aident à améliorer mon contenu
Meta Title et Meta Description : optimiser pour le SEO
Découvrez comment optimiser vos balises meta title et meta description pour améliorer votre référencement Google et augmenter votre taux de clic dans les résultats de recherche.
Schema.org : données structurées pour améliorer votre référencement
Découvrez Schema.org et les données structurées qui permettent aux moteurs de recherche de mieux comprendre votre contenu. Guide complet avec exemples JSON-LD pour améliorer votre SEO.