SEO • Référencement·12 sept. 2024

Robots.txt : contrôler l'indexation de votre site par les moteurs de recherche

Découvrez comment créer et optimiser votre fichier robots.txt pour contrôler quelles pages les moteurs de recherche peuvent explorer et indexer. Guide complet avec exemples.

Qu'est-ce que le fichier robots.txt ?

Imaginez que votre site web soit une maison. Le fichier robots.txt, c'est comme un panneau à l'entrée qui dit aux visiteurs robots de Google : "Vous pouvez entrer dans ces pièces, mais pas dans celles-là".

En termes simples : robots.txt est un petit fichier texte qui donne des instructions à Google sur ce qu'il peut ou ne peut pas regarder sur votre site.

Exemple d'URL :

https://socium.fr/robots.txt
https://www.art-conseil-technique.com/robots.txt

Pourquoi c'est important ?

Imaginez que vous avez :

Une page "Admin" où vous vous connectez → ❌ Vous ne voulez pas que Google l'affiche dans les résultats
Un article de blog sur votre expertise → ✅ Vous voulez que Google le montre à tout le monde
Des pages de test ou brouillons → ❌ Vous ne voulez pas qu'elles apparaissent avant d'être prêtes

Le robots.txt vous permet de dire à Google : "Montre mes articles, mais ignore mes pages d'administration".

Pourquoi c'est important pour votre site ?

1. Protéger votre vie privée (et celle de vos visiteurs)

Imaginez que vous ayez une page où vous vous connectez pour gérer votre site. Vous ne voulez pas que cette page apparaisse quand quelqu'un cherche votre nom sur Google !

Exemples de pages à protéger :

Page de connexion admin
Pages en brouillon ou en construction
Vos tests et expérimentations

Avec robots.txt, vous dites à Google : "Ne montre pas ces pages au public".

2. Aider Google à se concentrer sur l'essentiel

Google est comme un visiteur pressé : il n'a pas le temps de regarder toutes les pages de votre site chaque jour. Il a un "budget de temps" limité.

Analogie simple :

Vous avez 100 pages sur votre site
Google peut en regarder seulement 20 par jour
→ Il faut 5 jours pour qu'il voie tout

Solution : Avec robots.txt, vous bloquez les 30 pages inutiles (admin, tests, etc.). Maintenant Google se concentre sur vos 70 vraies pages et les explore en 3-4 jours au lieu de 5.

Résultat : Vos nouvelles pages apparaissent plus vite dans Google !

3. Éviter les doublons

Si vous avez la même page accessible de 2 façons différentes (version normale + version PDF par exemple), Google peut être confus. Avec robots.txt, vous lui dites : "Ignore la version PDF, concentre-toi sur la version normale".

4. Indiquer où trouver votre plan du site

Le robots.txt peut dire à Google : "Hey, voici mon plan du site (sitemap) complet !". Comme ça, Google sait immédiatement toutes les pages qui existent.

Sitemap: https://socium.fr/sitemap.xml

C'est comme donner un plan de votre maison au visiteur dès l'entrée.

Comment fonctionne un fichier robots.txt ?

Exemple simple

Voici à quoi ressemble un fichier robots.txt basique :

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /

Sitemap: https://socium.fr/sitemap.xml

Traduction en langage courant :

User-agent: * → "Pour tous les robots qui visitent mon site"
Disallow: /admin/ → "N'entre pas dans le dossier /admin/"
Allow: / → "Tu peux visiter tout le reste"
Sitemap: → "Au fait, voici le plan complet de mon site"

Les 4 instructions principales

Vous avez seulement besoin de connaître 4 instructions :

1. User-agent (À qui s'adressent les règles ?)

User-agent: *          → Tous les robots
User-agent: Googlebot  → Seulement le robot de Google

2. Disallow (Interdire l'accès)

Disallow: /admin/      → Bloque le dossier /admin/
Disallow: /login/      → Bloque le dossier /login/

3. Allow (Autoriser l'accès)

Allow: /              → Autorise tout
Allow: /blog/         → Autorise seulement /blog/

4. Sitemap (Indiquer le plan du site)

Sitemap: https://socium.fr/sitemap.xml

Exemples concrets pour votre site

1. Petit site simple (recommandé pour débuter)

Situation : Vous avez un site vitrine avec quelques pages.

User-agent: *
Disallow:

Sitemap: https://socium.fr/sitemap.xml

Traduction : "Google, tu peux tout explorer. Voici mon plan de site."

C'est pour vous si : Vous avez un site simple sans pages privées.

2. Site avec administration

Situation : Vous avez des pages d'administration que vous ne voulez pas voir apparaître sur Google.

User-agent: *
Disallow: /admin/
Disallow: /login/
Allow: /

Sitemap: https://socium.fr/sitemap.xml

Traduction : "Google, explore tout sauf les dossiers /admin/ et /login/."

C'est pour vous si : Vous gérez votre site vous-même et avez une page de connexion.

3. Blog (WordPress par exemple)

Situation : Vous avez un blog et voulez éviter que Google perde du temps sur les pages inutiles.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /

Sitemap: https://socium.fr/sitemap.xml

Traduction : "Google, ignore les pages WordPress d'administration."

C'est pour vous si : Vous utilisez WordPress ou un CMS similaire.

4. Boutique en ligne (e-commerce)

Situation : Vous vendez des produits en ligne. Vous ne voulez pas que Google indexe les paniers ou les comptes clients.

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /

Sitemap: https://socium.fr/sitemap.xml

Traduction : "Google, explore mes produits mais ignore les paniers et comptes clients."

C'est pour vous si : Vous avez une boutique en ligne (WooCommerce, Shopify, etc.).

5. Site en construction

Situation : Votre site n'est pas encore prêt à être montré au public.

User-agent: *
Disallow: /

Traduction : "Google, reviens plus tard, le site n'est pas encore prêt."

C'est pour vous si : Votre site est en développement et vous ne voulez pas qu'il apparaisse dans Google.

6. Autoriser seulement Google et Bing

Situation : Vous voulez que seulement les grands moteurs de recherche explorent votre site.

User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Disallow: /

Sitemap: https://socium.fr/sitemap.xml

Traduction : "Google et Bing, vous pouvez entrer. Tous les autres robots, interdiction."

C'est pour vous si : Vous voulez limiter le nombre de robots qui visitent votre site (peut réduire la charge serveur).

Comment mettre en place votre robots.txt ?

Étape 1 : Créer le fichier

Option A : Création manuelle (pour les débutants)

Ouvrez un éditeur de texte (Bloc-notes, TextEdit, etc.)
Écrivez votre contenu robots.txt (choisissez un exemple ci-dessus)
Enregistrez le fichier sous le nom robots.txt (sans majuscule)
Placez-le à la racine de votre site web

Exemple d'emplacement :

monsite.com/
├── robots.txt     ✅ Ici
├── index.html
├── images/
└── css/

Option B : Via votre hébergeur

Si vous utilisez un hébergeur web, vous pouvez créer le fichier directement :

Connectez-vous à votre espace d'hébergement
Allez dans le gestionnaire de fichiers
Créez un nouveau fichier nommé robots.txt
Collez votre contenu
Enregistrez

Option C : Avec WordPress

Si vous utilisez WordPress, plusieurs plugins gèrent automatiquement robots.txt :

Yoast SEO (gratuit) : génère automatiquement un robots.txt
Rank Math (gratuit) : plus d'options de personnalisation

Étape 2 : Vérifier que ça marche

Une fois votre fichier en ligne, testez-le :

Tapez dans votre navigateur : https://votre-site.fr/robots.txt
Vous devez voir le contenu de votre fichier

Exemple : https://socium.fr/robots.txt

Cas particulier : site en test vs site en ligne

Problème courant : Vous avez un site de test (pour essayer vos modifications) et un site officiel. Vous ne voulez pas que Google explore le site de test.

Solution simple :

Site de test : Bloquez tout

User-agent: *
Disallow: /

Site officiel : Autorisez tout

User-agent: *
Disallow:

Sitemap: https://socium.fr/sitemap.xml

Astuce technique : Sur mes projets comme Art Conseil, j'utilise Nuxt SEO qui change automatiquement le robots.txt selon l'environnement. Pas besoin d'y penser !

Comment vérifier que votre robots.txt fonctionne ?

Test 1 : Vérification simple (la base)

La manière la plus simple :

Ouvrez votre navigateur (Chrome, Firefox, Safari...)
Tapez : https://votre-site.fr/robots.txt
Appuyez sur Entrée

Ce que vous devez voir :

Le contenu de votre fichier robots.txt s'affiche
Si vous voyez "404" ou "Page introuvable" → le fichier n'est pas au bon endroit

Exemple :

✅ Ça marche : https://socium.fr/robots.txt
✅ Ça marche : https://www.art-conseil-technique.com/robots.txt

Test 2 : Vérifier avec Google (recommandé)

Pourquoi ? Google vous dit si une page spécifique est bloquée ou non.

Comment faire :

Allez sur Google Search Console (gratuit)
Ajoutez votre site (si ce n'est pas déjà fait)
Cherchez l'outil "Testeur robots.txt" dans les anciens outils
Testez une URL de votre site

Exemple de test :

URL testée : https://socium.fr/admin/login
Résultat : ❌ Bloqué par robots.txt
✅ Parfait ! C'est ce qu'on voulait.

URL testée : https://socium.fr/blog/paiement/stripe
Résultat : ✅ Autorisé
✅ Parfait ! Google peut explorer cette page.

Test 3 : Outils en ligne (si vous n'avez pas Google Search Console)

Si vous ne voulez pas créer de compte Google Search Console, vous pouvez utiliser des outils gratuits :

Comment l'utiliser :

Collez votre URL
L'outil vous montre ce que Google peut ou ne peut pas explorer

Les 5 erreurs à éviter absolument

Erreur 1 : Bloquer vos images, CSS ou JavaScript

❌ À ne JAMAIS faire :

User-agent: *
Disallow: /images/
Disallow: /css/
Disallow: /js/

Pourquoi c'est grave ? Google a besoin de voir vos images et le design de votre site pour bien le comprendre. En bloquant ces fichiers, votre site sera mal référencé.

Analogie : C'est comme inviter quelqu'un chez vous mais lui interdire de regarder les murs et les meubles. Il ne peut pas se faire une bonne idée de votre maison.

✅ Ce qu'il faut faire : Ne bloquez jamais /images/, /css/ ou /js/

Erreur 2 : Croire que robots.txt protège vos pages

⚠️ TRÈS IMPORTANT : Robots.txt ne sécurise RIEN.

Exemple de ce qui NE marche PAS :

User-agent: *
Disallow: /mes-documents-confidentiels/

Le problème : N'importe qui peut taper https://votre-site.fr/mes-documents-confidentiels/ dans son navigateur et accéder aux documents.

Robots.txt dit seulement à Google : "N'affiche pas cette page dans les résultats de recherche."

Mais ça ne protège pas la page.

✅ Ce qu'il faut faire : Pour protéger vraiment une page, utilisez un mot de passe (login/mot de passe).

Erreur 3 : Oublier d'indiquer votre sitemap

Beaucoup de gens oublient cette ligne pourtant essentielle :

❌ Sans sitemap :

User-agent: *
Disallow: /admin/

✅ Avec sitemap (recommandé) :

User-agent: *
Disallow: /admin/

Sitemap: https://socium.fr/sitemap.xml

Pourquoi c'est important ? Le sitemap aide Google à découvrir toutes vos pages rapidement.

Analogie : C'est comme donner un plan de votre maison au visiteur dès l'entrée. Sans plan, il doit chercher chaque pièce lui-même.

Erreur 4 : Fautes de frappe ou syntaxe incorrecte

Les robots sont très stricts sur l'orthographe :

❌ Erreurs courantes :

user-agent: *          ❌ (doit être User-agent avec des majuscules)
Disallow: /admin       ❌ (manque le slash final)
Disallow /admin/       ❌ (manque les deux points)

✅ Syntaxe correcte :

User-agent: *
Disallow: /admin/

Conseil : Copiez-collez exactement les exemples de cet article.

Erreur 5 : Bloquer tout le site par accident

❌ L'erreur fatale :

User-agent: *
Disallow: /

Ce que ça fait : Google ne peut plus explorer AUCUNE page de votre site. Il disparaît complètement de Google.

Quand utiliser cette règle ? Seulement si votre site est en construction et que vous ne voulez pas encore être visible.

✅ Pour un site normal :

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://socium.fr/sitemap.xml

Questions fréquentes

Est-ce que robots.txt est obligatoire ?

Non, mais c'est fortement recommandé.

Sans robots.txt : Google va quand même explorer votre site, mais il va tout regarder, même les pages inutiles.

Avec robots.txt : Vous contrôlez ce que Google explore et gagnez du temps.

Que se passe-t-il si je n'ai pas de fichier robots.txt ?

Rien de grave ! Google va simplement explorer toutes les pages de votre site.

Impact : Google peut perdre du temps sur des pages inutiles (admin, connexion, etc.) au lieu de se concentrer sur vos contenus importants.

Combien de temps avant que Google prenne en compte mon robots.txt ?

Très rapide : Google vérifie votre robots.txt à chaque visite. Les changements sont généralement pris en compte en quelques heures.

Est-ce que robots.txt protège mes pages contre les pirates ?

Non, absolument pas.

Robots.txt dit seulement à Google quoi ne pas afficher dans les résultats de recherche. N'importe qui peut quand même accéder directement à vos pages en tapant l'URL.

Pour protéger vraiment vos pages : Utilisez un mot de passe (authentification).

Puis-je bloquer seulement Google et autoriser Bing ?

Oui ! Vous pouvez donner des instructions différentes selon le robot :

User-agent: Googlebot
Disallow: /

User-agent: Bingbot
Allow: /

Sitemap: https://socium.fr/sitemap.xml

(Mais pourquoi voudriez-vous faire ça ? 😊)

Mon site n'apparaît plus sur Google, est-ce à cause de robots.txt ?

Peut-être ! Vérifiez votre fichier robots.txt :

Allez sur : https://votre-site.fr/robots.txt
Regardez si vous voyez : Disallow: /

Si oui, c'est le problème ! Vous bloquez tout le site.

Solution : Changez pour :

User-agent: *
Disallow:

Sitemap: https://votre-site.fr/sitemap.xml

Exemples selon votre situation

Vous avez un site vitrine simple

Votre situation : Site qui présente votre entreprise, vos services, avec quelques pages (accueil, services, à propos, contact).

Ce qu'il faut faire :

User-agent: *
Disallow:

Sitemap: https://www.votre-site.fr/sitemap.xml

Pourquoi : Vous n'avez rien à cacher, vous voulez que Google explore tout.

Exemple réel : C'est ce que j'utilise sur Art Conseil.

Vous avez un blog WordPress

Votre situation : Blog avec des articles, mais aussi une page de connexion WordPress.

Ce qu'il faut faire :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /

Sitemap: https://www.votre-blog.fr/sitemap.xml

Pourquoi : Bloquer les pages d'administration WordPress, mais autoriser tous vos articles.

Vous avez une boutique en ligne

Votre situation : Site e-commerce avec des produits à vendre.

Ce qu'il faut faire :

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Allow: /

Sitemap: https://www.votre-boutique.fr/sitemap.xml

Pourquoi : Google doit voir vos produits, mais pas les paniers ou comptes clients.

Votre site est en construction

Votre situation : Site pas encore terminé, vous ne voulez pas qu'il apparaisse sur Google.

Ce qu'il faut faire :

User-agent: *
Disallow: /

Pourquoi : Bloque complètement Google le temps de finaliser le site.

⚠️ Important : N'oubliez pas de changer ça quand le site est prêt !

Pourquoi robots.txt aide votre référencement

Le "budget crawl" expliqué simplement

Imaginez : Google est comme un visiteur qui n'a que 2 heures pour visiter votre musée (site web).

Sans robots.txt :

Il passe 30 minutes dans les toilettes (pages admin)
30 minutes dans les locaux techniques (pages de test)
Il lui reste seulement 1 heure pour voir vos vraies œuvres d'art (vos pages importantes)

Avec robots.txt :

Vous lui dites : "Ignore les toilettes et les locaux techniques"
Il a maintenant 2 heures complètes pour admirer vos œuvres

Résultat : Vos pages importantes sont mieux explorées et mieux référencées.

Exemple concret

Site de 100 pages :

70 pages importantes (articles de blog, services, etc.)
30 pages inutiles (admin, connexion, pages de test)

Avec un bon robots.txt :

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /test/

Impact : Google passe 100% de son temps sur vos 70 vraies pages au lieu de perdre 30% de son temps sur les pages inutiles.

Ce qu'il faut retenir

L'essentiel en 3 points

1. Robots.txt = panneau d'instructions pour Google

C'est un petit fichier texte qui dit à Google quelles pages il peut ou ne peut pas explorer sur votre site.

2. Robots.txt NE protège PAS vos pages

Il dit seulement à Google de ne pas afficher certaines pages dans les résultats de recherche. Pour vraiment protéger une page, utilisez un mot de passe.

3. Toujours inclure votre sitemap

N'oubliez jamais cette ligne dans votre robots.txt :

Sitemap: https://votre-site.fr/sitemap.xml

Le robots.txt idéal pour débuter

Si vous n'êtes pas sûr, utilisez simplement ceci :

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://votre-site.fr/sitemap.xml

Ce que ça fait : Autorise Google à tout explorer sauf les pages d'administration, et lui indique où trouver votre plan de site.

Les 3 erreurs à ne JAMAIS faire

❌ Ne bloquez jamais /images/, /css/ ou /js/ ❌ Ne pensez pas que robots.txt protège vos pages sensibles ❌ N'oubliez pas d'ajouter votre sitemap

Pour aller plus loin

Maintenant que vous comprenez robots.txt, découvrez d'autres outils pour améliorer votre référencement :

Sitemap : le plan de votre site pour Google - Aidez Google à découvrir toutes vos pages
Schema.org : aidez Google à mieux comprendre votre contenu - Données structurées expliquées simplement
Images Open Graph : optimisez vos partages sociaux - Contrôlez l'aperçu de vos liens sur Facebook, LinkedIn, etc.

Sur tous mes projets comme Art Conseil, j'intègre automatiquement robots.txt avec Nuxt SEO pour maximiser le référencement naturel.

Des questions ? Contactez-moi pour discuter de votre projet.

Voir tous mes projets

Cet article vous a-t-il été utile ?

Vos retours sont complètement anonymes et m'aident à améliorer mon contenu

Meta Title et Meta Description : optimiser pour le SEO

Découvrez comment optimiser vos balises meta title et meta description pour améliorer votre référencement Google et augmenter votre taux de clic dans les résultats de recherche.

Schema.org : données structurées pour améliorer votre référencement

Découvrez Schema.org et les données structurées qui permettent aux moteurs de recherche de mieux comprendre votre contenu. Guide complet avec exemples JSON-LD pour améliorer votre SEO.