#
Technique
#
Théorie
Durée :
10
mn
Expert

Le crawl

👉 Sommaire de l'article

Qu’est-ce qu’un crawl ?

Le crawl est le processus utilisé par les moteurs de recherche pour explorer le contenu des pages web. Grâce à des programmes automatisés appelés "crawlers" qui naviguent d’une URL à l’autre, découvrant et analysant les contenus pour les rendre disponibles dans les pages de résultats de recherche.

Le crawl est la première étape nécessaire pour faire du SEO : si personne ne vient explorer votre site aucune chance qu'il remonte un jour dans un moteur de recherche.

Qu’est-ce qu’un crawler ?

Un crawler, également connu sous le nom de spider ou robot d'exploration, est un programme qui suit les liens sur les pages web pour en découvrir d’autres et collecter des informations. Il s'agit du premier pas vers l’indexation.

Exemples de crawlers célèbres

Nom du Crawler Propriétaire Fonction Utilisation Principale
Googlebot Google Explore les pages web pour indexation dans Google Search Moteur de recherche, SEO
Screaming Frog Screaming Frog SEO Spider Simule un crawl pour analyser les sites web SEO technique, audit de site
Bingbot Microsoft Explore les pages web pour indexation dans Bing Search Moteur de recherche, SEO
DuckDuckBot DuckDuckGo Explore les pages pour alimenter le moteur de recherche DuckDuckGo Recherche respectueuse de la vie privée
AhrefsBot Ahrefs Collecte des données pour des outils de SEO et d’analyse de backlinks Analyse de backlinks, SEO
YandexBot Yandex Explore les pages pour le moteur de recherche Yandex Moteur de recherche populaire en Russie

Comment ça fonctionne un crawler ?

Un crawler fonctionne de manière similaire à un navigateur web classique, mais avec quelques différences essentielles notamment le fait qu'il soit amnésique (stateless) : il ne retient pas l'état d'une page à l'autre. Par contre contrairement à une croyance répandue chez les SEO les crawlers "comprennent" visuellement les pages.

Analogie avec une toile d’araignée

Imaginez que chaque page web est une intersection sur une toile. Les liens entre les pages représentent les fils qui relient ces intersections. Le crawler suit ces fils pour explorer la toile entière, page après page.

Le rôle du PageRank

Google utilise un algorithme appelé PageRank pour décider quelles URL explorer en priorité. Les pages les plus importantes ou les mieux reliées sont souvent explorées plus fréquemment. Cela signifie que vos pages stratégiques doivent être bien intégrées dans la structure de votre site.

C’est quoi le budget de crawl ?

Le budget de crawl est la quantité de ressources qu’un moteur de recherche alloue à l’exploration de votre site. Cela dépend de deux facteurs principaux :

  1. La capacité de votre serveur : Si votre site répond lentement, Googlebot ralentira son exploration pour éviter de le surcharger.
  2. L’intérêt de votre contenu : Google priorise les pages susceptibles d’avoir de la valeur pour les utilisateurs.

Si votre site possède de nombreuses pages inutiles ou de faible qualité, elles peuvent consommer votre budget de crawl, au détriment des pages importantes.

Comment améliorer le crawl de mon site ?

1. Donner à Google des raisons de venir

  • Publiez du contenu régulièrement.
  • Faites des mises à jour sur les pages existantes.
  • Créez des liens internes vers vos nouvelles pages.

2. Montrez de la stabilité à Google

  • Assurez-vous que votre site charge rapidement et ne retourne pas d’erreurs (HTTP 500 ou 404).
  • N'oubliez pas de renouveler vos noms de domaines
  • Maintenez une structure logique et cohérente.

3. Ne pas bloquer le crawl

  • Vérifiez votre fichier robots.txt pour ne pas bloquer accidentellement des pages essentielles.
  • Certaines pages sont utile pour le crawl mais sans valeur SEO, c'est le cas la pagination, il faut laisser les crawlers les explorer

4. Simplifiez la vie de Google en lui donnant des indices

  • Fournissez un sitemap XML à jour pour guider les crawlers.
  • Utilisez des données structurées (schema.org) pour aider les moteurs à comprendre votre contenu.
  • Optimisez vos liens internes pour diriger les crawlers vers vos pages importantes.

se connecter

réseaux sociaux
email
PAS ENCORE INSCRIT ?
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Ce contenu fait partie d'une masterclass

Module payant

acheter

ce contenu est réservé aux membres

S'inscrire

Créez un compte et accédez à des dizaines d'autres contenus ainsi que de nombreuses fonctionnalités exclusives pour apprendre à faire du SEO comme le font les pros !

email
Vous avez déjà un compte ?
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
précédent
Suivant