Comment fonctionne le crawler ?

2

Quand je parle de mon travail et de ce qu’est le référencement, les gens comprennent assez rapidement ou font semblant. Bonne structure du site, bon contenu, bons liens qui soutiennent le site. Parfois, ça devient un peu plus technique et quand je commence à parler de ramper, je perds toute attention…

Pourquoi parcourir un site ?

L’exploration a commencé par une « cartographie » du Web et de la façon dont chaque site était connecté les uns aux autres. L’exploration a été utilisée par les moteurs de recherche pour découvrir de nouvelles pages et les indexer. Des robots d’exploration ont également été utilisés dans d’autres cas, notamment en matière de sécurité pour tester si un site était vulnérable ou non.

A lire également : Comment trouver les bons mots clés ?

Vous pouvez maintenant trouver toutes sortes d’outils qui peuvent explorer votre site et vous informer de son état général. Par exemple, OnCrawl vous donne des informations sur le contenu et votre référencement sur site, Majestic vous permet d’avoir des informations sur les liens qui pointent vers votre site.

Les robots d’exploration sont utilisés pour collecter le contenu d’une page, puis le traiter, le classer et fournir des informations.

A lire également : Quels sont les différents types d'audit ?

Créer le vôtre crawler n’est pas une tâche difficile pour quiconque sait coder un minimum. Par contre, si vous souhaitez développer un robot d’exploration beaucoup plus efficace, il devient plus technique.

Comment cela fonctionne-t-il ?

Pour explorer un site ou l’ensemble d’Internet, vous avez besoin d’un point d’entrée. Les robots doivent savoir qu’un site existe pour pouvoir venir l’analyser. Il y a quelques années, vous deviez encore soumettre manuellement votre site à un moteur de recherche pour lui indiquer que votre site était en ligne. Il ne vous reste plus qu’à créer quelques liens et votre site sera repéré après un certain temps.

Une fois qu’un robot d’exploration arrive sur votre site, il analyse son contenu ligne par ligne et suit chaque lien qu’il trouve, qu’il soit interne ou externe. Il continue ainsi jusqu’à ce qu’il arrive sur une page sans lien ou s’il rencontre une erreur telle qu’un 404, un 403 ou un 500 par exemple.

D’un point de vue technique, un robot d’exploration fonctionne avec une liste initiale d’URL appelée « seed ». Cette liste est ensuite transmise à un Fetcher qui récupère tout le contenu de chaque URL qu’il analyse. Ce contenu est ensuite redirigé vers un extracteur de liens qui récupère tous les liens de la page. Ces URL sont stockées d’une part et d’autre part soumises à un filtre qui renvoie des URL intéressantes à un module vu par URL. Ce module détecte ensuite si l’URL envoyée a déjà été vue ou non. Si ce n’est pas le cas, il est envoyé au récupérateur qui récupérera le contenu de la page et ainsi de suite.

N’oubliez pas que certains contenus ne peuvent pas être explorés par des robots comme Flash. Javascript est exploré par GoogleBot, mais il arrive parfois qu’il décide de ne pas explorer le contenu Javascript. Les images sont également des contenus que les robots ne peuvent pas explorer, mais Google devient de plus en plus intelligent et peut « comprendre » de quoi ils parlent.

Si nous ne donnons pas d’instructions à un robot, il va ramper tout ce qu’il peut. C’est là que le fichier robots.txt est utile. Il spécifiera aux bots (les instructions peuvent être spécifiques à chaque bot comme GoogleBot, MSN Bot — il y a ici toute une liste de bots existants) dont les pages ne peuvent pas être explorées. Supposons que vous ayez une navigation à facettes, que vous ne vouliez pas qu’ils explorent toutes les facettes de la navigation, car certaines n’auront pas de valeur ajoutée contrairement à d’autres. Cela va utiliser beaucoup de budget d’exploration pour rien. En utilisant cette ligne simple, vous indiquerez aux robots de ne pas visiter les pages que vous souhaitez :

Agent utilisateur : * Refus : /dossier-a/ Ceci spécifie que les robots ne doivent pas explorer le dossier A Agent utilisateur : GoogleBot Refus : /directory-b/ Cela spécifie uniquement que GoogleBot ne doit pas analyser le dossier B

Vous pouvez également spécifier aux robots que vous ne souhaitez pas qu’ils suivent les liens qui vont vers certaines pages en utilisant le rel= » nofollow ». Cependant, certains tests ont montré que le GoogleBot suit toujours ces liens. Ceci est en contradiction avec son utilisation de base, mais les liens NoFollow ont d’autres applications utiles.

Quel est le budget d’exploration ?

Votre site a récemment été découvert par un moteur de recherche. Les bots viennent souvent mettre à jour leurs données et voir si vous avez apporté des modifications ou créé de nouvelles pages. Chaque site a son propre budget d’exploration. Le quota dépend notamment du nombre total de pages de votre site et de la bonne santé de votre site (y compris s’il y a beaucoup d’erreurs ou non). Vous pouvez obtenir une bonne vue d’ensemble de votre budget d’exploration en vous connectant à votre Search Console.

Votre budget d’analyse définit le nombre de pages que le robot explorera à chaque fois. Il est proportionnellement lié au nombre total de vos pages et au nombre de pages qu’il a déjà explorées. Certaines pages sont explorées plus souvent que d’autres, surtout si elles sont mises à jour fréquemment ou si elles reçoivent des liens vers des pages importantes.

Par exemple, votre page d’accueil est un point d’entrée vers votre site qui sera souvent exploré. Une page de catégorie sera également souvent explorée si elle est liée directement à partir de la navigation principale. Un blog sera souvent exploré, car son contenu est régulièrement mis à jour. Un article de blog sera également souvent exploré au début de sa publication, mais après dans quelques mois, il ne sera probablement plus mis à jour et cela sera moins exploré.

Plus une page est explorée par un robot, plus elle est considérée comme importante par rapport aux autres pages. C’est à ce moment que vous devez vous concentrer sur l’optimisation de votre budget d’exploration.

Optimisez votre budget d’exploration

Pour optimiser votre budget d’exploration et vous assurer que vos pages importantes reçoivent l’attention qu’elles méritent, vous pouvez analyser les journaux de votre serveur et voir comment un robot analyse votre site :

  • À quelle fréquence vos pages importantes sont-elles explorées ?
  • Les petites pages sont-elles plus explorées qu’elles ne le devraient ?
  • Les robots rencontrent-ils souvent des erreurs 4xx ou 5xx lors de l’exploration ?
  • Les robots se heurtent à des pièges à araignées ? (Matthew Henry a écrit un très bon article à ce sujet)

En analysant vos journaux, vous pourrez voir si les pages que vous considérez comme sans importance sont souvent explorées. Vous devrez ensuite creuser dans votre structure de maillage interne. Si une page est souvent explorée, elle doit recevoir de nombreux liens.

Vous pouvez également résoudre les erreurs (4xx ou 5xx), en utilisant notamment OnCrawl, pour améliorer l’exploration et l’expérience utilisateur de votre site.

Crawl VS Scrap

Le robot et le grattoir sont deux choses distinctes à des fins différentes. L’exploration d’un site signifie arriver sur une page, extraire tous les liens et les suivre.

Scraper vise à récupérer du contenu spécifique d’une page : balise de titre, méta description, balise h1 ou une partie plus précise comme une liste de prix. Au lieu de cela, un scraper aura tendance à se faire passer pour un humain, à ignorer les règles de robots.txt, à remplir et à envoyer des formulaires et à utiliser l’agent utilisateur d’un navigateur pour ne pas être détecté.

Les robots d’exploration des moteurs de recherche agissent également en tant que scrapers dans le sens où ils doivent également récupérer le contenu d’un site afin de le traiter via l’algorithme de classement. Contrairement aux scrapers, ils ne recherchent pas de contenu spécifique, mais plutôt tout le contenu disponible et plus encore (le temps de chargement d’une page par exemple). Les robots des moteurs de recherche identifient toujours eux-mêmes en tant que robot afin de permettre au propriétaire du site de savoir quel robot est venu et quand. Cela devient utile lorsque vous souhaitez effectuer le suivi de toutes les interactions sur votre site.

Maintenant que vous en savez plus sur l’exploration, son fonctionnement et son importance, il vous suffit de commencer à analyser vos propres journaux. Cela vous donnera des détails sur la façon dont les robots interagissent avec votre site, sur le fait qu’ils sont considérés comme importants et sur les erreurs rencontrées lors de l’exploration.

Pour ceux qui veulent aller un peu plus loin dans l’histoire des robots d’indexation, je recommande « A Brief History OfWebCrawlers »