Semalt donne les principales raisons pour lesquelles Googlebot n'explore pas chaque page sur certains sites


Des clients sont venus se plaindre que certains de leurs sites ne sont pas explorés par Googlebot. En tant qu'experts en référencement, il est de notre devoir de trouver le problème et de le résoudre afin que nos clients soient satisfaits et maintiennent leur site en parfait état.

John Mueller de Google explique certains facteurs qui influencent la façon dont les pages d'un site sont explorées. Bien sûr, ce n'était pas spécifique, mais cela nous oriente dans la bonne direction. Dans cet article, John souligne également pourquoi certaines pages d'un site ne sont pas explorées.

La question qui a motivé cette réponse concernait la raison pour laquelle Google explorait les sites Web à un rythme relativement lent, ce qui est insuffisant pour gérer le nombre énorme de sites Web aujourd'hui.

Comprendre le budget d'exploration de Google

C'est le premier domaine sur lequel nous choisissons de nous concentrer car il explique beaucoup de choses sur la fréquence à laquelle Google explore un site Web. Googlebot (le nom du robot d'exploration Web de Google) parcourt les pages Web et les maintient indexées afin qu'elles puissent se classer sur SERP. Cependant, le grand volume de sites Web devient un problème, c'est pourquoi Google a conçu une stratégie dans laquelle il n'indexe que les pages Web de haute qualité. Considérez-le comme une forme de filtre. Plutôt que de dépenser toutes ces ressources sur des pages qui ne sont probablement pas pertinentes pour l'utilisateur, Google se concentre uniquement sur les pages Web de haute qualité.

Le budget d'exploration d'un site correspond à la quantité de ressources que Google consacre à l'exploration de ce site. Il est également important de noter que tout ce qui est exploré n'est pas indexé. Les pages Web ne sont indexées qu'après avoir été explorées et jugées utiles.

Une fois votre budget d'exploration épuisé, Google arrête d'explorer vos pages Web.

Définir votre budget d'exploration

Un budget de crawl de sites Web est déterminé par quatre facteurs principaux :
Il est facile de comprendre pourquoi vous seriez si inquiet lorsqu'une partie de votre contenu n'est pas explorée en tant que propriétaire de site Web. Cela réduit vos chances de classement, surtout lorsque ce sont vos contenus les plus précieux qui sont laissés de côté.

Comment résoudre les problèmes d'exploration

Résoudre les problèmes avec vos balises Meta ou votre fichier robots.txt

Les problèmes qui entrent dans cette catégorie sont généralement faciles à détecter et à résoudre. Parfois, l'intégralité de votre site Web ou des pages spécifiques de votre site Web peuvent rester invisibles à Google, car Googlebot n'est pas autorisé à les saisir.

Il existe un certain nombre de commandes de bot qui empêchent l'exploration des pages, et cela peut être corrigé en vérifiant vos balises META et votre fichier robots.txt. Avoir les bons paramètres et les utiliser correctement vous aidera, en fait, à économiser votre budget de crawl et à orienter Googlebot dans la bonne direction.

Il est également possible d'avoir des liens de non-suivi. Dans ce cas, le robot indexe une page mais ne peut plus suivre le lien. Ce n'est pas bon pour votre site car Googlebot utilise ces liens internes pour trouver de nouvelles pages. Cela nous amène au point suivant.

Liens internes rompus

Avoir des liens rompus n'est jamais une bonne expérience à la fois pour les utilisateurs et les robots d'exploration. Pour chaque page indexée, une partie du budget de crawl du site est prélevée. Sachant cela, nous comprenons que lorsqu'il y a trop de liens cassés, le bot gaspillera tout votre budget de crawl en les indexant, mais il n'arrivera pas à vos pages pertinentes et de qualité.

La réparation de vos liens brisés permet de rendre votre contenu de qualité plus visible pour Googlebot.

Les liens internes rompus peuvent être le résultat de fautes de frappe d'URL (où il y a une faute de frappe dans l'adresse URL du lien hypertexte), d'URL obsolètes ou de pages avec un accès refusé.

Problème lié au serveur

Votre serveur peut également être la raison pour laquelle Google ne trouve pas certaines pages. Avoir un grand nombre d'erreurs 5xx sur votre site Web peut être le signe qu'il y a quelque chose qui ne va pas avec votre serveur. Pour résoudre ce problème, nous reconfigurer les zones où il y a des erreurs et corriger les bugs.

Parfois, il se peut que votre serveur soit surchargé. Dans ce cas, il cesse de répondre aux requêtes de l'utilisateur et du bot. Lorsque cela se produit, vos téléspectateurs, ainsi que les robots, ne peuvent pas accéder à cette page.

Dans des situations extrêmes, nous pourrions être confrontés à une mauvaise configuration du serveur Web. Ici, le site est visible par les utilisateurs humains, mais il continue de donner un message d'erreur aux robots du site. Ce problème est assez délicat car il peut être difficile à remarquer. Dans ce cas, la page Web est inaccessible à Googlebot, ce qui rend impossible l'exploration et l'indexation par les robots.

Problèmes avec le sitemap XML

Le plan du site affecte un large éventail d'éléments de votre site Web. Il est essentiel que les URL de votre plan de site restent pertinentes. Ils doivent être mis à jour et corrigés. Ceci est important car lorsque votre budget de crawl est insuffisant, votre sitemap dirige les robots d'exploration vers les sites les plus pertinents. De cette façon, vos pages les plus importantes sont toujours indexées.

Erreurs avec l'architecture Web

C'est l'un des problèmes les plus difficiles à résoudre. Les problèmes qui entrent dans cette catégorie peuvent bloquer ou désorienter les robots d'exploration de votre site Web. Cela peut prendre la forme de problèmes avec vos liens internes. Ou cela pourrait être le cas de mauvaises redirections. Dans ce cas, les utilisateurs et les bots sont redirigés vers des pages moins pertinentes. Enfin, nous avons du contenu en double. Malheureusement, le contenu en double est l'un des problèmes de référencement les plus courants. C'est aussi l'une des principales raisons pour lesquelles vous manquez de votre budget de crawl, et il devient difficile pour Google d'explorer certaines de vos pages.

Conclusion

Google n'est pas incapable de trouver votre contenu non seulement à cause de problèmes liés au contenu ou que vous optimisez pour les mauvais mots clés. Même le contenu optimisé peut rester invisible pour Google s'il présente des problèmes de crawlabilité.

Nous sommes ici pour déterminer ce qui ne va pas et pour rédiger un plan sur la façon dont nous pouvons résoudre ce problème. Nous contacter aujourd'hui, et Semalt peut vous aider à remettre votre contenu sur le radar.

send email