Optimiser le fichier sitemap.xml

Fichier sitemap.xml

Avant, lorsque je réalisais un audit technique d’un site Internet, je générais le fichier sitemap.xml purement et simplement sans le retravailler. Mais ça, c’était avant… Jusqu’au jour où j’ai observé de nombreuses erreurs sur un cas client et là, chose incroyable, j’ai vite compris que le fichier Sitemap pouvait être optimisé afin de favoriser l’indexation des pages d’un site.

 

A quoi ressemble un fichier sitemap.xml ?

Sitemap.xml

Rappel des fondamentaux d’un fichier Sitemap

Pour ceux qui ne le sauraient pas ou qui ont besoin d’une piqûre de rappel, le fichier sitemap.xml :

  • regroupe l’ensemble des URL de votre site que vous désirez voir indexées,
  • fait partie des premiers fichiers lus par les robots de Google au moment du crawl,
  • n’optimise pas votre visibilité mais accélère l’indexation de vos pages,
  • doit être placé à la racine de votre site sur le FTP,
  • est codé en langage XML,
  • est différent du plan de site (le fichier sitemap.xml est destiné aux moteurs alors que le plan de site est dédié aux utilisateurs),
  • doit être soumis à Google via les Webmaster Tool
  • doit être déclaré dans le fichier robots.txt

Les points précédents sont le strict minimum à savoir en ce qui concerne le fichier Sitemap. Maintenant, savez-vous comment générer un tel fichier rapidement ?

Comment générer un fichier sitemap.xml ?

Xenu

La théorie, c’est bien, mais la pratique c’est mieux. A présent, nous allons voir comment mettre en place un fichier Sitemap facilement. Pour ce faire, nul besoin de connaître la syntaxe XML. Il vous suffit de télécharger le logiciel Xenu’s Link Sleuth à cette adresse. Ensuite, respecter la procédure ci-dessous :

  1. Ouvrir Xenu > File > Check URL > une fenêtre s’ouvre, renseigner l’URL de votre site sans modifier aucun paramètre
  2. Xenu crawle votre site et analyse sa structure de fond en comble, que ce soit vos liens externes, vos pages HTML, vos fichier CSS, vos fichier JavaScript, les liens brisés (pages 404) ou encore vos images
  3. A la fin du crawl, le logiciel vous propose un reporting (vous n’êtes pas obligé d’accepter)
  4. Aller dans File > Greate Google Sitemap File > Enregistrer votre fichier
  5. Transférer votre fichier sitemap.xml, via un logiciel FTP tel que Filezilla (gratuit), à la racine de votre site sur le serveur

NB : il se peut que votre site soit réalisé par le biais d’un CMS, Prestashop par exemple, qui génère lui-même le fichier Sitemap, grâce à la mise en place d’un module spécifique, auquel cas, vous n’appliquerez pas les étapes précédentes.

Vous venez de créer votre fichier sitemap. Néanmoins, si vous jetez un oeil au sein de votre fichier, vous verrez que Xenu a, par défaut, garanti l’indexation de pages inutiles d’un point de vue du référencement. Une vérification manuelle va donc être nécessaire.

Bien optimiser son fichier Sitemap

Vous l’aurez compris, laisser Xenu générer lui-même votre Sitemap ne suffit pas. Il vous faut intervenir pour procéder à quelques modifications :

  • Supprimer les pages inutiles en terme de référencement (formulaires, pages d’administration…),
  • Supprimer les pages paramètres (il s’agit de pages composées d’un point d’interrogation comme les pages de filtres ou de pagination),
  • Indiquer une fréquence de mises à jour de vos pages (daily, weekly ou monthly),
  • Prioriser vos pages, sur une échelle de valeurs de 0.1 à 1.0, en fonction de leur importance dans la hiérarchie et la structure de votre site

NB : dans le cadre d’un site e-commerce, les pages paramètres peuvent représenter plusieurs milliers de pages. Aussi, il est déconseillé de supprimer à la main chacune de ces lignes. Le travail serait trop fastidieux. Pour automatiser la suppression de ces pages, je vous invite à lire mon article consacré à cette technique utilisée sous Notepad ++.

Déclarer votre Sitemap dans le fichier robots.txt

Vous le savez très certainement, les fichiers sitemap.xml et robots.txt font partie des première pages qu’un spider va visiter pour obtenir des informations importantes relatives à un site Internet (quelles pages ne pas indexer, le nombre de pages que votre site comptabilise…). Aussi, il est recommandé de déclarer votre fichier sitemap.xml au sein de votre fichier robots.txt en vue d’accélérer davantage le processus d’indexation de vos pages.
Ligne de code à ajouter en haut de votre fichier robots.txt :

Sitemap: http://www.anthony-degrange.fr/sitemap.xml

Bien entendu, il vous faut remplacer l’URL par celle de votre site et le sitemap.xml par le nom exact de votre fichier. Aussi, si vous avez nommé votre fichier Sitemap /sitemap-01.xml, il faudra indiquer précisément le nom de votre fichier.

Déclarer votre Sitemap dans l’outil d’aide aux webmasters

Déclarer le fichier Sitemap ans les Webmaster Tools permet d’accélérer davantage l’indexation des pages d’un site, c’est pourquoi je vous conseille de vous créer un compte. Voici la démarche pour réaliser cette opération :

  • Se connecter à Google Webmaster Tools,
  • Ajouter votre site ou le sélectionner dans la liste,
  • Dans le menu Exploration > Sitemaps, ajouter un Sitemap

Autres conseils

  • Ne jamais afficher dans votre fchier sitemap.xml des URL redirigées, des pages d’erreur ou encore des URL composées de paramètres (session, cookie, user, etc.)
  • Prévoir un fichier Sitemap pour vos images et vos vidéos,
  • Un fichier Sitemap ne peut contenir plus de 50 000 URL, au-delà, il vous est conseillé de créer plusieurs fichiers Sitemap réunis autour d’un Sitemap principal qui pointe vers tous les autres (index de Sitemap),

Pour toute information complémentaire, voici la page officielle de Google consacée au fichier Sitemap.

4 commentaires

  1. Bonjour et merci pour ces conseils clairs.
    Novice, j’espère avoir respecté votre bonne méthode.
    Au plaisir.
    K.

  2. Sylvie dit :

    Bonjour
    Je me permets de vous envoyer ce message car étant novice sur les problèmes que je rencontre, je tape à toutes les portes.
    Tout d’abord, Google est dans l’impossibilité d’explorer mon fichier robots.txt et je rencontre aussi un problème avec mon sitemap : réseau inacessible…
    Je ne sais pas quoi faire… ni comment m’y prendre….
    J’ai oublié de dire que je viens de changer de version en prestashop, mais je pense que c’est peut être une coïncidence, enfin je ne sais pas.
    J’espère avoir de vos nouvelles
    Cordialement

  3. Marc DUVAL dit :

    Bonjour,

    J’ai une page 404 que je ne sais pas gérer car je ne suis pas très calé dans ce domaine.

    Cordialement,

    Marc DUVAL

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut