Test SEO : analyse de la commande Google « site: » pour l’indexation

Commande Google site:

Aujourd’hui, afin de poursuivre dans la série des retours d’expérience SEO, je vous invite à découvrir, par l’intermédiaire de mon ancien collègue et ami Younès Merzouki, un article révolutionnaire qui va changer votre vision de la commande site: ou, tout du moins, vous éclairera un peu plus sur cet opérateur de recherche autour duquel on trouve peu de choses sur le net (c’est en tout cas mon avis, même Google en dit peu).

Mais, avant cela, j’aimerais présenter Younès dont je ferai prochainement une interview sur son métier de chef de projet en référencement naturel.

Présentation de Younès Merzouki

Younes MerzoukiYounès fait partie de ces hommes de l’ombre dans la planète SEO. Il est de ceux qui ne font pas de bruit mais qui, par leur talent, contribuent à améliorer notre connaissance de l’algorithme Google.

Spécialisé en réseau et en gestion de serveurs, en plus du SEO, je lui connais de nombreuses qualités parmi lesquelles sa maîtrise des redirections complexes, c’est-à-dire composées d’expressions régulières, savoir-faire pour lequel j’ai souvent fait appel à lui.

Younès gère également quelques Money site qu’il a développés lui-même, ainsi que des sites dont il se sert de tests pour percer certains secrets concernant l’algorithme de Google. A ce titre, il a tenu à me faire part de sa dernière découverte au sujet de la commande site:, commande qui permet à un webmaster de voir l’ensemble des pages de son site indexées par Google. Aussi, quels sont les critères pris en compte par Google pour classer les pages d’un site Internet lorsque la commande site: est appelée ? Cette commande classe-t-elle les pages d’un site par ordre d’importance ? Younès Merzouki, chef de projet SEO au sein de l’agence Experts Référencement, s’est penché sur ces questions et tente d’apporter quelques éléments de réponse.

Préambule : à quoi sert la commande site: ?

La commande site: pour les NulsComme nous l’avons dit précédemment, la commande site: permet de ressortir toutes les URL indexées d’un site par Google. Toutes, pas certain si l’on en croît Aurélien Guiton, consultant Search Marketing chez Première Position. Mais ceci est un tout autre sujet, je vous invite néanmoins à lire son article très intéressant.

Bref, s’il est évident que l’affichage des pages de la commande site: répond à des critères de classement – l’objectif d’un algorithme étant de résoudre un problème, il doit bien définir une méthode pour y parvenir et ce processus fait nécessairement appel à des fonctions de calcul, d’ailleurs, étymologiquement le terme « algorithme » signifie nombre – peut-on affirmer, à l’heure actuelle, que ce sont en priorité les pages les plus importantes du site qui apparaissent en premier tandis que les pages les moins importantes sont à la fin ? Cette interrogation est légitime dans le cadre du référencement d’un site car, si les pages sont classées par ordre d’importance, alors, il pourrait être intéressant d’optimiser prioritairement ces pages pour le SEO. A l’inverse, on peut également considérer que, si les pages ne sont pas classées selon des critères d’importance, elles n’ont donc pas un intérêt prioritaire pour le SEO. Qu’en dit l’étude de Younès à ce sujet ? Continuez votre lecture pour en savoir plus.

Contexte préalable à la phase de tests

Afin d’apporter des éléments de réponse à son postulat, Younès a développé un site pour appuyer son étude. Ce dernier contient des pages qui répondent à différents critères. Le site est http://jeux.ovh. Je vous invite d’ores-et-déjà à utiliser la commande site:http://jeux.ovh afin d’observer par vous-même la façon dont les pages ressortent dans l’index de Google.

Pour le test, certaines pages ont donc un meta-description ou non, des URL avec ou sans tiret(s), avec ou sans underscore(s), avec ou sans extension(s), avec ou sans contenu, des pages maillées en interne, d’autres qui reçoivent des liens externes ou d’autres ne sont encore que des pages orphelines.

Pages sans contenu, sans meta description

Pour chacune de ces pages, le site est composé de plusieurs URL composées d’au moins 1 mot de 4 lettres (boxe, de-boxe, de_boxe) et 1 ou 2 chiffres sous plusieurs formes :

  • Sans extension,
  • Avec l’extension .html,
  • Avec l’extension .htm,
  • Avec un slash / à la fin de l’URL

Pages sans contenu, avec meta description

Pour chacune de ces pages, Younès a utilisé plusieurs URL composées d’au moins 1 mot de 4 lettres (foot, de-foot, de_foot) sous plusieurs formes :

  • Sans extension,
  • Avec l’extension .html,
  • Avec l’extension .htm,
  • Avec un slash / à la fin de l’URL

Pages avec contenu, sans meta description

Pour chacune de ces pages, Younès a utilisé plusieurs URL composées d’au moins 1 mot de 4 lettres (moto, de-moto, de_moto) sous plusieurs formes :

  • Sans extension,
  • Avec l’extension .html,
  • Avec l’extension .htm,
  • Avec un slash / à la fin de l’URL

Pages avec contenu, avec meta description

Pour chacune de ces pages, Younès a utilisé plusieurs URL composées d’au moins 1 mot de 4 lettres (pool, de-pool, de_pool) sous plusieurs formes :

  • Sans extension,
  • Avec l’extension .html,
  • Avec l’extension .htm,
  • Avec un slash / à la fin de l’URL

En plus de ces différentes pages, il a été créé :

  • une page d’accueil avec du contenu sans meta descriptions,
  • une page orpheline sans contenu, avec meta description, qui possède 1 backlink,
  • une page linkée seulement depuis une sous-page sans contenu avec meta description.
  • une page (de-moto6.html) qui dispose d’un maillage interne plus important que les autres pages

Bon à savoir : Google considère parfois que certaines URL sont en duplicate, y compris lorsque le contenu de la page est complètement différent. Ce phénomène se produit uniquement lorsque les URL sont proches l’une de l’autre. C’est pourquoi Younès a ajouté des chiffres à la fin des URL actuelles. En effet, lors d’un précédent test, ces URL ne contenaient aucun chiffre. Malheureusement, Google considérait ces URL en duplicate content. Il a donc été contraint de les différencier. Par exemple, lors du premier essai, ce message s’affichait : « Afin d’afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux xx entrées actuelles. Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis ». Une fois la relance effectuée, les pseudo URL dupliquées apparaissaient alors bien à l’appel de la commande site:

Quelles pages du site ressortent en priorité dans l’index de Google aujourd’hui ?

Ci-dessous dans le tableau, vous trouverez la liste des pages du site, rangées dans l’ordre d’apparition d’activation de la requête site: suivie de l’URL.

Parmi l’ensemble des informations, seul manque au tableau le critère de la page orpheline. Il s’agit de l’URL http://jeux.ovh/loto

URL de la pageSans contenuSans meta descriptionAvec tiret(s)Avec underscore(s)Avec extensions
/pool1
/X
/pool4/
/de_pool9X
/de_pool12X
/foot4X
/de_foot12XX
/kartX
/de_foot9XX
/foot1X
/loto
/de-pool5X
/pool2.htmlX
/de_pool10.htmlXX
/pool3.htmX
/de-pool8/X
/de_pool11.htmXX
/de-foot8/XX
/de_foot10.htmlXXX
/foot3.htmXX
/de_foot11.htmXXX
/foot2.htmlXX
/de-foot5XX
/moto4/X
/moto1X
/de_moto9XX
/de_moto12/XX
/de_boxe9XX
/boxe4/XX
/boxe1XX
/de_boxe12/XX
/de-pool6.htmlXX
/de-pool7.htmXX
/de-foot6.htmlXXX
/de-foot7.htmXXX
/moto3.htmXX
/moto2.htmlXX
/de_moto11.htmXX
/de_moto10.htmlXX
/de-moto8/XX
/de-moto5XX
/de-boxe5XXX
/de_boxe10.htmlXXX
/boxe2.htmlXXX
/de_boxe11.htmXX
/boxe3.htmXXX
/de-boxe8/XXX
/de-moto7.htmXXX
/de-moto6.htmlXXX
/de-boxe7.htmXXXX
/de-boxe6.htmlXXXX

Que peut-on déduire de l’ensemble de ces observations ?

Voici les différents critères qui semblent être pris en compte par Google pour réaliser son classement des URL d’un site sur la commande site:

  • La présence d’un méta description semble être l’un des critères les plus importants pris en considération par Google;

Par exemple, la page /loto est en début de 2è page de la commande site: alors que c’est une page orpheline. Néanmoins, la page d’accueil du site n’a pas de méta description et elle est en 2è position de la commande site: Enfin, la page kart est en 1è page de la commande site: alors qu’elle n’a pas de contenu, ne possède qu’un seul lien mais elle dispose d’un méta description.

  • Les pages composées d’URL courtes ressortent en priorité;

Par exemple, la page d’accueil, bien qu’elle n’ait pas de meta description, ce qui semble être pourtant un critère proéminent dans la position d’une page lors de l’utilisation de la commande site:, ressort en 2è position. Aussi, nous en concluons que la hiérarchie d’une page dans l’arborescence du site est un autre critère d’importance pour Google. A ce titre, la page d’accueil, située au plus haut niveau à la racine d’un site, bénéficie d’un statut particulier auprès de la firme de Moutain View.

  • Les pages avec underscore (tiret bas du 8) ressortent en priorité (avant le tiret du 6);

Par exemple, pour des critères similaires, la page /de_pool9 ressort devant la page /de-pool5

  • Le contenu seul ne permet pas à une page de se positionner dans les premières positions sur la commande site:

Par exemple, les pages /foot4, /de_foot12, /kart, /de_foot9 et /foot1 se placent respectivement de la 5è à la 10è position en première page.

  • un linking interne plus important ne permet pas à une URL d’être au faîte du classement de la commande site: (Voir la page /de-moto6.html pour exemple.)

Important : ces différentes conclusions sont à confronter avec d’autres sites. Vous pouvez vérifier sur vos propres sites et étudier les mouvements liés à d’autres critères notamment.

Ce que le test n’a pas permis de savoir :

  • le déroulement du test n’a pas permis de savoir si la présence d’extensions ou non, ni quel type d’extensions (htm, html) prévalait dans le classement d’une page à l’issue de l’usage de l’opérateur site: ;
  • nous n’avons pas pu déterminer si une page ressortait en priorité selon qu’on y ajoute un slash de fin ou non (page versus répertoire);

Conclusion

Contrairement à ce que beaucoup de propriétaires de sites pensent, la commande site: ne classe pas les pages d’un site Internet par ordre d’importance. Aussi, ce n’est pas parce que vos pages « Conditions Générales de Vente », « Mentions Légales », ou « Contact » ressortent en première page après utilisation de la commande site: que vous devez vous jeter la tête en avant dans l’optimisation à tout-va de ces dites pages. C’est même complètement idiot ! Faites le pour d’autres raisons (ergonomie, expérience utilisateur, instaurer une relation de confiance avec le consommateur…) mais pas pour des raisons SEO. En effet, si ces pages ressortent bien souvent en première page sur la requête site:[nom de votre site] c’est uniquement parce qu’il s’agit d’URL courtes, non constitués de tirets.

L’algorithme de Google se base sur d’autres critères tels que la présence ou non d’un méta description, la longueur des URL, l’absence de tirets, etc. Google semble fonctionner par niveaux en faisant ressortir en priorité les pages de niveau 1, puis les pages de niveau 2 et ainsi de suite. Bien entendu, Google positionnera les pages en donnant la primauté à celles qui remplissent les meilleurs critères. Par conséquent, une page placée au plus près de la racine d’un site, composée d’une URL courte, sans tirets et d’un meta description sera mieux placée qu’une page exempte de l’un de ces critères, surtout s’il s’agit du meta description qui semble être le premier élément pris en compte par l’algorithme. A ce titre, ce dernier pourrait avoir une pondération positive plus importante que ce que peuvent imaginer les référenceurs aujourd’hui. En tout cas, c’est ce que ce test révèle du fonctionnement de l’algorithme quant à l’usage de la commande site:.

Tirets ou underscores dans les URL ?Par ailleurs, il demeure également important de privilégier les URL courtes pour plaire davantage au moteur. Au niveau des séparateurs, les pages contenant des underscores dans les URL semblent ressortir davantage dans les premières positions que celles composées d’un tiret. Est-ce à dire que les underscore doivent être privilégiés au détriment des tirets ? Non ! A mon humble avis, cette observation confirme simplement le fait que Google apprécie les URL courtes. Or, lorsqu’une URL est composée de plusieurs mots séparés par des underscore, Google ne lit qu’un seul mot. Autrement dit, je reprendrai ici l’exemple du site Optimisation Conversion (voir également l’article de Véronique Duong : l’underscore n’est pas un séparateur), l’underscore concatène les mots entre eux tandis que le tiret les divise (et c’est d’ailleurs pour cette raison qu’on les privilégie dans le nom de domaine en règle générale).

Exemple :

/url_en_un_mot = Google n’identifie qu’un seul mot (/urlenunmot) alors qu’ici, /url-en-un-mot = Google identifie bien 4 mots distincts (/url en un mot).

Google avant versus Google version 2015En définitive, ce qu’il faut bien se dire en SEO, c’est que plus on compile les données en amont pour Google, plus on peut espérer un meilleur classement. Néanmoins, cette affirmation est à modérer dans le sens où Google a également besoin de certaines informations essentielles. Tout ne s’accorde donc pas avec le « 100% minimalisme ». Il faut rester mesuré dans ses actions et donner à Google le strict nécessaire pour qu’il puisse facilement exploiter ces données sans avoir à consommer plus de ressources que ce dont il dispose. Il faut toujours se rappeler que la firme de Mountain View gère quotidiennement des milliards de sites. Il lui faut donc faire un tri le plus rapidement possible. « Aidez Google, il vous récompensera ! » Telle est ma devise.

Prochainement, je vous présenterai un autre test, réalisé par Younès, autour du méta title. D’ici là, si vous avez des questions ou des remarques à faire, je vous prierai de bien vouloir utiliser la zone de commentaires ci-dessous. Younès se fera une joie de vous répondre 😉

Avant de vous quitter, je souhaiterais remercier Jérémy Parard qui est à l’origine d’une grande partie du contenu de l’article.

12 commentaires

  1. Dood dit :

    Super intéressant cet article !

    Il l’est d’autant plus qu’étant développeur, je me dois de pouvoir proposer à mes clients un site qui soit déjà formaté pour un référencement naturel de qualité. Il est donc primordial de connaitre la manière d’utiliser l’URL rewriting !

    N’oublions pas qu’en plus, WordPress formate tout seul ses URLs donc sans intervention de notre part, on peut se retrouver avec des URLs à rallonge qui sont basées uniquement sur le contenu du titre de cette page avec l’ajout de tirets (titre-tres-tres-long-de-ma-page-car-jai-beaucoup-de-choses-a-dire).

    Manions donc les CMS avec parcimonie et sans se laisser embarquer dans ce moteur qui fait tout tourner à notre place !

  2. Victor dit :

    Merci aux 3 de nous avoir donné du concret. Ca fait toujours plaisir d’entendre des arguments avec des données pour appuyer ses dires !
    Merci d’avoir partagé ce travail de recherche qui devrait intéresser pas mal de gens 😉

    Victor

  3. Julien dit :

    Intéressant, d’autant plus qu’au niveau du référencement naturel d’autres critères sont également pris en compte via cette commande site:
    Par exemple, mes propres tests m’ont démontré que certains termes génériques et synonymes d’autorité et/ou de sérieux ressortaient, sans critères différenciant par ailleurs (url courtes sans tiret ni extension, meta description remplies, pages avec du contenu…)
    Ainsi par exemple, avoir une URL comportant le mot « blog » aide grandement son positionnement dans les Serps.
    J’espère contribuer au débat et apporter ma pierre 😉

  4. Teddy dit :

    Ok pour ce test mais il ne faudrait pas en tirer de conclusions trop hâtives non plus…

    Je reste assez dubitatif avec l’affirmation : « la commande site: ne classe pas les pages d’un site Internet par ordre d’importance » (entendu pour Google). Oui enfin j’en suis pas si sûr. Lors de tests réalisés pour des clients, j’ai tout de même constaté que, le plus souvent, les pages indexées dans Google pour une même requête ressortaient dans le même ordre que la commande « site: ».

    Maintenant, je suis d’accord avec le fait que, seuls des facteurs de popularité ne doivent être pris en considération, mais de là à dire que cela ne joue aucunement dans le classement d’un site: ? Ouep, C’est facile de l’affirmer !

    Mais bon ok pourquoi pas ! Les facteurs ne sont sûrement pas identiques j’en conviens. De là à dire que le classement est surtout lié à des URLs courtes, ce test ne peut pas le prouver en tous cas.

    • Light on seo dit :

      @teddy , l’auteur n’a pas écrit que la «popularité ne jouait aucunement», il a juste dit que si tu utilises l’opérateur Site: les résultats ne sont pas classés par ordre d’importance…. je ne vois pas ce qu’il y a de farfelu ou de hatif là dedans.

      Maintenant je pourai poser une autre question… qui a dit que la commande site: classait les sites par ordre d’importance… c’est pareil ça aussi on pourrait dire que c’est hâtif.

      très bon test ! mais si vous pouviez continuer les gars ce serait cool, comparer plus de pages pour confirmer ou infirmer vos résultats actuels, Notamment avec-tirets/sanstirets/avec_underscore.

      le commentaire de julien est top… très intéressant

    • Younès dit :

      Tu sais Teddy, avant d’avoir fait ce test, je connaissais déjà les résultats ! J’ai fait des centaines de tests sur des sites existants bien avant. Le site jeux.ovh m’a juste servi à prouver ce que je savais déjà.

      Tu dis « De là à dire que le classement est surtout lié à des URLs courtes, ce test ne peut pas le prouver en tous cas »

      Tu n’as qu’à me donner n’importe quel site qui n’a que des urls longues ou qu’avec des tirets et je serais capable de te faire ressortir une page dans la première page du site 2 points.

      • Teddy dit :

        @Younes,

        Je ne suis pas ici pour contredire ton test (ou tes tests passés). Je voulais juste faire remarquer qu’il ne faut jamais tirer de conclusions rapides sur juste un test…

        Maintenant je te concède que le classement n’est pas celui que l’on peut avoir dans les SERPS sur une recherche plus classique. D’ailleurs pour s’assurer du classement (par popularité) de nos pages il suffit de se rendre sur GWT pour en avoir un aperçu (ou utiliser des outils dédiés comme MOZ…).

        Maintenant la commande site: seule, on peut effectivement tirer peu de conclusion. Hors cette même commande accompagnée d’une requête cible donne des résultats proches du classement de google ^^ (au moins pour les premiers résultats)

        Mais bon, je ne dénigre pas l’utilité de ton test, mais juste sa viabilité surtout en pointant (ce critère d’url courte comme classement prioritaire par exemple…)

        Concernant ton dernier points sur des sites avec des urls longues à faire apparaitre en premiere page de la commande « site: », je ne vois pas ou tu veux en venir désolé ^^

  5. Paco dit :

    Younes, homme de l’ombre et discret ? c’est plus une armoire à glace ! j’ai eu l’occasion de le croiser à un salon SEO et nous avons pu échanger sur nos méthodes de travail.
    Trés bon test qui se vérifie aisément.

  6. Magicyoyo dit :

    C’est un bon test, mais les conclusions me paraissent largement exagérées. :-)
    Le test met en évidence des critères de classement, ok. Mais cela ne signifie en rien que ces critères sont des critères principaux.

    Par exemple dans le test, l’importance du maillage interne est quasi-neutralisé (toutes les pages lient toutes les pages, seul l’ordre des liens aurait pu jouer). J’ai un exemple de site où ce critère du PageRank interne est très fortement corrélé avec la liste des pages obtenues avec site:
    De même pour la fraîcheur du contenu. J’imagine que toutes les pages ont été publiées en même temps, ou presque. Cela pourrait être un critère principal.
    Par ailleurs, le test sur les Bls me parait un peu léger pour en conclure qu’ils ne rentrent pas en compte.

    My 2 cents.

  7. Oise dit :

    il faut aussi regarder la date de craw 😉

  8. Lépine dit :

    En fait y-a-til une réelle différence entre la commande
    site: seo-briques.fr
    et simplement
    seo-briques.fr ???

    • En effet, ça fait une grande différence… Si vous tapez seo-briques.fr dans Google, le moteur de recherche vous ressortira l’ensemble des résultats qui correspondent à cette requête (pas uniquement des pages de votre site). Par exemple, si l’on tape ça dans Google, vous obtenez 58 300 résultats tandis que si vous utilisez l’opérateur de commande site: (site:seo-briques.fr), vous n’obtenez que le nombre de pages indexées par Google pour votre site, soit 33 résultats en l’occurence dans votre cas, donc rien à voir :-)

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut