Mais comment fonctionne Google ?

Si vous gérez un site internet, peut-être vous demandez-vous comment le contenu que vous y publiez est perçu par Google et donc les chances qu'il a d'être trouvé lors de recherches internet.

En tant qu'utilisateur de Google, vous pouvez aussi être curieux de savoir la façon dont Google sélectionne les pages qu'il vous propose lorsque vous lancez une recherche.

Illustration article : qu'est ce qu'un bon contenu selon Google ?

Google, une boîte noire ?

Au lancement de ce blog, j'avais repris un de mes anciens tutoriels donnant quelques pistes pour optimiser le positionnement des pages de son site internet lors de recherches Google. Ce tutoriel est incomplet et un peu ancien mais il fournit néanmoins quelques fondamentaux qui restent valables.

À l'époque, j'ai précédé ce tutoriel d'un article expliquant l'intérêt que peut avoir un bon positionnement sur Google lorsque vous tenez un blog, site, etc. C'est ce que l'on nomme le "référencement naturel", qui comme je l'expliquais alors, n'a de "naturel" que le nom.
En anglais on parle d'ailleurs de S.E.O. pour Search Engine Optimization, ce que l'on peut traduire par "Optimisation pour les moteurs de recherche".
C'est un peu plus long mais aussi plus clair !

Même si vous souhaitez gérer votre site de manière réellement naturelle sans trop vous souciez de votre référencement, certaines des bonnes pratiques de référencement ont d'autres intérêts : rapidité et accessibilité de votre site, qualité technique (sémantique) et rédactionnel du contenu que vous publiez... En fait, il s'agit de chercher à améliorer l'expérience des personne susceptibles de consulter votre site. Une idée simple mais difficile à mettre en pratique, comme souvent.

Google, comme tout moteur de recherche, souhaite apporter les meilleurs résultats à ses utilisateurs et donc mettre en avant les contenus les plus qualitatifs répondant à leurs recherches. Le problème est de savoir quels sont les critères sur lesquels il se base pour déterminer ce niveau de qualité ?

Google n'est pas un logiciel libre, ni même open source, et seuls ses développeurs peuvent étudier directement son fonctionnement.
Si cette société communique en direction des éditeurs de sites internet pour leur recommander des bonnes pratiques, on peut supposer que cette information est incomplète.
L'analyse statistique de ses résultats permet par contre de comprendre partiellement son fonctionnement en mettant en lumière ce qui semble améliorer le positionnement de certaines pages sur Google.

Il est connu que l’algorithme de classement des résultats de recherche de Google prend en compte des milliers de critères, d'importance variée, plusieurs d'entre eux changeant chaque jour... Par ailleurs, Google utilise de plus en plus l'intelligence artificielle, ce qui renforce l'obscurité de son fonctionnement, peut-être même pour ses ingénieurs !

Ceci dit, les grandes ficelles pour bien se positionner restent les mêmes depuis le début : la qualité du contenu de la page et la quantité (et qualité) des liens pointant vers elle, qu'il s'agisse de liens venant d'autres sites ou de liens internes.

Si les liens reçus par une page peuvent être analysés de manière à peu près objective, la qualité du contenu d'une page peut donner matière à discussion. Aussi est-il intéressant de savoir comment Google considère la chose.

Un guide pour les personnes chargées de tester la qualité des résultats de Google

Il se trouve que Google rémunère des personnes pour contrôler ses résultats et que pour ce faire il leur fournit un guide que vous pouvez télécharger ici. Ce guide, écrit en anglais, compte plus de 160 pages mais il contient beaucoup d'exemples redondants et d'informations qui n'intéressent que les testeurs.

J'ai lu la version datant de juillet 2018 et voici quelques informations que j'y ai glanées.

Tous les types de pages peuvent être de qualité

Tout d'abord, tous les types de contenu peuvent être considérés comme de qualité car ce qui fait qu'une page est de qualité est qu'elle réussit son "objectif", pour peu que cet objectif soit au service de l'internaute la consultant.

Vous souhaitez partager une recette de cuisine, une chronique littéraire ou encore décrire un des produits de votre boutique en ligne ?
Pour peu que votre objectif soit clair pour l'internaute visitant votre page et que son contenu satisfait cet objectif, à priori elle sera considérée comme de qualité par Google.

Donc pas de discrédit pour les sites distrayants (humour, actualités people...) par rapport aux sites plus sérieux. Tout dépend de ce que l'internaute cherche.

Sont évidemment exclues toutes les pages nuisibles (virus, hoax, etc.) mais aussi celles uniquement conçues pour gagner de l'argent sans chercher à satisfaire l'internaute (pièges à clics).

Google n'a rien contre la publicité ... étonnant non ?

Comme on s'en douterait, Google n'a rien contre la publicité :-)
Il faut néanmoins qu'elle ne perturbe pas l'expérience du visiteur et qu'elle soit bien distinguable du reste du contenu donc oubliez publicités interstitielles et autres pop-up envahissants.

Par ailleurs, l'éditeur est considéré responsable du contenu des publicités s'affichant sur son site. C'est amusant car par expérience je peux vous dire que les éditeurs utilisant la régie publicitaire Google ont un contrôle très limité sur les publicités diffusées sur leurs pages. Mais sans doute que comme elles viennent de Google, elles sont forcément jugées de qualité :-)

Dans la même idée, un site agrégeant des contenus venant de sources externes est jugé responsable de la qualité de ces contenus.

Le fait qu'un site soit globalement de qualité ne signifie pas que toutes ses pages le sont

Il ressort aussi de la lecture de ce guide que Google distingue la qualité d'une page donnée, de celle du site la contenant.
Un site considéré comme très qualitatif aux yeux de Google (exemple : Wikipédia) peut contenir des pages au contenu manquant d'intérêt.
Ceci dit, la qualité générale du site et surtout sa notoriété doit tout de même être prise en compte quand un des testeurs analyse la qualité d'une page internet.

La bourse et la vie : attention aux sujets sensibles...

Il est demandé aux contrôleurs de faire particulièrement attention aux pages internet rassemblées derrière l'acronyme "YMYL", pour "Your Money Your Life" que l'on peut traduire par "Votre Argent Votre Vie". Il s'agit des pages internet dont le contenu est jugé pouvoir avoir des répercussions importantes sur la vie des personnes y accédant et l'exigence de qualité est donc plus élevée. Sont concernés les pages concernant la santé, les finances... mais aussi certaines actualités et informations relevant de la vie citoyenne, ce qui est moins clair (chasse au "fake news" ?)

La confiance règne ?

Un autre acronyme, "E.A.T." pour : "Expertise, Authoritativeness, or Trustworthiness" désigne les principaux critères permettant d'évaluer la qualité d'un contenu. On peut traduire ces trois expressions par "Expertise Autorité Fiabilité".

Il est effectivement demandé aux testeurs de faire des recherches sur la réputation du site visité, les sources indépendantes étant naturellement jugées plus fiables que les proclamations du site lui-même. Dans cette mesure, il sera important qu'un site (ou l'activité qu'il présente) soit cité sur d'autres sites, si possible pour en dire du bien même si il est considéré naturel que sur un nombre important d'avis, certains soient négatifs.

Une importance particulière est donc apportée aux avis / commentaires client.e.s ou usagers, tout en demandant de ne pas les prendre en compte si ils sont peu nombreux.

Toujours pour des raisons de confiance, il est important d'avoir accès au nom des personnes éditant un site même si Google dit que pour certains sites cette information peut être légitimement omise : anonymat ou pseudonymat pour des sites / blogs personnels ou encore des sites contributifs tels que des forums.

Pour rester sur ces sites contributifs, dans le cas d'un contenu rédigé par une tierce personne, c'est à cette personne que l'on appliquera le critère E.A.T. en recherchant sa réputation.

À chacun son expertise ?

Pour les sites YMYL, le contenu doit être produit par des experts reconnus.
Google admet néanmoins que certains contenus peuvent être créés par des experts du quotidien.
Par exemple, sur un site parlant d'une maladie (donc YMYL), les auteurs des articles techniques devraient être des experts du domaine médical.
Par contre, une partie forum pourrait proposer du contenu pertinent produit par des personnes lambda expérimentant cette maladie. On comprend bien dans ce cas que les personnes cherchent à garder l'anonymat.

Pour certains sites distrayants, il n'y a pas vraiment d'expertise. Dans ce cas, c'est la popularité du site qui remplace ce critère.

On ne prête qu'aux riches ?

En théorie, l'absence de réputation externe d'un petit site, jugée normale, ne devrait pas le pénaliser mais qu'en est-il si ce site traite de sujets sensibles ?

D'une manière générale, on a tout de même l'impression que Google valorise le contenu produit par les gros sites.
C'est un peu l’œuf et la poule : il faut commencer par publier pour se faire connaître et finir par être reconnu comme pertinent.
Donc il vaut mieux être déjà connu par ailleurs avant de commencer à publier ou trouver d'autres solutions que Google pour attirer des internautes sur votre site dans un premier temps.

Ceci est peut-être ce qu'attend une bonne partie des internautes qui seront rassurés de tomber sur un site (re)connu mais cela peut pénaliser les nouveaux venus qui n'ont pas encore fait leurs preuves.

L'importance de la quantité

La quantité du contenu d'une page est également un critère que les contrôleurs qualité doivent prendre en compte pour juger de sa qualité, même si cela dépend du sujet.
C'est effectivement un conseil habituel donné à ceux qui souhaitent améliorer leur référencement.
Pourtant, est-ce toujours l'attente des internautes connus pour être des "zappeurs" incapables de consacrer 2 minutes à la lecture d'une page ?
Ceci dit, selon Google le contenu n'est pas forcément textuel et la curation consistant à écrire des brèves ne doit pas forcément être mal notée, si elle est réalisée manuellement.

Rien de bon sans effort ?

Un contenu de qualité devra révéler au moins une de ces quatre caractéristiques : temps passé, effort, expertise, talent.
Donc les contenus générés automatiquement (scrapping, base de données) sont jugés de mauvaise qualité, sauf si ils apportent une réelle valeur ajoutée à la personne les visitant.

La fraîcheur des actualités est aussi à prendre en compte pour évaluer leur qualité.

Pas de faits alternatifs ?

Concernant les sites d'actualités, il sera privilégié les informations se basant sur des consensus, quand des consensus existent. Idem pour les informations scientifiques, médicales.

Le contenu haineux, agressif, complotiste, etc. sont toujours à noter comme de mauvaise qualité même si ils sont bien écrits et que leur auteur semble s'exprimer sincèrement. Là on trouvera évidemment à discuter sur où commence le complot, la violence, etc.

Néanmoins et même pour des sites YMYL, des sites alternatifs peuvent être acceptables si ils ne se font pas passer pour ce qu'ils ne sont pas.
Je pense que l'idée est que si des personnes cherchent précisément des points de vue alternatifs alors ces sites ont leur place dans les résultats Google.

Pas de contenu trompeur ou inadapté

Il faut aussi prendre en compte la clarté du contenu. L'objectif de la page doit être clair et son contenu cohérent. Le rédacteur doit donc éviter de passer du coq à l'âne.
Un titre choquant ou non cohérent avec le contenu de la page sera pénalisant. C'est effectivement une pratique courante d'attirer le chaland avec un titre piégeur.
Idem pour les illustrations inadaptées servant juste à attirer l'internaute ou encore les publicités hors sujet, spécialement si elles sont érotiques ou violentes.

Comment évaluer la qualité d'un résultat ?

Dans une deuxième partie de son manuel Google indique aux contrôleurs qualité comment évaluer la qualité d'un résultat.
Google insiste assez logiquement sur le fait qu'une page peut être de qualité mais ne pas correspondre à la recherche de l'internaute.

Internet mobile

Les recherches sont supposées lancées sur smartphone et de ce fait les pages internet doivent être adaptées aux petits écrans, connexions lentes, etc. La facilité d'utilisation sur smartphone est donc un des critères de qualité d'une page.

Le "coût au clic" est jugé plus élevé sur mobile donc il faut que le mobinaute parvienne plus rapidement à ce qu'il cherche.
Il va moins facilement parcourir de nombreux résultats, là où sur ordinateur il peut faire des recherches plus poussées.
Il faut donc que la bonne page s'affiche dans les premiers résultats. Les titres "piège à clics" sont d'autant plus mal venus sur mobile.

Les mobinautes étant souvent géolocalisés, le lieu où ils se situent doit être pris en compte par les résultats même si il n'est pas explicité dans la recherche.

Synonymes et ambiguïté des recherches

Certains mots peuvent avoir plusieurs sens : "Apple" en anglais ou "Orange" en français représente une marque et aussi un fruit.
En français, Orange est aussi le nom d'une ville et d'une couleur...

Si la requête ne contient pas d'autres mots il est difficile de savoir ce que cherche l'internaute et donc d'évaluer la pertinence des résultats.
Dans ce cas, Google conseille de prendre en compte l'interprétation dominante du mot.

Le bon résultat, au bon moment

Certains termes de recherche peuvent être associés à de bons résultats différents, suivant l'époque où ils sont recherchés.
Par exemple, de bons résultats par une recherche "iphone" ramèneront vers des pages traitant de la dernière version de l'appareil.

Attention si une page propose un contenu plus précis que la recherche lancée, elle n'est pas considérée comme pertinente pour cette recherche.

Les quatre types de recherche sur smartphone

Google classe les recherches lancées sur smartphone en 4 grandes catégories :

  • Know : recherche d'une information, avec une sous-catégorie "Know Simple" quand la bonne réponse est claire et simple à exprimer.
  • Do : lancement d'une action (configuration du smartphone, lancer une application...) Il ne s'agit pas à proprement parler de recherches internet mais une utilisation de Google comme "assistant". À ce sujet, ne pas oublier que toutes les recherches peuvent être vocales.
  • Website : l'utilisateur souhaite se connecter à un site internet dont il donne le nom ou l'adresse.
  • Visit-in-person : l'utilisateur cherche à se rendre à un endroit (par exemple un commerce) et cherche ses coordonnées.

De nouveau, certaines recherches peuvent être ambiguës.
Par exemple si je lance une recherche sur le nom d'une chaîne d'hôtels, je peux aussi bien vouloir me rendre à l'établissement le plus proche de ma localisation que sur le site du groupe hôtelier pour réserver ma chambre.

Les différentes parties d'une page de résultats Google

Sur la page de résultats, au-delà des publicités sur la qualité desquelles les testeurs ne sont pas interrogés :-), il y a aussi les "Special Content Result Blocks" qui affichent directement l'information que recherche l'internaute. C'est notamment le cas pour les questions simples évoquées plus haut ("Know Simple") ou encore les recherches "Visit-in-person".

Pour les recherches simples, le fait que la bonne réponse ne s'affiche pas directement dans cette partie est à signaler comme un mauvais résultat.
L'idée est d'éviter un clic inutile à l'internaute. Mais cela ne fait pas forcément l'affaire des éditeurs de sites web dont le contenu peut être affiché sans visite sur leurs sites.

Et le contenu pour adultes ?

Si une recherche peut avoir un sens pornographique mais pas uniquement, c'est la version non pornographique qui doit être considérée comme la bonne. Un site adulte sera considéré comme un mauvais résultat dans ce cas.
Les pages pornographiques ne peuvent être de bons résultats que si la requête est explicite.
Dans ce cas, la page de résultat peut être évaluée de manière habituelle (qualité du contenu, popularité, etc.).

Quid de la personnalisation des résultats ?

On sent bien que Google, comme beaucoup d'autres sites, cherche à personnaliser au maximum son service.
Mais il n'est pas demandé aux personnes testant ses résultats de le prendre en compte (hors géocalisation et langue parlée).
Cela serait de toute façon compliqué à mettre en pratique, tant les informations concernant l'internaute lançant la recherche peuvent être nombreuses.

Mais il est connu que Google prend en compte ce qu'il sait sur vous pour déterminer ce que vous cherchez (voire ce que vous allez chercher), en tout cas si vous êtes connecté à votre compte Google (gmail, chrome, etc.).

Cela peut aider à lever l'ambiguïté de certaines recherches mais sous-entend une collecte d'informations vous concernant qui, au-delà d''améliorer votre expérience utilisateur" (promesse habituelle), peut aussi servir à vous influencer via de la publicité, même il est bien connu qu'elle n'influence que votre voisin :-)

Du bon sens ?

La majorité des critères mis en avant par Google relèvent du bon sens, "bon sens" auquel il est d'ailleurs demandé aux testeurs de faire appel à de nombreuses reprises dans leur guide.

Ceci dit, mon expérience d'internaute / éditeur de sites me prouve que tous ces critères ne sont pas encore pris en compte par Google ou du moins qu'il reste encore possible pour un site de le tromper.

Néanmoins dans la mesure où ce sont les consignes qu'il donne pour tester ses résultats, tout éditeur de site internet devrait s'en inspirer si il souhaite optimiser durablement la visibilité de son site dans les résultats des recherches sur Google.

La vérité est ailleurs ?

Comme dit plus haut, le fait d'apporter de l'importance à l'expertise, à la notoriété ou encore au consensus pour évaluer la qualité d'un contenu peut avoir des effets discutables en étouffant certaines nouvelles idées pas encore considérées comme sérieuses.

Là encore, dans la pratique on peut observer l'inverse : des sites présentant des points de vue minoritaires arrivant à se positionner sur de nombreuses recherches. Souvent les sites concernés utilisent sciemment des techniques d'optimisation de référencement ou encore bénéficient de la viralité de leur contenu les rendant "populaires".

Dans le cas inverse, Google reprendrait un travers courant des médias habituels : mettre plus en avant les opinions communément admises ou officielles.

Il est d'ailleurs assez difficile de définir quelle devrait être la réponse d'un moteur de recherche sur des sujets polémiques ?

En tant qu'internaute cherchant à se faire son opinion, il faudrait idéalement prendre le temps de parcourir plusieurs sites de tendances différentes, mais qui fait cet effort ?

Crédit illustration : luisosorio