Enfin des filtres à base de Regex dans la Google Search Console

Depuis les débuts de la Google Search Console en 2006 (qui s’appelait les Google Webmasters Tools) google fournissait des filtres relativement limités pour analyser les données dans son rapport de performance.

Quiconque a essayé de créer un filtre permettant d’isoler les requêtes « brandées » (avec marque) a certainement été frustré de constater que la tâche était parfois impossible lorsqu’il fallait « capter » des dizaines de variantes en éliminant en même temps des cas de fausse correspondance.

Le pire étant de grouper des pages d’atterrissage lorsqu’il était impossible de les identifier par le « path », et qu’il aurait fallu s’appuyer sur la chaine de paramètres, la query string.

Pour traiter correctement ces deux cas, la solution était connue : recourir aux expressions régulières.

Les regex disponibles dans les filtres du rapport de performance

Mais ça y’est, Google a enfin écouté ses utilisateurs, et a introduit la possibilité d’utiliser des expressions régulières dans le rapport « Performance de la recherche ».

Search Console Performance regex filter

Les expressions régulières (Regex) sont une notation utilisées initialement dans le monde Unix, puis popularisée dans les scripts Perl (un langage serveur très utilisé dans les débuts du Web). La syntaxe Perl est la plus populaire, elle a été reprise dans de nombreux outils.

Une expression régulière code de manière extrêmement condensée les règles permettant d’identifier si une chaine de caractères correspond à ce que l’on cherche.

Par exemple cette regex :

^(?:\+33\s|0)[1-9](?:\s\d{2}){4}$

a l’air un peu cryptique, mais elle permet de savoir si une chaine correspond à un numéro de téléphone français:

  • la chaine commence soit par +33, soit par 0
  • la suite ne contient que des chiffres et est formée d’une suite de 4 groupes de de deux chiffres

La syntaxe proposée par Google est une syntaxe « maison », dite Re2, qui diffère des syntaxes les plus usuelles. C’est la syntaxe qui est utilisée dans les Google Sheets, notamment la fonction RegexMatch(). Cela signifie qu’il est facile de tester vos regex pour la GSC dans une feuille de calcul Google.

La syntaxe officielle est détaillée ici :

https://github.com/google/re2/wiki/Syntax

Pourquoi a-t’il fallu attendre des années pour obtenir le droit d’utiliser des regex ?

Ajouter cette possibilité de filtrage ne représentait en réalité aucune difficulté technique sérieuse. Mais jusqu’ici, Google considérait l’utilisateur lambda comme incapable d’utiliser les regex. C’est vrai que la syntaxe des expressions régulières est tout sauf intuitive, qu’elle demande un apprentissage, et qu’il faut soigneusement vérifier que les expressions régulières que l’on utilise produisent bien les résultats attendus. Mais dans le contexte d’analyser des chaines de caractères limitées comme des urls ou des requêtes, cela simplifie énormément l’exercice. Et je prédis que les exemples d’expressions régulières adaptées à certaines tâches vont fleurir sur le net.

C’est donc une évolution intéressante de l’attitude de Google, qui avait tendance à niveler ses outils par le bas jusqu’ici, c’est à dire à éliminer de la Search Console toutes les fonctionnalités un peu avancées que le webmaster de base n’utilisait pas ou ne risquait pas de comprendre.

Notons que l’aide de Google sur la Search Console parlait depuis juillet 2020 de la possibilité d’utiliser les Regex Re2, mais la fonctionnalité n’était pas encore déployée dans les faits. L’annonce de Google n’est donc pas une surprise.

Des outils de comparaison améliorés

En parallèle, Google a déployé une amélioration sur la fonctionnalité de comparaison entre périodes, qui était très limitée. On peut aujourd’hui faire des comparaisons sur plusieurs métrics à la fois et afficher les résultats dans le tableau en dessous. Et c’est très, très pratique. Notons qu’il est possible d’utiliser les regex pour les metrics comparées.

Search Console Performance comparison mode

Qu’est ce que cela change

Jusqu’ici, pour traiter correctement la mine de données utiles fournie par la Google Search Console, il fallait souvent exporter les données pour les retraiter ensuite à l’aide d’outils externes ou une feuille excel.

Aujourd’hui, il devient possible de manipuler efficacement les données dans la Google Search Console elle même pour voir directement des phénomènes qui impactent des groupes de requêtes, ou des groupes de pages d’atterrissage.

C’est donc un énorme gain de temps et d’énergie.

Le lien vers l’article détaillé du blog de Google :

https://developers.google.com/search/blog/2021/04/performance-report-data-filtering

Update : le negative matching est disponible

Vous trouverez également quelques exemples de Regex utiles dans la GSC dans cet article :

Laisser un commentaire