Tip : comment optimiser le SEO de vos Pdf en ligne ?

Dès qu’un propriétaire de site dispose de contenus au format PDF, il pose toujours la même série de questions :

  • dois-je uploader mes contenus au format PDF ? Ou au format HTML
  • si mon contenu est à la fois au format HTML et en pdf, est-ce que c’est un problème ?
  • et comment avoir un bon référencement avec des contenus Pdf

Format PDF ou HTML ?

Bon, déjà attention il y’a plusieurs sortes de PDF.

Google peut sans problème lire le contenu d’un PDF et donc l’indexer et le classer correctement, mais à condition que ce soit un PDF/A ou n’importe quel autre type de PDF qui encode les textes sous forme de suites de caractères, et non d’une image scannée.

Si votre PDF n’est qu’un scan d’une brochure par exemple, Google n’aura à se mettre sous la dent que les champs meta du fichier (soit au mieux un titre, parfois une description) et le nom du fichier pour l’indexer. Ne rêvez pas, dans un tel cas le positionnement de votre PDF dans les résultats de Google ne sera probablement pas à la hauteur des attentes.

Si vous possédez un bon logiciel de reconnaissance de caractères (OCR), il est possible que vous arriviez à convertir votre document en PDF/A ou d’autres formats lisibles par Googlebot. Dans ce cas, c’est cette nouvelle version que vous pourrez uploader sur votre site.

Maintenant, que vaut-il mieux faire : reproduire le contenu sur une page HTML, ou laisser Google indexer le PDF ?

Et bien, déjà cela dépend si vous souhaitez vraiment que Google indexe vos contenus PDF.

Comment empêcher Google d’indexer mes Pdfs ?

Si vous ne souhaitez pas que Google indexe vos pdfs, le plus simple est d’utiliser la directive x-robots-tag.

C’est l’équivalent d’une balise meta robots, mais ajoutée dans l’en-tête http. En effet, comme un fichier Pdf ne contient pas de code HTML, on peut difficilement utiliser une balise meta robots !

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Vous trouverez la syntaxe détaillée et toutes les explications ici :

https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag?hl=fr

C’est parfois une bonne solution de bloquer l’indexation si vous voulez éviter que les internautes téléchargent directement les pdfs depuis les résultats de Google, sans que vous puissiez tracker ces téléchargements. Pour télécharger le fichier, il faudra passer par une page de votre site, ce qui vous permettra de tracker l’événement de manière plus fiable.

Que faire si mon contenu est à la fois dans un pdf et dans une page HTML ?

Une page de contenu HTML est plus facile à parser et à indexer pour un bot d’un moteur de recherche qu’un fichier pdf.

Donc à choisir, c’est toujours une meilleure idée d’indexer votre contenu au format HTML. Surtout pour des gros pdfs avec beaucoup de pages => il vaut mieux les découper en autant de pages HTML.

Pour les « gros » pdfs, une autre bonne pratique courante est de créer un résumé du contenu dans une page HTML qui présente le contenu du PDF et incite à télécharger l’intégralité du contenu en Pdf.

Mais dans un cas comme dans l’autre, on a donc des doublons de contenu ou des quasi doublons entre versions PDF et HTML.

Comme l’a expliqué John Mueller dans une vidéo récente, ce n’est pas bien grave.

C’est un cas de contenu dupliqué, bien sûr. Mais Google devrait arriver à gérer la situation sans problème. En général, ce qui va remonter, c’est le contenu HTML. Mais Google indexe bien les deux versions et il n’y a pas d’effets de bord négatifs

Conclusion : si c’est facile pour vous, publiez vos contenus dans des pages HTML plutôt que dans des pdfs. Si vous les publiez à la fois dans les deux formats, ce n’est pas grave, juste légèrement sous optimal. Et si vous voulez choisir la version indexée, la directive X-Robots-tag : noindex est la solution.

Laisser un commentaire