Google - Outils pour les Webmasters. Supprimer des pages dans l'index Google

Introduction

Les outils Google pour WebMasters ( https://www.google.com/webmasters/tools/dashboard ) permettent de gérer efficacement l'indexation des pages d'un site. Toutefois, dans la vie d'un site, des pages ou des paramètres URL donnés aux pages en mode GET peuvent devenir obsolètes : dans ce cas de figure pour assurer la qualité de l'indexation Google, il faut savoir que les outils Google pour Webmaster permettent de contrôler et retirer des pages de l'index Google. Ainsi les internautes ne découvriront pas via Google des erreurs HTTP 404 indiquant que la page n'existe pas, erreurs qui sont préjudiciables à la qualité et au sérieux d'un site.

L'écran dans "Google Outils pour les Webmasters" pour soumettre à Google les URLs à supprimer dans son index est très simple à utiliser, mais sans précautions après envoi des demandes, quelle surprise ! Google est moins permissif que prévu et refuse les demandes de suppression dans son index !

Cet article présente modestement en guise de tutoriel les 2 méthodes envisageables afin que Google accepte les demandes de suppression.

Les demandes de suppression des URLs dans l'index sont refusées par Google !

Dans le contexte du cas pratique : la page prp_tbx.php5 et les paramètres _idfld et _idsec donnés à la page prp_doc.php5 en mode GET deviennent obsolètes. Les paramètres _idfld et _idsec deviennent obsolètes et sont remplacés par les paramètres idfld et idsec afin de respecter les préconisations W3C HTML 4.01 strict, préconisations dans lesquelles les paramètres GET commençant par le caractère _ sont interdits.

Une simple recherche dans Google avec les critères site:www.sqlpac.com et filetype:php5 est lancée pour retrouver rapidement les URLs indexées dans Google contenant la page prp_tbx.php5 d'une part et la page prp_doc.php5 avec les paramètres _idfld/_idsec d'autre part :

Recherche des pages indexees

La recherche permet de déterminer précisément les URLs à soumettre à Google pour suppression :

URL
http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=3&_idsec=11 http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=6&_idsec=12 http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=6&_idsec=2 http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=4&_idsec=16 http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=5&_idsec=22 http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=5&_idsec=21 http://www.sqlpac.com/ispdoc/prp_tbx.php5?idsec=2 http://www.sqlpac.com/ispdoc/prp_tbx.php5?idsec=6 http://www.sqlpac.com/ispdoc/prp_tbx.php5?idsec=11

Si l'option "En cache" est proposée dans les résultats de la recherche pour les URLs à supprimer, la suppression de l'indexation est amplement suffisante car elle supprimera également la page en cache par voie de conséquence.

Dans l'outil Google Webmaster Tools à la rubrique Configuration du site Accès du robot d'explorationOnglet "Supprimer l'URL", les URLs sont soumises à Google pour suppression dans son index. Les demandes sont d'abord en attente et après quelques heures, après passage du robot, les demandes de suppression sont refusées !

Google refuse les demande de suppressions

Même si vous êtes le propriétaire du site, Google est bien moins permissif que prévu. Google effectue en effet la demande que si l'une des deux conditions ci-dessous existe pour la page à supprimer :

  • La page contient le meta tag <meta name="robots" content="noindex"> ou bien le meta tag <meta name="googlebot" content="noindex">. Dans le premier cas, l'indexation est interdite pour tous les moteurs de recherche, dans le second cas l'indexation est interdite uniquement pour le moteur de recherche Google.
  • La page à supprimer est exclue dans le fichiers robots.txt à la racine du site.

Méthode 1 : Suppression des URLs à l'aide du tag META robots/googlebot noindex

La première méthode peut consister à implémenter la valeur "noindex" pour le meta tag robots et/ou googlebot lors de la demande de suppression d'une URL. Le meta tag noindex s'applique à tous les moteurs de recherche lorsqu'il s'agit du meta tag robots, et uniquement à Google lorsqu'il s'agit du meta tag googlebot. Cette méthode est appliquée pour supprimer les liens dans Google vers prp_doc.php5 avec les paramètres GET obsolètes _idfld et _idsec, la page prp_doc.php5 n'étant pas obsolète.

SQLPAC s'appuie sur une boîte à outils qui construit les tags meta en fonction des constantes PHP _USRMETA% définies en amont de la page PHP avant l'appel de la fonction $gCls_global->f_buildHtmlHeader();.

Par exemple la constante PHP _USRMETA_DESCRIPTION construit le meta tag <meta name="description" content="Site ..."> dans la page.

Dans le code ci-dessous, si la page prp_doc.php5 est appelée avec les paramètres obsolètes _idfld et _idsec, le meta tag robots avec la valeur noindex est alors construit :

if (isset($_GET["_idfld"]) && isset($_GET["_idsec"])) {
   if (! definied('_USRMETA_ROBOTS'))     { define ('_USRMETA_ROBOTS',"noindex"); }
}...
$gCls_global->f_buildHtmlHeader();
Code source HTML http://www.sqlpac.com/ispdoc/prp_doc.php5?_idfld=5&_idsec=22
...
<meta name="description" content="Articles sur Sybase IQ, produit datawarehouse décisionnel à haute performance">
<meta name="keywords" content="sybase,IQ,datawarehouse,olap,administration,maintenance,tuning,performances">
<meta name="robots" content="noindex">
...

Une fois la valeur noindex appliquée pour le meta tag robots lorsque les variables _idfld et _idsec sont rencontrées, la demande de suppression des URLs prp_docs.php5 avec les variables GET _idfld et _idsec peut être à nouveau soumise à Google via Gooble Webmaster Tools.

Une fois la demande acceptée (cela peut prendre plusieurs heures, il est impossible d'ordonner l'arrivée du robot Google), le bout de code PHP vérifiant si la page est appelée avec les variables GET _idfld et _idsec peut alors être retiré.

Méthode 2 : Suppression des URLs avec le fichier robots.txt

Pour la page prp_tbx.php5 qui devient obsolète, la deuxième méthode est utilisée. Cette méthode alternative consiste simplement à référencer avec l'option "disallow" la page prp_tbx.php5 dans le fichier robots.txt. Le fichier robots.txt permet de spécifier les répertoires et fichiers à écarter par les moteurs de recherche.

Généralement, le ficher robots.txt est mis à la racine du site.

Le fichier robots.txt est simplement mis à jour avec notepad pour interdire l'indexation du fichier /ispdoc/prp_tbx.php5 par tous les robots (User-agent: *) et remis à la racine du site :

Fichier robots.txt
User-agent: *
...
Disallow: /bckmgr/             #
Disallow: /ispdoc/prp_tbx.php5     #
...

Comme pour la première méthode il faut soumettre à nouveau les demandes de suppression à Google et attendre que la demande soit acceptée par Google (cela peut prendre plusieurs heures, il est impossible d'ordonner l'arrivée du robot Google), ensuite le fichier robots.txt peut être modifié pour retirer l'interdiction sur le fichier prp_tbx.php5.

Le fichier prp_tbx.php5 peut être cependant d'ores et déjà supprimé, le fichier robots.txt suffit en effet amplement pour autoriser la suppression de l'indexation dans Google d'un fichier obsolète et déjà supprimé.

Vérifications et conclusions

Le même écran Configuration du siteAccès du robot d'explorationOnglet "Supprimer l'URL" dans l'outil Google Webmaster Tools permet de vérifier la suppression effective des URLs demandées dans l'index Google.

Notification de suppression des URLs

Un bouton "Réintégrer" pour chaque URL permet même de réintégrer une URL dans l'index Google en cas d'erreur ou éventuellement s'il s'était avéré nécessaire de désactiver temporairement une URL de l'index Google. Même si on voit qu'il est possible d'utiliser ces méthodes pour désactiver temporairement des URLs de l'index Google, il est peut être préférable de consommer cette option avec modération pour éviter de partir dans le bac à sables de Google.

La méthode 1 des meta tag robots/googlebot est adaptée pour supprimer/désactiver des indexations Google de pages avec des paramètres qui sont devenus obsolètes.

La méthode 2 du fichier robots.txt est plus simple et efficace pour supprimer/désactiver des indexations Google de pages obsolètes.

Dans chacun des cas de figure, il faut attendre que le robot atteigne le site pour effectuer les opérations, arrivée qui est imprédictible, puis vérifier le statut final de la demande de suppression dans l'outil Google Webmaster Tools.