Astuce Notepad : nettoyer un listing d’URL avec les Regex

Sommaire

Aujourd’hui, j’ai été confronté à un problème de taille : les redirections 301. Mon client désirait rediriger son site Powerboutique vers un Prestashop. Ce billet ne traitera pas des redirections proprement dit, mais de la préparation aux redirections. Je m’explique : avant toute chose, lorsqu’on parle de redirections, l’important est de disposer d’un fichier qui liste les anciennes URL. Si vous n’en avez pas, un Xenu pourra faire l’affaire, à moins d’y faire un peu de nettoyage par la suite. Si, comme moi, votre chef de projet n’a pas été en mesure de vous envoyer un fichier Excel propre (cf. ci-dessous), vous aurez sûrement à le retravailler avant de passer à l’étape des redirections 301.

Toutefois, comment faire lorsque le fichier des redirections est composé de plusieurs milliers d’URL et qu’à chaque ligne j’ai des caractères inutiles ? C’est ce que nous allons voir…

Tout d’abord, soyons clair sur un point : l’objectif est de nettoyer notre fichier des anciennes URL pour n’avoir plus que des URL, c’est-à-dire des adresses du type http://www.nom-de-domaine.fr/category/page.html. Or, dans notre fichier actuel, certains caractères (des chiffres, des virgules, des tirets, des guillemets, des espaces, des minuscules, etc.) viennent parasiter notre modèle. Ci-dessous, un aperçu de mon fichier Excel avant :

Fichier Excel avant

Sur l’illustration, on s’aperçoit que les lignes Excel peuvent aussi bien commencer par un chiffre que des guillemets, ce qui nous pose problème.

Aussi, à ce stade, il vous reste 2 méthodes : soit vous repassez su chaque ligne de votre fichier Excel pour supprimer les caractères inutiles (bon courage !), soit, comme moi, vous essayez de trouver une solution qui vous permette d’automatiser une tâche aussi fastidieuse. Personnellement, j’ai opté pour le second choix qui fait appel aux expressions régulières, connues sous le nom de Regex.

Voici la méthode :

  • Copier les URL de votre fichier Excel et les coller dans votre logiciel Notepad, éditeur de codes sources qui prend en charge plusieurs langages,
  • Une fois dans votre fichier Notepad, saisir simultanément les touches « Ctrl » + « H »de votre clavier pour rechercher/remplacer des éléments de votre fichier,
  • Dans le champ de recherche, collez la ligne ci-dessous :
  • .*(?=http://)

  • Dans le champ « Remplacer par », laisser vide,
  • Sélectionner le mode de recherche « Expression régulière » et cliquer sur « Remplacer tout »

Logiquement, vous ne devriez plus avoir que vos URL. Les caractères inutiles ont disparu. Vous êtes désormais prêt à procéder aux redirections.

Fichier Excel après

Si ce tutoriel vous a plu ou que vous souhaitez me faire part d’une précision complémentaire, n’hésitez pas à me laisser un commentaire.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut