Comment Excel peut trouver les doublons et nettoyer votre base client ?

On exporte un fichier client depuis le CRM, on l’ouvre dans Excel, et on tombe sur trois lignes pour le même contact avec des variantes d’écriture sur le nom ou l’adresse e-mail. Le problème n’est pas théorique : ces doublons faussent les envois marketing, gonflent artificiellement la base et compliquent chaque relance commerciale. Excel propose plusieurs méthodes pour identifier et supprimer les doublons dans une base client, mais toutes n’offrent pas le même niveau de contrôle.

Préparer la base client avant de chercher les doublons dans Excel

Lancer directement la suppression des doublons sur un fichier brut, c’est le meilleur moyen de perdre des données utiles. La première étape consiste à homogénéiser les valeurs dans les colonnes clés : nom, prénom, e-mail, téléphone.

A lire en complément : Comment supprimer des doublons dans Excel sur de grands tableaux volumineux ?

Les variantes d’écriture sont la cause principale des faux négatifs. « Jean-Pierre Durand » et « jean pierre durand » ne seront pas détectés comme doublons par Excel tant que la casse et les tirets diffèrent. Avant toute recherche, on applique quelques formules de nettoyage sur les cellules concernées.

  • SUPPRESPACE (ou TRIM en anglais) supprime les espaces superflus en début, fin et milieu de chaîne, un classique des imports CRM mal formatés.
  • MINUSCULE convertit toute la colonne en minuscules pour neutraliser les écarts de casse.
  • SUBSTITUE permet de remplacer un caractère par un autre (tiret par espace, par exemple) pour uniformiser les noms composés.

On travaille ces formules dans des colonnes auxiliaires, à côté des données d’origine. Une fois le nettoyage validé, on colle les valeurs nettoyées en remplacement. Ce travail préparatoire prend quelques minutes, mais il change radicalement la fiabilité de la détection.

Lire également : Trouver facilement un template Notion gratuit et bien conçu

Homme consultant une base client avec doublons surlignés dans Excel depuis son bureau à domicile

Mise en forme conditionnelle pour repérer les doublons Excel sans les supprimer

Quand on gère une base client, supprimer un doublon sans vérification revient parfois à effacer la fiche la plus complète au profit d’une ligne vide. La mise en forme conditionnelle permet de visualiser les doublons dans la plage de cellules avant toute action destructrice.

La manipulation est directe : on sélectionne la colonne (par exemple les adresses e-mail), puis Accueil > Mise en forme conditionnelle > Règles de mise en surbrillance des cellules > Valeurs en double. Excel colore alors chaque cellule apparaissant plus d’une fois.

Cette méthode a un avantage que le bouton « Supprimer les doublons » n’a pas : on voit quelles lignes sont concernées et on peut comparer manuellement le contenu des colonnes adjacentes. Pour une base client, c’est souvent là qu’on découvre qu’un doublon apparent correspond en réalité à deux contacts distincts partageant le même nom de famille.

Limites de la mise en forme conditionnelle

Elle ne fonctionne que sur une colonne à la fois. Pour croiser plusieurs critères (nom + e-mail + téléphone), il faut créer une colonne de concaténation avec une formule du type CONCAT ou l’opérateur &, puis appliquer la mise en forme conditionnelle sur cette colonne combinée.

Formule NB.SI pour compter les doublons dans un tableau Excel

La fonction NB.SI offre un contrôle plus fin que la mise en forme conditionnelle. Dans une colonne auxiliaire, on entre une formule comme =NB.SI($B:$B;B2) qui compte le nombre d’occurrences de chaque valeur dans la plage.

Toute cellule renvoyant un résultat supérieur à 1 signale un doublon. On filtre ensuite le tableau sur cette colonne auxiliaire pour afficher uniquement les lignes concernées.

L’intérêt pour une base client : on peut appliquer NB.SI sur la colonne e-mail (le critère le plus fiable pour identifier un doublon client) et obtenir immédiatement le nombre exact de doublons. Cette méthode permet aussi de repérer les triplons ou quadruplons, fréquents quand plusieurs commerciaux saisissent le même prospect.

Combiner NB.SI avec plusieurs colonnes

Pour croiser deux critères, on utilise NB.SI.ENS. Par exemple, =NB.SI.ENS($B:$B;B2;$C:$C;C2) compte les lignes où le nom ET l’e-mail correspondent simultanément. C’est la formule la plus adaptée quand la base contient des homonymes avec des adresses différentes.

Deux collègues collaborant sur le nettoyage d'une base de données clients avec la mise en forme conditionnelle d'Excel en salle de réunion

Supprimer les doublons Excel avec le bouton dédié : méthode rapide et précautions

L’onglet Données d’Excel contient un bouton « Supprimer les doublons » accessible en un clic. On sélectionne la plage ou le tableau, on clique, puis on choisit les colonnes à comparer. Excel supprime alors les lignes en double en conservant la première occurrence.

C’est précisément le problème : Excel conserve toujours la première ligne et supprime les suivantes, sans tenir compte de laquelle est la plus complète ou la plus récente. Sur une base client, la première ligne peut être un ancien import avec un numéro de téléphone obsolète, tandis que la seconde contient les coordonnées à jour.

Avant d’utiliser ce bouton, on trie le tableau par date de modification décroissante (si cette colonne existe). La ligne la plus récente se retrouve en haut et sera conservée par Excel lors de la suppression.

Power Query pour dédupliquer une base client volumineuse dans Excel

Quand la base client dépasse plusieurs milliers de lignes, les formules NB.SI et la mise en forme conditionnelle ralentissent le fichier. Power Query, intégré à Excel sur Microsoft 365, gère la déduplication de manière plus robuste.

Dans l’éditeur Power Query, la fonction « Regrouper par » combinée à des colonnes conditionnelles permet de définir précisément quel enregistrement conserver pour chaque groupe de doublons. On peut garder systématiquement la ligne avec la date de dernière modification la plus récente, ou celle dont le plus grand nombre de colonnes est renseigné.

Ce type de déduplication qualitative n’est pas possible avec le simple bouton « Supprimer les doublons ». C’est l’approche recommandée pour un nettoyage récurrent : on paramètre la requête une fois, et chaque nouvel import passe automatiquement par le même filtre.

Ajouter une colonne d’identifiant CRM

Si la base client est synchronisée avec un CRM (HubSpot, Pipedrive ou autre), on ajoute une colonne « CRM ID » ou « External ID » dans le fichier Excel. Ce couple adresse e-mail + identifiant interne empêche la réapparition de doublons après chaque synchronisation. Sans cet identifiant, les variantes d’écriture recréent des doublons à chaque import.

Vérifier les types de données pour limiter les faux doublons Excel

Depuis 2023, Excel sur Microsoft 365 propose dans l’onglet Données une vérification des types de données enrichis (Organisation, Géographie). Cette fonctionnalité corrige automatiquement certains champs clients comme les noms d’entreprise ou les codes pays en s’appuyant sur les services en ligne de Microsoft.

En pratique, si votre colonne « Société » contient « IBM », « I.B.M. » et « International Business Machines », la conversion en type de données Organisation peut regrouper ces variantes sous une forme canonique. Cela réduit les doublons créés par des différences d’écriture avant même de lancer la détection.

Les retours varient sur ce point selon la qualité des données source et la langue des champs. Sur des noms de société français peu connus, la reconnaissance fonctionne moins bien que sur des entreprises internationales. Le nettoyage manuel reste un complément nécessaire.

Le nettoyage d’une base client dans Excel ne se limite pas à un bouton. La combinaison préparation des données, formule NB.SI pour le diagnostic, mise en forme conditionnelle pour la vérification visuelle, puis Power Query pour l’automatisation couvre la majorité des cas. La colonne d’identifiant CRM, ajoutée dès le premier export, évite de recommencer ce travail à chaque synchronisation.

Les immanquables