glossaire · article · 2026-06-01 · 8 min

Enrichissement de données (data enrichment) : définition, méthodes et conformité en 2026

Q: Quelle est la différence entre scraping et enrichissement de données ?

Le scraping constitue la liste brute en extrayant des informations d'une source (un annuaire, des fiches Google Maps, des sites web). L'enrichissement de données complète cette liste existante avec des informations supplémentaires venues d'autres sources (identifiants légaux, emails, données firmographiques). On scrape d'abord, on enrichit ensuite.

par outsend.xyz

Vous avez exporté une liste de 500 entreprises : un nom, une adresse, parfois un numéro de téléphone, parfois un site web. À l'écran, toutes les lignes se ressemblent. Vous n'avez aucun moyen de distinguer la société de quinze salariés fondée il y a vingt ans de la micro-entreprise déclarée le mois dernier, ni de savoir laquelle a une adresse email professionnelle joignable, laquelle a fermé. Vous vous apprêtez à toutes les contacter de la même façon — et la moitié de l'effort va tomber dans le vide.

C'est exactement le problème que l'enrichissement de données vient résoudre. Une liste brute permet de compter des lignes ; une liste enrichie permet de décider qui contacter, comment, et dans quel ordre. Voici la définition concrète de l'enrichissement de données (souvent appelé data enrichment), les types d'informations qu'on peut ajouter, les méthodes utilisées, et le cadre RGPD applicable en France en 2026.

Définition de l'enrichissement de données

L'enrichissement de données (en anglais data enrichment) consiste à compléter un jeu de données existant avec des informations supplémentaires provenant d'autres sources, afin de le rendre plus exploitable. Concrètement, on part d'une liste pauvre — quelques colonnes — et on y ajoute les informations qui manquent pour qualifier, trier et décider : identifiants légaux, taille, secteur, emails, technologies utilisées.

Le terme s'applique à toute donnée, mais en prospection B2B, l'enrichissement de données désigne le fait de transformer une liste de noms d'entreprises en une base de travail : on rapproche chaque ligne de sources externes pour coller, en face, les attributs qui permettent de prioriser. Une liste de noms n'est pas une base ; c'est l'enrichissement qui fait la différence.

Liste brute contre liste enrichie : ce que ça change pour décider

Prenons un exemple concret. Vous scrapez 500 cabinets comptables sur une région. La sortie brute ressemble à ceci : nom, adresse, téléphone, site web. Avec ces seules colonnes, vous ne pouvez que dérouler la liste de haut en bas et appeler tout le monde au même rythme.

La même liste, enrichie, porte en plus le SIREN de chaque cabinet, sa forme juridique, sa date d'immatriculation, son effectif approximatif, une adresse email professionnelle vérifiée et les technologies de son site. À partir de là, le travail change de nature : vous écartez les structures radiées, vous repérez les cabinets de plus de dix ans qui ont les moyens de votre offre, vous personnalisez le message selon l'outil métier détecté sur leur site, et vous ne dépensez vos relances que sur les contacts joignables. La liste ne sert plus à compter — elle sert à décider.

L'enrichissement de données est le maillon entre le scraping, qui constitue la liste brute, et la lead generation, qui transforme ces contacts en opportunités. Sans enrichissement, on prospecte à l'aveugle ; avec, on prospecte trié.

Les types d'enrichissement de données

Tous les enrichissements ne se valent pas, et ils ne servent pas le même objectif. On distingue cinq grandes familles selon la nature de l'information ajoutée.

Identifiants légaux. SIRET, SIREN, RCS, numéro de TVA intracommunautaire. Ce sont les clés stables qui permettent de facturer, de dédoublonner sans ambiguïté et de vérifier qu'une enseigne existe juridiquement. Sans SIREN, deux libellés proches restent deux lignes au lieu d'une.
Données firmographiques. Forme juridique, date de création, effectif, code NAF, capital social, statut actif ou radié, dirigeants. C'est l'enrichissement qui permet de trier : cibler les entreprises d'une certaine taille, d'un certain âge, d'un secteur précis.
Emails et coordonnées. Adresses email professionnelles, lignes directes. C'est le rôle d'un email finder : retrouver le canal de contact à partir du nom de domaine ou du nom du dirigeant.
Technologies (technographiques). Le CMS, le système de paiement, les outils marketing détectés sur le site d'une entreprise. Utile pour qui vend un service lié à une technologie précise.
Signaux web et réseaux sociaux. Présence LinkedIn, Facebook, Instagram, activité récente, levées de fonds, recrutements. Ces signaux indiquent un moment opportun pour contacter.

Dans la pratique, un dispositif sérieux combine plusieurs familles : on enrichit d'abord avec les identifiants légaux et les données firmographiques pour trier, puis avec les emails pour ne chercher les coordonnées que des contacts retenus. L'ordre compte : enrichir des emails sur une liste qu'on n'a pas encore triée, c'est dépenser de l'effort sur des lignes qu'on écartera ensuite.

Les méthodes d'enrichissement de données

Comment, concrètement, colle-t-on une information en face d'une ligne ? Trois grandes méthodes coexistent, qui se combinent souvent.

Le matching sur bases ouvertes

La première méthode consiste à rapprocher chaque ligne d'une base de référence publique. En France, la base de référence pour les entreprises est la base Sirene de l'INSEE, ouverte en open data et couvrant l'ensemble des unités légales et établissements immatriculés depuis 1973. Elle porte le label « service public de la donnée de référence ». Rapprocher une liste de la base Sirene permet d'y coller la forme juridique, le code NAF, la date de création ou le statut actif/radié.

Une variante de ce matching exploite directement le site de l'entreprise : en France, le SIRET figure presque toujours dans les mentions légales, parce que la loi impose de l'afficher. Lire cette mention publique et la coller sur la ligne est un enrichissement par source ouverte. C'est exactement le principe du module legal_ids d'outsend, qui retrouve SIRET, SIREN et RCS automatiquement à partir d'une liste d'établissements et calcule la clé TVA intracommunautaire dans la foulée.

La cascade de sources (waterfall)

Aucune source n'est complète à elle seule. La méthode dite waterfall (cascade) consiste à interroger plusieurs sources dans un ordre de priorité : on prend l'information de la première source qui la fournit, et on passe à la suivante seulement si la première échoue. Pour un email, par exemple, on tente d'abord la lecture du site, puis une déduction depuis le nom de domaine, puis une autre source. Cette logique de cascade maximise le taux de couverture sans payer plusieurs fois la même donnée.

Sources publiques contre sources achetées

La distinction structurante n'est pas technique, elle est juridique et économique. Les sources publiques (base Sirene, mentions légales, registres officiels) sont des données que la loi rend ouvertes ou que l'entreprise est tenue d'afficher : les lire revient à consulter une information publique. Les sources achetées sont des bases constituées et revendues par des fournisseurs tiers, dont la provenance et la base légale ne sont pas toujours documentées. Privilégier les sources publiques ouvertes, c'est garder une traçabilité claire de l'origine de chaque donnée — ce qui devient déterminant pour la conformité, comme on le voit ci-dessous.

Au-delà des identifiants légaux, on enrichit aussi avec des données légales structurées — forme juridique, dirigeants, dates clés — pour qualifier une liste avant le premier contact, toujours à partir de registres officiels.

Enrichissement de données et conformité RGPD en 2026

C'est le point que beaucoup négligent, et c'est celui qui fait la différence entre un enrichissement de données propre et une pratique à risque. Le principe est simple à énoncer : enrichir une base, c'est traiter des données, et tout traitement de données personnelles doit reposer sur une base légale.

Donnée publique ne veut pas dire donnée libre

La CNIL est claire : une donnée personnelle accessible publiquement en ligne reste une donnée personnelle. Sa publicité ne la rend pas librement réutilisable. Une donnée purement légale d'entreprise (SIRET, forme juridique, code NAF d'une personne morale) n'est pas une donnée personnelle et s'enrichit sans difficulté. En revanche, dès qu'on touche au nom d'un dirigeant personne physique, à une adresse email nominative ou à un entrepreneur individuel, on est sur de la donnée personnelle, et le RGPD s'applique.

La base légale du traitement

Tout traitement de données personnelles doit reposer sur l'une des six bases légales prévues par l'article 6 du RGPD : consentement, contrat, obligation légale, intérêts vitaux, mission d'intérêt public, ou intérêt légitime. En B2B, l'enrichissement et la prospection s'appuient souvent sur l'intérêt légitime — à condition que la personne puisse raisonnablement s'attendre à ce traitement et que le message soit en lien avec sa fonction professionnelle.

Les obligations qui en découlent

Selon les recommandations de la CNIL sur la réutilisation de données publiquement accessibles, l'organisme qui enrichit puis prospecte doit :

Informer la personne de la source des données, dès le premier contact (article 14 du RGPD) : indiquer d'où vient l'information collectée.
Respecter le droit d'opposition et ne pas contacter les personnes inscrites sur une liste anti-prospection comme Bloctel, ni celles qui se sont déjà opposées.
Vérifier les CGU des sites dont les données sont extraites : si elles interdisent l'aspiration à des fins commerciales, la pratique n'est pas autorisée.
Recueillir le consentement préalable pour toute prospection par voie électronique vers un particulier — l'acceptation de CGU ne vaut pas consentement.

Garder la trace de l'origine de chaque donnée enrichie n'est donc pas un détail technique : c'est ce qui rend l'information de la personne possible et la conformité démontrable. C'est aussi pour cela que les outils d'enrichissement sérieux conservent l'URL source de chaque identifiant collecté. Si vous voulez tester un enrichissement qui trace ses sources, l'accès à outsend se fait en alpha gratuite sur candidature.

FAQ — Enrichissement de données

Quelle est la différence entre scraping et enrichissement de données ?

Le scraping constitue la liste brute en extrayant des informations d'une source (un annuaire, des fiches Google Maps, des sites web). L'enrichissement de données complète cette liste existante avec des informations supplémentaires venues d'autres sources (identifiants légaux, emails, données firmographiques). On scrape d'abord, on enrichit ensuite.

L'enrichissement de données est-il légal en France ?

Enrichir avec des données légales d'entreprise (SIRET, forme juridique d'une personne morale) ne pose pas de difficulté : ce ne sont pas des données personnelles. Dès qu'on touche à des données personnelles (dirigeant personne physique, email nominatif), le RGPD s'applique : il faut une base légale (article 6), informer la personne de la source des données et respecter le droit d'opposition. La CNIL rappelle qu'une donnée publique n'est pas une donnée librement réutilisable.

Quelles sont les sources publiques pour enrichir une liste d'entreprises ?

La principale est la base Sirene de l'INSEE, ouverte en open data sur data.gouv.fr, qui couvre les unités légales et établissements immatriculés depuis 1973. S'y ajoutent les mentions légales publiées sur les sites des entreprises (où figure le SIRET, légalement obligatoire) et les registres officiels du commerce.

Qu'est-ce que la méthode waterfall en enrichissement de données ?

La méthode waterfall (cascade) interroge plusieurs sources dans un ordre de priorité et retient l'information de la première qui la fournit, passant à la suivante seulement en cas d'échec. Elle maximise le taux de couverture d'un enrichissement sans solliciter inutilement toutes les sources pour chaque ligne.

Faut-il enrichir les emails avant ou après avoir trié sa liste ?

Après. L'enrichissement par identifiants légaux et données firmographiques sert à trier et écarter les lignes hors cible. Chercher les emails ne se justifie que sur les contacts retenus — sinon, on dépense de l'effort de recherche d'adresses sur des lignes qu'on éliminera ensuite.

Données publiques et données personnelles, quelle différence pour l'enrichissement ?

Une donnée légale d'entreprise (SIRET, code NAF, forme juridique d'une société) n'est pas une donnée personnelle : elle s'enrichit librement. Une donnée rattachée à une personne physique (nom d'un dirigeant, email nominatif, entrepreneur individuel) est une donnée personnelle, même si elle est publique : son enrichissement et sa réutilisation relèvent du RGPD et exigent une base légale et l'information de la personne.

Besoin d'une vue d'ensemble ? Consultez le glossaire complet de la prospection.

Tester outsend gratuitement

Tout-en-un, FR-natif. Accès alpha gratuit sur candidature.

Demander un accès alpha gratuit