Mentions légales
Mentions légales
Le module legal_mentions localise la page mentions légales (aussi Impressum) sur le site de chaque POI et en extrait le contenu structuré. Il s'exécute comme étape d'enrichissement sur une liste de POI existante et renvoie une ligne par site d'entrée, qu'une page légale ait été trouvée ou non.
Objectif
La plupart des workflows de due-diligence B2B reposent sur quelques faits publiés uniquement sur le site de l'entreprise : raison sociale, dirigeant, capital social, hébergeur. Le module fait remonter ces faits à l'échelle de la liste, pour qu'une campagne ou un audit en aval puisse filtrer, segmenter et recouper sans visites manuelles.
Usages typiques :
- Qualifier une liste de prospects par proxies de taille (capital, forme juridique).
- Rapprocher un nom commercial de l'entité immatriculée avant prise de contact.
- Construire un index de dirigeants pour personnaliser les messages.
- Auditer les hébergeurs sur un secteur.
Le module n'invente jamais de valeur. Un champ vide signifie que l'information n'a pas pu être localisée sur la page cible.
Entrées
Le job consomme une liste d'items POI. Chaque item doit porter une URL de site ; les items sans URL sont écartés à la validation.
| Champ | Type | Requis | Notes |
|---|---|---|---|
site_web |
string | oui | URL racine du site de l'établissement. |
name |
string | non | Transmis en sortie pour le rapprochement. |
source_job_id |
string | non | ID d'un job scrap amont pour hériter les items. |
Soumettre entre 1 et 10 000 items par job. Les items sont normalisés et dédoublonnés avant exécution.
Sorties
Une ligne est produite par site d'entrée. Colonnes :
| Colonne | Type | Description |
|---|---|---|
raison_sociale |
string | Raison sociale telle qu'apparaissant sur la page mentions légales. |
forme_juridique |
string | Forme juridique (SAS, SARL, SA, EI, etc.). |
capital_social |
string | Capital social déclaré, dans la devise indiquée sur la page. |
rcs |
string | Mention RCS (ville + identifiant). |
adresse_postale |
string | Adresse postale du siège. |
dirigeant |
string | Directeur de publication ou représentant légal, quand indiqué. |
tva_intracom |
string | Numéro de TVA intracommunautaire, validé au format FR quand présent. |
Les cellules vides indiquent que le champ n'était pas présent sur la page analysée — le module n'invente jamais de valeur. La sortie est livrée en CSV avec les colonnes d'entrée.
Cycle de vie
Cycle de job standard — voir Cycle de vie des jobs. La progression est reportée par site ; les sorties partielles sont préservées en cas d'annulation ou d'échec en cours d'exécution.
Pipeline
Le module est une étape d'enrichissement. Il s'insère dans le pipeline de liste standard :
needs: [site_web]
produces: [raison_sociale, forme_juridique, capital_social, rcs, adresse_postale, dirigeant, tva_intracom]
Une chaîne typique ressemble à scrap → legal_mentions → legal_data. La source peut être sélectionnée en téléversant directement les items ou en référençant un job scrap récent via source_job_id.
Endpoints
Tous les endpoints requièrent un utilisateur authentifié et actif.
| Méthode | Chemin | Corps | Renvoie |
|---|---|---|---|
| POST | /api/jobs/legal-mentions |
{ items: [...], source_job_id } |
JobPublic |
| GET | /api/jobs/{id} |
— | JobPublic |
| GET | /api/jobs/{id}/output |
— | flux CSV |
| POST | /api/jobs/{id}/cancel |
— | JobPublic |
L'endpoint de création valide le quota en amont et renvoie 400 avec un message descriptif en cas d'échec. Items par job : 1 à 10 000. Quotas globaux : voir Limites.
Erreurs
Deux issues remontent en lignes vides plutôt qu'en échec de job, car attendues à l'échelle de la liste :
| Condition | Comportement |
|---|---|
| Aucune page légale trouvée | Ligne renvoyée avec chaque champ légal vide. |
| Site hors-ligne | Ligne renvoyée tous champs vides ; le site est marqué injoignable. |
Les échecs au niveau job (status = failed) sont réservés aux conditions non récupérables comme une entrée invalide ou une erreur quota. Le message d'erreur est exposé sur l'enregistrement du job.
Et après
- legal_ids — détecter SIREN/SIRET sur le même ensemble de sites.
- legal_data — enrichir chaque identifiant avec les données officielles d'entreprise.