EN
Copied
Modules

Mentions légales

Mentions légales

Le module legal_mentions localise la page mentions légales (aussi Impressum) sur le site de chaque POI et en extrait le contenu structuré. Il s'exécute comme étape d'enrichissement sur une liste de POI existante et renvoie une ligne par site d'entrée, qu'une page légale ait été trouvée ou non.

Objectif

La plupart des workflows de due-diligence B2B reposent sur quelques faits publiés uniquement sur le site de l'entreprise : raison sociale, dirigeant, capital social, hébergeur. Le module fait remonter ces faits à l'échelle de la liste, pour qu'une campagne ou un audit en aval puisse filtrer, segmenter et recouper sans visites manuelles.

Usages typiques :

Le module n'invente jamais de valeur. Un champ vide signifie que l'information n'a pas pu être localisée sur la page cible.

Entrées

Le job consomme une liste d'items POI. Chaque item doit porter une URL de site ; les items sans URL sont écartés à la validation.

Champ Type Requis Notes
site_web string oui URL racine du site de l'établissement.
name string non Transmis en sortie pour le rapprochement.
source_job_id string non ID d'un job scrap amont pour hériter les items.

Soumettre entre 1 et 10 000 items par job. Les items sont normalisés et dédoublonnés avant exécution.

Sorties

Une ligne est produite par site d'entrée. Colonnes :

Colonne Type Description
raison_sociale string Raison sociale telle qu'apparaissant sur la page mentions légales.
forme_juridique string Forme juridique (SAS, SARL, SA, EI, etc.).
capital_social string Capital social déclaré, dans la devise indiquée sur la page.
rcs string Mention RCS (ville + identifiant).
adresse_postale string Adresse postale du siège.
dirigeant string Directeur de publication ou représentant légal, quand indiqué.
tva_intracom string Numéro de TVA intracommunautaire, validé au format FR quand présent.

Les cellules vides indiquent que le champ n'était pas présent sur la page analysée — le module n'invente jamais de valeur. La sortie est livrée en CSV avec les colonnes d'entrée.

Cycle de vie

Cycle de job standard — voir Cycle de vie des jobs. La progression est reportée par site ; les sorties partielles sont préservées en cas d'annulation ou d'échec en cours d'exécution.

Pipeline

Le module est une étape d'enrichissement. Il s'insère dans le pipeline de liste standard :

needs: [site_web]
produces: [raison_sociale, forme_juridique, capital_social, rcs, adresse_postale, dirigeant, tva_intracom]

Une chaîne typique ressemble à scraplegal_mentionslegal_data. La source peut être sélectionnée en téléversant directement les items ou en référençant un job scrap récent via source_job_id.

Endpoints

Tous les endpoints requièrent un utilisateur authentifié et actif.

Méthode Chemin Corps Renvoie
POST /api/jobs/legal-mentions { items: [...], source_job_id } JobPublic
GET /api/jobs/{id} JobPublic
GET /api/jobs/{id}/output flux CSV
POST /api/jobs/{id}/cancel JobPublic

L'endpoint de création valide le quota en amont et renvoie 400 avec un message descriptif en cas d'échec. Items par job : 1 à 10 000. Quotas globaux : voir Limites.

Erreurs

Deux issues remontent en lignes vides plutôt qu'en échec de job, car attendues à l'échelle de la liste :

Condition Comportement
Aucune page légale trouvée Ligne renvoyée avec chaque champ légal vide.
Site hors-ligne Ligne renvoyée tous champs vides ; le site est marqué injoignable.

Les échecs au niveau job (status = failed) sont réservés aux conditions non récupérables comme une entrée invalide ou une erreur quota. Le message d'erreur est exposé sur l'enregistrement du job.

Et après