Aller au contenu

Une passerelle de confidentialité entre vous et les modèles fermés.

OSSRedact se place devant tout LLM que vous ne contrôlez pas. Il détecte et masque les renseignements personnels à l'aller, puis réhydrate la réponse du modèle au retour, pour que les valeurs réelles ne traversent jamais le réseau, tout en obtenant une réponse utile.

La passerelle

Masquer à l'aller. Réhydrater au retour.

Le texte propre passe directement. Le texte porteur de renseignements personnels est masqué en marqueurs typés sur votre machine, et seuls ces marqueurs traversent le réseau. Au retour, OSSRedact réhydrate la réponse du modèle vers les valeurs réelles, sans perte.

votre outil

Application, agent ou client LLM

"...SIN 046 454 286..."

sur votre machine

La passerelle OSSRedact

detect → redact → rehydrate

n'importe quelle API LLM

Le nuage ne voit que des marqueurs

"...<GOVERNMENT_ID_001>..."
masquage à l'aller réhydratation au retourles valeurs réelles ne traversent jamais le réseau
Deux couches, pas une

Un modèle entraîné, sur un plancher qui ne se soulève jamais.

Un modèle unique est le mauvais pari pour une passerelle de confidentialité. Un rappel dans les hauts pourcentages est excellent, et reste insuffisant pour les catégories où un seul oubli est catastrophique. Le modèle ne travaille donc pas seul.

Le modèle neuronal lit le contexte et trouve les renseignements personnels à forme libre : noms, adresses et texte libre qu'aucune règle ne peut énumérer.

Le plancher déterministe se trouve en dessous, toujours actif. Les secrets et les identifiants structurés sont reconnus et validés par règle, de sorte que les catégories catastrophiques sont attrapées avec certitude, pas avec probabilité.

votre texte, en entier
Couche 2 · modèle neuronal sur l'appareilentraîné FR-QC + EN

Attrape les catégories à forme libre qu'une règle ne peut décrire.

nomsadressesorganisationsrenseignements en texte libre

rappel dans les hauts pourcentages · excellent, et par nature sous les 100 %

tout ce que le modèle n'attrape pas retombe vers
Couche 1 · plancher déterministetoujours actif

Règles et validateurs pour les catégories où un seul oubli est inacceptable.

secrets et clésNAS / pièce d'identitécartes et IBANidentifiants de compte

4 365 / 4 365 secrets injectés attrapés · 0 faux positif leurre

La suite de modèles

Deux modèles à poids ouverts. Un seul schéma.

Chaque point de contrôle est publié à poids ouverts et partage le même schéma de 20 étiquettes, ce qui vous permet de choisir plus de rappel ou une empreinte plus petite sans changer le comportement de la passerelle. Le modèle de base est livré par défaut.

Rappel le plus élevé

xlm-roberta-large

559Mparamètres

rappel 0.9964

Le point de contrôle le plus précis, pour quand le rappel compte plus qu'une faible empreinte.

par défautDéployé, INT8

xlm-roberta-base

277Mparamètres

rappel 0.9932

Le palier livré. Rappel quasi identique au grand modèle (0.9932 contre 0.9964), avec la moitié des paramètres.

1,7 ms

voie rapide, texte propre, sans renseignements

23,5 ms

requête porteuse de renseignements

~42 ms

détection CPU INT8, entièrement locale

fonctionne surCPUGPUNPU

Un schéma, vingt étiquettes.

Chaque détection porte une étiquette typée, répartie en deux paliers selon le coût d'un oubli.

13catastrophiquemasquage par défaut, rappel en priorité
Pièce d'identité / NASNuméro de carteCVV de carteExpiration de carteIBANNuméro de compteIdentifiant de compte / dossierNuméro fiscalSecret / cléMot de passeCourrielNomDate de naissance
7opérationnelutile à masquer, précision en priorité
TéléphoneAdresseCode postalAdresse IPChemin de fichierNom d'utilisateurOrganisation
Mesuré, pas prétendu

Rappel plus élevé, bien moins de faux positifs.

Le rappel est le taux de prévention des fuites : un span détecté couvrait-il réellement la valeur sensible. Mesuré sur des ensembles québécois FR/EN hors échantillon, face à Microsoft Presidio (grands modèles anglais et français, mêmes ensembles, même métrique).

OSSRedact Microsoft Presidio
voie ALL-CAPS0.955 vs 0.779
validation v60.990 vs 0.759
canonique0.986 vs 0.798

0.9964

rappel de détection pleine pile sur un ensemble hors échantillon de 7 498 lignes (0 chevauchement d'entraînement)

12/ 7 498

sur-masquages sur texte propre. Microsoft Presidio : 343 à 508

+17pts

de rappel de plus que Presidio sur la voie ALL-CAPS (jusqu'à +23 ailleurs)

~42ms

détection CPU INT8, entièrement locale. Le modèle de base déployé égale presque le rappel du grand modèle avec la moitié des paramètres

Rappel hors échantillon v11 : 0.9964 (grand, 559M) et 0.9932 (base, 277M). Rappel français 0.980, anglais 0.978. Les modèles sont entraînés sur des données québécoises synthétiques et validés contre un corpus réel du Québec. La comparaison avec Presidio utilise les ensembles historiques v6/v7, où Presidio a enregistré 343 faux positifs ou plus contre 0 pour nous.

Validé localement, sur des données synthétiques québécoises

218,931

renseignements personnels masqués sur 5 000 documents synthétiques en français et en anglais, sans aucune erreur.

Construit et validé entièrement sur la passerelle locale, mesuré par rapport à la vérité terrain. Les documents réels ne touchent jamais un modèle infonuagique.

fuites catastrophiques sur la passe hors échantillon

  • 0 fuite de courrielaucune
  • 0 fuite de NASaucune
  • 0 fuite de compte ou de carteaucune
L'atelier

Une application locale, avec révision avant masquage.

La passerelle s'exécute sans interface, mais l'atelier est l'endroit où vous la voyez travailler : détectez un document entier, inspectez chaque renseignement, puis ne masquez que ce que vous approuvez.

Déposez un document

Pointez l'application vers un fichier : PDF, Word, Excel, CSV ou texte. Le palier 0 s'exécute instantanément ; la détection approfondie ajoute le modèle sur l'appareil.

Révisez chaque renseignement

Chaque détection est affichée avec son étiquette et sa source avant tout changement. Approuvez, modifiez ou ajoutez un marquage manuel.

Rien n'est téléversé

La détection et le masquage se font sur votre machine. Le document ne la quitte jamais, avec ou sans réseau.

L'atelier OSSRedact révisant un document synthétique franco-québécois : chaque valeur détectée est remplacée par un marqueur étiqueté, avec un filtre de catégorie et des comptes en direct à droite.
La passerelle

Pointez vers elle les outils que vous utilisez déjà.

L'atelier est l'endroit où vous la voyez travailler. La passerelle en est la version sans interface : un proxy local placé devant n'importe quel modèle infonuagique. Définissez une seule URL de base et vos outils existants y transitent : masqués à l'aller, réhydratés au retour, avec un reçu pour chaque requête.

Deux clients, aujourd'hui

Claude Codeune variable d'environnement
# la facturation reste sur votre forfait Claude Max, pas de clé API
export ANTHROPIC_BASE_URL=http://localhost:8011
claude
Codex CLI~/.codex/config.toml
[model_providers.ossredact]
base_url = "http://localhost:8011"
wire_api = "responses"
env_key = "OPENAI_API_KEY"
model_provider = "ossredact"

Même contrat de masquage et de réhydratation pour les deux, par l'entremise des adaptateurs que la passerelle sert aujourd'hui : Anthropic /v1/messages et OpenAI /v1/responses. Votre en-tête d'authentification est transmis tel quel, donc votre connexion existante est respectée et la facture infonuagique reste où elle était.

reçu de requête sur l'appareil
votre outil envoiesur votre machine

« ...le NAS du client 046 454 286, rappeler au 514-555-0188 pour confirmer le solde. »

votre machine | le nuage
le modèle infonuagique voitsur le réseau

« ...le NAS du client <GOVERNMENT_ID_001>, rappeler au <PHONE_NUMBER_001> pour confirmer le solde. »

réhydraté au retour
vous recevez en retoursur votre machine

« ...la note indique le NAS 046 454 286 et un rappel au 514-555-0188. »

redaction=redactedspans=2wire_placeholders=[<GOVERNMENT_ID_001>, <PHONE_NUMBER_001>]
Honnête sur ses limites

Ce qu'il ne fait pas encore.

Aucun détecteur n'est parfait, et un outil de confidentialité qui prétend le contraire est le genre dangereux. Voici où OSSRedact reste en deçà aujourd'hui.

  • Les modèles sont entraînés et validés sur des données synthétiques québécoises. Des domaines plus larges sont des travaux futurs.
  • Les noms collés dans des identifiants de code sont sous-détectés (rappel de 0.882 sur cette tranche).
  • Une longue suite de chiffres isolée, juste à côté de lettres, peut être manquée.
  • Français et anglais seulement, par conception.
  • Le rappel est inférieur à 100 %, donc la couche déterministe du palier 0 est le plancher fiable pour les catégories catastrophiques : secrets, cartes et NAS.

Licence : la passerelle, l'atelier et les poids du modèle sont tous publiés sous la licence MIT. Lisez-la, exécutez-le, dérivez-le.

Valeurs réelles sorties, marqueurs entrés, avant tout envoi.

Collez votre propre texte et observez l'échange se produire, l'onglet Réseau vide.