Une passerelle de confidentialité entre vous et les modèles fermés.
OSSRedact se place devant tout LLM que vous ne contrôlez pas. Il détecte et masque les renseignements personnels à l'aller, puis réhydrate la réponse du modèle au retour, pour que les valeurs réelles ne traversent jamais le réseau, tout en obtenant une réponse utile.
Masquer à l'aller. Réhydrater au retour.
Le texte propre passe directement. Le texte porteur de renseignements personnels est masqué en marqueurs typés sur votre machine, et seuls ces marqueurs traversent le réseau. Au retour, OSSRedact réhydrate la réponse du modèle vers les valeurs réelles, sans perte.
votre outil
Application, agent ou client LLM
sur votre machine
La passerelle OSSRedact
n'importe quelle API LLM
Le nuage ne voit que des marqueurs
Un modèle entraîné, sur un plancher qui ne se soulève jamais.
Un modèle unique est le mauvais pari pour une passerelle de confidentialité. Un rappel dans les hauts pourcentages est excellent, et reste insuffisant pour les catégories où un seul oubli est catastrophique. Le modèle ne travaille donc pas seul.
Le modèle neuronal lit le contexte et trouve les renseignements personnels à forme libre : noms, adresses et texte libre qu'aucune règle ne peut énumérer.
Le plancher déterministe se trouve en dessous, toujours actif. Les secrets et les identifiants structurés sont reconnus et validés par règle, de sorte que les catégories catastrophiques sont attrapées avec certitude, pas avec probabilité.
Attrape les catégories à forme libre qu'une règle ne peut décrire.
rappel dans les hauts pourcentages · excellent, et par nature sous les 100 %
Règles et validateurs pour les catégories où un seul oubli est inacceptable.
4 365 / 4 365 secrets injectés attrapés · 0 faux positif leurre
Deux modèles à poids ouverts. Un seul schéma.
Chaque point de contrôle est publié à poids ouverts et partage le même schéma de 20 étiquettes, ce qui vous permet de choisir plus de rappel ou une empreinte plus petite sans changer le comportement de la passerelle. Le modèle de base est livré par défaut.
xlm-roberta-large
rappel 0.9964
Le point de contrôle le plus précis, pour quand le rappel compte plus qu'une faible empreinte.
xlm-roberta-base
rappel 0.9932
Le palier livré. Rappel quasi identique au grand modèle (0.9932 contre 0.9964), avec la moitié des paramètres.
1,7 ms
voie rapide, texte propre, sans renseignements
23,5 ms
requête porteuse de renseignements
~42 ms
détection CPU INT8, entièrement locale
Un schéma, vingt étiquettes.
Chaque détection porte une étiquette typée, répartie en deux paliers selon le coût d'un oubli.
Rappel plus élevé, bien moins de faux positifs.
Le rappel est le taux de prévention des fuites : un span détecté couvrait-il réellement la valeur sensible. Mesuré sur des ensembles québécois FR/EN hors échantillon, face à Microsoft Presidio (grands modèles anglais et français, mêmes ensembles, même métrique).
0.9964
rappel de détection pleine pile sur un ensemble hors échantillon de 7 498 lignes (0 chevauchement d'entraînement)
12/ 7 498
sur-masquages sur texte propre. Microsoft Presidio : 343 à 508
+17pts
de rappel de plus que Presidio sur la voie ALL-CAPS (jusqu'à +23 ailleurs)
~42ms
détection CPU INT8, entièrement locale. Le modèle de base déployé égale presque le rappel du grand modèle avec la moitié des paramètres
Rappel hors échantillon v11 : 0.9964 (grand, 559M) et 0.9932 (base, 277M). Rappel français 0.980, anglais 0.978. Les modèles sont entraînés sur des données québécoises synthétiques et validés contre un corpus réel du Québec. La comparaison avec Presidio utilise les ensembles historiques v6/v7, où Presidio a enregistré 343 faux positifs ou plus contre 0 pour nous.
218,931
renseignements personnels masqués sur 5 000 documents synthétiques en français et en anglais, sans aucune erreur.
Construit et validé entièrement sur la passerelle locale, mesuré par rapport à la vérité terrain. Les documents réels ne touchent jamais un modèle infonuagique.
fuites catastrophiques sur la passe hors échantillon
- 0 fuite de courrielaucune
- 0 fuite de NASaucune
- 0 fuite de compte ou de carteaucune
Une application locale, avec révision avant masquage.
La passerelle s'exécute sans interface, mais l'atelier est l'endroit où vous la voyez travailler : détectez un document entier, inspectez chaque renseignement, puis ne masquez que ce que vous approuvez.
Déposez un document
Pointez l'application vers un fichier : PDF, Word, Excel, CSV ou texte. Le palier 0 s'exécute instantanément ; la détection approfondie ajoute le modèle sur l'appareil.
Révisez chaque renseignement
Chaque détection est affichée avec son étiquette et sa source avant tout changement. Approuvez, modifiez ou ajoutez un marquage manuel.
Rien n'est téléversé
La détection et le masquage se font sur votre machine. Le document ne la quitte jamais, avec ou sans réseau.

Pointez vers elle les outils que vous utilisez déjà.
L'atelier est l'endroit où vous la voyez travailler. La passerelle en est la version sans interface : un proxy local placé devant n'importe quel modèle infonuagique. Définissez une seule URL de base et vos outils existants y transitent : masqués à l'aller, réhydratés au retour, avec un reçu pour chaque requête.
Deux clients, aujourd'hui
Même contrat de masquage et de réhydratation pour les deux, par l'entremise des adaptateurs que la passerelle sert aujourd'hui : Anthropic /v1/messages et OpenAI /v1/responses. Votre en-tête d'authentification est transmis tel quel, donc votre connexion existante est respectée et la facture infonuagique reste où elle était.
« ...le NAS du client 046 454 286, rappeler au 514-555-0188 pour confirmer le solde. »
« ...le NAS du client <GOVERNMENT_ID_001>, rappeler au <PHONE_NUMBER_001> pour confirmer le solde. »
« ...la note indique le NAS 046 454 286 et un rappel au 514-555-0188. »
Ce qu'il ne fait pas encore.
Aucun détecteur n'est parfait, et un outil de confidentialité qui prétend le contraire est le genre dangereux. Voici où OSSRedact reste en deçà aujourd'hui.
- Les modèles sont entraînés et validés sur des données synthétiques québécoises. Des domaines plus larges sont des travaux futurs.
- Les noms collés dans des identifiants de code sont sous-détectés (rappel de 0.882 sur cette tranche).
- Une longue suite de chiffres isolée, juste à côté de lettres, peut être manquée.
- Français et anglais seulement, par conception.
- Le rappel est inférieur à 100 %, donc la couche déterministe du palier 0 est le plancher fiable pour les catégories catastrophiques : secrets, cartes et NAS.
Licence : la passerelle, l'atelier et les poids du modèle sont tous publiés sous la licence MIT. Lisez-la, exécutez-le, dérivez-le.
Valeurs réelles sorties, marqueurs entrés, avant tout envoi.
Collez votre propre texte et observez l'échange se produire, l'onglet Réseau vide.