Le modèle vous appartient. Impossible de le désactiver.

OSSRedact est open source et à poids ouverts, de bout en bout. Le détecteur s'exécute sur votre machine, les poids sont téléchargeables et toute la passerelle vous appartient : à lire, exécuter et bifurquer. Aucun fournisseur ne peut la révoquer, la facturer à l'usage ou changer les conditions à votre insu.

Garde, pas accès

Vous détenez les poids.

Un détecteur hébergé, c'est de l'accès : quelqu'un d'autre exécute le modèle et vous demandez la permission chaque fois. Les poids ouverts, c'est la garde. Le modèle entraîné est un fichier que vous téléchargez une seule fois et que vous possédez ensuite.

Fonctionne hors ligne

La détection n'a jamais besoin du réseau. Débranchez le câble et le comportement reste identique.

Ne peut être révoqué

Il n'y a aucun serveur de licence à contacter. Une copie sur votre disque reste la vôtre.

À vous de bifurquer

Lisez les poids, ajustez-les, publiez votre propre version. Aucune permission requise.

pii-xlmr-base.int8.safetensors sur votre disque

paramètres277M

poidsouverts, téléchargeables

licenceMIT

sha256a3f1…e9 vérifié

besoin d'un serveurnon

téléchargé une fois · prêt hors ligne · aucune condition ne peut changer en dessous

Possédé, pas loué

Pourquoi on ne peut pas l'éteindre.

La différence n'est pas une case à cocher dans une politique de confidentialité. C'est qui détient le modèle, et tout ce qui en découle.

Un modèle que vous louez

Un accès que vous pouvez perdre.

Un fournisseur l'exécute sur ses serveurs
Votre texte quitte votre réseau pour être analysé
L'accès peut être révoqué, restreint ou retarifé
Les conditions changent, et vous les acceptez ou partez
Le modèle peut être abandonné sans préavis
Vous ne pouvez pas lire ce qui analyse vos données

Un modèle que vous possédez

Une garde que vous conservez.

Il s'exécute sur votre propre processeur, GPU ou NPU
Votre texte ne quitte jamais la machine
Une copie téléchargée est la vôtre, en permanence
La licence est MIT et ne change pas
La version que vous détenez fonctionne pour toujours
Chaque ligne et chaque poids sont ouverts à la lecture

Conçu pour le Québec

Conçu pour les données franco-québécoises, et la loi qui les entoure.

L'avantage n'est pas un modèle plus gros. C'est un modèle entraîné pour les renseignements personnels franco-québécois (RAMQ, assurance sociale, SAAQ) là où les détecteurs génériques s'appuient sur des règles et des modèles jamais entraînés pour le français québécois. Et parce qu'il masque sur votre machine, les données restent du bon côté de la Loi 25.

Reconnus en français et en anglais

Numéro d'assurance maladie RAMQ
« Numéro d'assurance maladie »
government_id
Numéro d'assurance sociale (NAS)
« Numéro d'assurance sociale »
government_id
Permis de conduire SAAQ
« Permis de conduire »
government_id
Code postal du Québec (G / H / J)
« Code postal du Québec »
postal_code

Les pièces d'identité gouvernementales du Québec correspondent à government_id (catastrophique, toujours masqué). Le côté français n'est pas une réflexion après coup :

0.980
Rappel en français: 0.978
Rappel en anglais

Rappel de détection sur le jeu de validation synthétique québécois. Entraîné et validé sur des données synthétiques seulement ; les domaines réels plus larges sont des travaux futurs.

Loi 25, par conception

Rien à divulguer si rien ne franchit la ligne.

La Loi 25 du Québec vous tient responsable des renseignements personnels que vous divulguez à un tiers, y compris un fournisseur de modèle à l'extérieur du Québec.

OSSRedact déplace la détection et le masquage sur votre machine, avant l'envoi de la requête. Les renseignements personnels que la Loi 25 protège ne franchissent jamais la frontière, alors il n'y a rien de divulgué à justifier.

Ceci est la posture d'ingénierie, pas un avis juridique.

Le projet

Trois parties, toutes ouvertes.

OSSRedact, c'est une suite de modèles, une application locale et ce site. Chaque pièce tient debout seule et chaque pièce est ouverte.

Modèles + passerelle

Deux modèles de détection de renseignements personnels à poids ouverts, xlm-roberta-large (559M) et xlm-roberta-base (277M, le palier déployé), sur un schéma partagé de 20 étiquettes, ainsi que la passerelle toujours active qui les exécute.

Poids ouverts sur HuggingFace

L'atelier

Une application locale et une interface en ligne de commande. Déposez un document ou acheminez une requête, détectez automatiquement avec Tier-0 ou en profondeur avec le modèle, et révisez chaque segment avant tout masquage.

Installer depuis GitHub

Ce site + la démo en direct

Ce que vous lisez. La démo Tier-0 s'exécute entièrement dans votre navigateur, sans aucun réseau. Le modèle neuronal sur l'appareil arrive bientôt dans le navigateur.

Essayer la démo

Où nous nous situons, honnêtement

Le motif n'est pas nouveau. La combinaison est la nôtre.

Les passerelles de masquage-réhydratation existent, et les détecteurs de renseignements personnels performants aussi. Un outil de confidentialité qui prétend avoir inventé la catégorie est de ceux qu'il ne faut pas croire, alors voici l'état de l'art.

Microsoft PresidioMIT

Une trousse établie pour détecter et dépersonnaliser les renseignements personnels par règles et reconnaissance d'entités.

LLM GuardMIT

Des analyseurs de sécurité pour les entrées et sorties de modèles, incluant l'anonymisation et la désanonymisation.

rehydra-sdkMIT

Un emballage de masquage puis réhydratation autour des appels de modèle, la même idée d'aller-retour.

OutGateBSL

Un motif de passerelle pour contrôler quel trafic de modèle est autorisé à sortir.

Ce qui est distinct ici : un modèle de renseignements personnels entraîné pour le français québécois et l'anglais, à poids ouverts, qui s'exécute sur l'appareil, derrière un plancher déterministe toujours actif pour les secrets et les identifiants structurés. Pas une idée nouvelle, mais une réalisation précise et vérifiable, pour une paire de langues que les outils génériques gèrent mal.

Licence

MIT, de bout en bout.

La passerelle, l'atelier et les poids du modèle sont tous distribués sous la licence MIT. Le fichier LICENSE, le manifeste du paquet et la carte du modèle concordent tous : lisez-le, exécutez-le, bifurquez-le, publiez-le.

Lisez-le, exécutez-le, bifurquez-le. Toute la passerelle est ouverte.

Poids ouverts sur HuggingFace, code sous licence MIT sur GitHub, et une démo en direct qui s'exécute dans votre navigateur.

Lire le code source Essayer la démo