Le modèle vous appartient. Impossible de le désactiver.
OSSRedact est open source et à poids ouverts, de bout en bout. Le détecteur s'exécute sur votre machine, les poids sont téléchargeables et toute la passerelle vous appartient : à lire, exécuter et bifurquer. Aucun fournisseur ne peut la révoquer, la facturer à l'usage ou changer les conditions à votre insu.
Vous détenez les poids.
Un détecteur hébergé, c'est de l'accès : quelqu'un d'autre exécute le modèle et vous demandez la permission chaque fois. Les poids ouverts, c'est la garde. Le modèle entraîné est un fichier que vous téléchargez une seule fois et que vous possédez ensuite.
Fonctionne hors ligne
La détection n'a jamais besoin du réseau. Débranchez le câble et le comportement reste identique.
Ne peut être révoqué
Il n'y a aucun serveur de licence à contacter. Une copie sur votre disque reste la vôtre.
À vous de bifurquer
Lisez les poids, ajustez-les, publiez votre propre version. Aucune permission requise.
Pourquoi on ne peut pas l'éteindre.
La différence n'est pas une case à cocher dans une politique de confidentialité. C'est qui détient le modèle, et tout ce qui en découle.
Un accès que vous pouvez perdre.
- Un fournisseur l'exécute sur ses serveurs
- Votre texte quitte votre réseau pour être analysé
- L'accès peut être révoqué, restreint ou retarifé
- Les conditions changent, et vous les acceptez ou partez
- Le modèle peut être abandonné sans préavis
- Vous ne pouvez pas lire ce qui analyse vos données
Une garde que vous conservez.
- Il s'exécute sur votre propre processeur, GPU ou NPU
- Votre texte ne quitte jamais la machine
- Une copie téléchargée est la vôtre, en permanence
- La licence est MIT et ne change pas
- La version que vous détenez fonctionne pour toujours
- Chaque ligne et chaque poids sont ouverts à la lecture
Conçu pour les données franco-québécoises, et la loi qui les entoure.
L'avantage n'est pas un modèle plus gros. C'est un modèle entraîné pour les renseignements personnels franco-québécois (RAMQ, assurance sociale, SAAQ) là où les détecteurs génériques s'appuient sur des règles et des modèles jamais entraînés pour le français québécois. Et parce qu'il masque sur votre machine, les données restent du bon côté de la Loi 25.
- government_id
Numéro d'assurance maladie RAMQ
« Numéro d'assurance maladie »
- government_id
Numéro d'assurance sociale (NAS)
« Numéro d'assurance sociale »
- government_id
Permis de conduire SAAQ
« Permis de conduire »
- postal_code
Code postal du Québec (G / H / J)
« Code postal du Québec »
Les pièces d'identité gouvernementales du Québec correspondent à government_id (catastrophique, toujours masqué). Le côté français n'est pas une réflexion après coup :
- 0.980
- Rappel en français
- 0.978
- Rappel en anglais
Rappel de détection sur le jeu de validation synthétique québécois. Entraîné et validé sur des données synthétiques seulement ; les domaines réels plus larges sont des travaux futurs.
Rien à divulguer si rien ne franchit la ligne.
La Loi 25 du Québec vous tient responsable des renseignements personnels que vous divulguez à un tiers, y compris un fournisseur de modèle à l'extérieur du Québec.
OSSRedact déplace la détection et le masquage sur votre machine, avant l'envoi de la requête. Les renseignements personnels que la Loi 25 protège ne franchissent jamais la frontière, alors il n'y a rien de divulgué à justifier.
Ceci est la posture d'ingénierie, pas un avis juridique.
Trois parties, toutes ouvertes.
OSSRedact, c'est une suite de modèles, une application locale et ce site. Chaque pièce tient debout seule et chaque pièce est ouverte.
Le motif n'est pas nouveau. La combinaison est la nôtre.
Les passerelles de masquage-réhydratation existent, et les détecteurs de renseignements personnels performants aussi. Un outil de confidentialité qui prétend avoir inventé la catégorie est de ceux qu'il ne faut pas croire, alors voici l'état de l'art.
Une trousse établie pour détecter et dépersonnaliser les renseignements personnels par règles et reconnaissance d'entités.
Des analyseurs de sécurité pour les entrées et sorties de modèles, incluant l'anonymisation et la désanonymisation.
Un emballage de masquage puis réhydratation autour des appels de modèle, la même idée d'aller-retour.
Un motif de passerelle pour contrôler quel trafic de modèle est autorisé à sortir.
Ce qui est distinct ici : un modèle de renseignements personnels entraîné pour le français québécois et l'anglais, à poids ouverts, qui s'exécute sur l'appareil, derrière un plancher déterministe toujours actif pour les secrets et les identifiants structurés. Pas une idée nouvelle, mais une réalisation précise et vérifiable, pour une paire de langues que les outils génériques gèrent mal.
MIT, de bout en bout.
La passerelle, l'atelier et les poids du modèle sont tous distribués sous la licence MIT. Le fichier LICENSE, le manifeste du paquet et la carte du modèle concordent tous : lisez-le, exécutez-le, bifurquez-le, publiez-le.
Lisez-le, exécutez-le, bifurquez-le. Toute la passerelle est ouverte.
Poids ouverts sur HuggingFace, code sous licence MIT sur GitHub, et une démo en direct qui s'exécute dans votre navigateur.