Category Classification Engine

API Django de classification automatique des frais annexes de Bons de Commande (BDC) automobile en France.

Le moteur utilise un pipeline à 3 niveaux : règles regex déterministes → modèle SetFit fine-tuné → revue humaine (A_CLASSIFIER). Toute la configuration se fait via Django Admin — aucune modification de code nécessaire.

Onboarding : Créer un moteur de classification

Cette section décrit comment constituer un nouveau jeu de catégories de A à Z.

Étape 1 — Extraire et analyser les données source

À partir des Bons de Commande réels, extraire le tableau des frais annexes (libellés + montants). Analyser la fréquence et la sémantique des libellés pour identifier les regroupements naturels.

Questions à se poser :

Quels libellés reviennent le plus souvent ? (fréquence = priorité)
Y a-t-il des familles sémantiques claires (taxes, garanties, traitements, accessoires...) ?
Quel est le seuil de fréquence minimum pour justifier une catégorie dédiée ?
Certains libellés sont-ils composites (ex : "immat + transport") ? Ils iront en A_CLASSIFIER.

Étape 2 — Définir les catégories

Pour chaque catégorie identifiée, créer une entrée dans Django Admin (/admin/classifier/category/) avec :

key : identifiant slug unique (ex: carte_grise, garantie_extension)
name : libellé lisible en français
description : périmètre exact — ce qui entre et ce qui n'entre pas
code_comptable : compte PCG (ex: 6354, 607, 6226)
tva : régime TVA applicable (ex: TVA 20%, Hors champ TVA, Mixte)
order : ordre d'affichage

Minimum recommandé : 5 catégories. Maximum pratique sur un seul modèle : ~20.

Étape 3 — Constituer le jeu d'entraînement

Pour chaque catégorie, collecter 8 à 30 libellés réels et variés issus des BDC. La variété compte plus que la quantité : Carte grise, CG, Certificat immatriculation, Carte Grise + malus sont 4 exemples qui valent mieux que 20 fois Carte grise.

Le jeu d'entraînement peut être fourni de deux manières :

Fichier JSON : src/classifier/fixtures/training_data.json (format {"categorie": ["libelle1", "libelle2"]})
Saisie directe dans Django Admin : /admin/classifier/trainingexample/

Étape 4 — Importer les données

# Import complet depuis les fichiers JSON (supprime l'existant)
docker compose exec category_web_app python manage.py import_training_data --clear

# Import incrémental (préserve l'existant, ignore les doublons)
docker compose exec category_web_app python manage.py import_training_data

# Preview sans modifier la base
docker compose exec category_web_app python manage.py import_training_data --dry-run

# Exemples uniquement (skip les règles regex)
docker compose exec category_web_app python manage.py import_training_data --skip-rules

Étape 5 — Ajouter les règles regex

Les règles regex capturent les cas déterministes sans passer par le modèle ML (confiance fixe 0.95, <1ms). Elles prennent effet immédiatement après sauvegarde dans l'Admin, sans redémarrage.

Dans Django Admin (/admin/classifier/categoryrule/) :

pattern : regex Python (ex: (?i)\bcarte\s*grise\b)
priority : entier — plus petit = évalué en premier (0–5 haute, 6–10 normale, 11+ basse)
description : note humaine sur ce que capture la règle

Règles de priorité importantes :

Les catégories très spécifiques (ex: carte_grise) reçoivent une priorité basse (1-3) pour être évaluées en premier
Les catégories génériques (ex: frais_administratif) reçoivent une priorité haute (11-14), évaluées en dernier
Si un libellé matche des règles de 2 catégories différentes → envoyé automatiquement en A_CLASSIFIER (multi-match)

Étape 6 — Entraîner le modèle

# Entraînement (~90s sur CPU)
docker compose exec category_web_app python manage.py train_setfit

# Avec évaluation de précision sur un holdout de 20%
docker compose exec category_web_app python manage.py train_setfit --evaluate

# OBLIGATOIRE après l'entraînement — le serveur web tourne dans un processus séparé
docker compose restart category_web_app

Étape 7 — Tester avec des données réelles

# Obtenir un token JWT
TOKEN=$(curl -s -X POST https://categoryclassification.aiichaa.com/api/token/ \
  -H "Content-Type: application/json" \
  -d '{"username":"admin","password":"YOUR_PASSWORD"}' \
  | python3 -c "import sys,json; print(json.load(sys.stdin)['access'])")

# Classifier des frais annexes
curl -s https://categoryclassification.aiichaa.com/api/v1/classify/ \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"frais_annexes": [{"name": "Carte Grise", "prix": "238"}, {"name": "Waxoyl", "prix": "219"}]}'

Analyser les résultats :

Items method: rules ou method: setfit → classifiés automatiquement
Items method: rules_multi_match → libellés composites, revue humaine requise
Items en A_CLASSIFIER → envoyer via /api/v1/feedback/ avec la bonne catégorie

Étape 8 — Boucle feedback → révision → réentraînement

L'application cliente collecte les items A_CLASSIFIER et envoie des corrections à POST /api/v1/feedback/
Un ticket Mantis est automatiquement créé pour chaque feedback soumis
Le responsable révise depuis l'Admin Django (lien direct dans le ticket Mantis) — il peut uniquement modifier correct_category et le statut d'approbation
Une fois les feedbacks traités, appliquer les corrections et réentraîner :

docker compose exec category_web_app python manage.py apply_feedback --retrain
docker compose restart category_web_app

Pipeline de Classification

POST /api/v1/classify/  (JWT requis)
        │
        ▼
┌─────────────────────────────────────────┐
│ Niveau 1 : RÈGLES REGEX (depuis la DB)  │
│ Déterministe, <1ms, confiance 0.95      │
│ Match unique  → catégorie               │
│ Multi-match   → A_CLASSIFIER            │
└────────────────┬────────────────────────┘
                 │ aucun match
                 ▼
┌─────────────────────────────────────────┐
│ Niveau 2 : MODÈLE SETFIT                │
│ Fine-tuné sur vos données, ~50ms/item   │
│ conf >= seuil → catégorie               │
│ conf < seuil  → A_CLASSIFIER            │
└────────────────┬────────────────────────┘
                 │ faible confiance
                 ▼
┌─────────────────────────────────────────┐
│ Niveau 3 : A_CLASSIFIER (revue humaine) │
└─────────────────────────────────────────┘

Réentraînement du modèle : ce qui se passe exactement

L'entraînement est toujours de zéro (non incrémental). Voici exactement ce que fait train_setfit :

Chargement de toutes les catégories actives et leurs exemples depuis la DB (sources : import initial + feedbacks appliqués + saisies manuelles)
Suppression de l'ancien modèle sur disque (src/classifier/fixtures/setfit_model/)
Chargement du modèle de base depuis le cache HuggingFace local (déjà dans l'image Docker — aucun téléchargement réseau)
Fine-tuning contrastif : SetFit génère des paires positives/négatives et ajuste les poids du SentenceTransformer pour que vos catégories soient bien séparées dans l'espace vectoriel
Entraînement de la tête de classification (LogisticRegression) sur les nouveaux embeddings
Sauvegarde du modèle complet sur disque
Mise à jour du cache en mémoire — mais uniquement dans le processus du management command

Le serveur web tourne dans un processus séparé. Il conserve l'ancien modèle en mémoire jusqu'au redémarrage. C'est pourquoi docker compose restart category_web_app est obligatoire après chaque entraînement.

Points importants :

Ajouter 1 seul exemple a peu d'effet — il est noyé parmi les 300+ existants
Ajouter 5 à 10 exemples variés sur une catégorie problématique a un effet mesurable
apply_feedback --retrain ajoute les feedbacks approuvés au corpus puis réentraîne
apply_feedback supprime aussi le libellé de la mauvaise catégorie s'il y était
Si un feedback entre en conflit avec une règle regex existante, il est signalé — il faut corriger la règle dans l'Admin
L'ancien modèle est irrrécupérable une fois l'entraînement lancé (pas de rollback)
Durée : ~90s sur CPU, quelle que soit la taille du corpus (jusqu'à ~500 exemples)

Boucle d'amélioration continue

  ┌────── API classifie les frais ◄──────────────────┐
  │                                                   │
  ▼                                                   │
  Items A_CLASSIFIER → client envoie POST /feedback/ │
  │                                                   │
  ▼                                                   │
  Ticket Mantis créé automatiquement                  │
  │                                                   │
  ▼                                                   │
  Responsable révise dans Django Admin                │
  (approuve / refuse / corrige la catégorie)          │
  │                                                   │
  ▼                                                   │
  manage.py apply_feedback --retrain                  │
  │                                                   │
  └───────────────────────────────────────────────────┘

Quick Start

# 1. Configurer l'environnement
cp .env.example .env
# Éditer .env avec vos valeurs (voir section Configuration)

# 2. Build et démarrage
docker compose up --build -d

# 3. Migrations
docker compose exec category_web_app python manage.py makemigrations classifier
docker compose exec category_web_app python manage.py migrate

# 4. Importer catégories, règles regex et exemples d'entraînement
docker compose exec category_web_app python manage.py import_training_data --clear

# 5. Entraîner le modèle SetFit (~90s sur CPU)
docker compose exec category_web_app python manage.py train_setfit

# 6. Redémarrer pour charger le modèle en mémoire
docker compose restart category_web_app

# 7. Obtenir un token JWT
curl -X POST http://localhost:8042/api/token/ \
  -H "Content-Type: application/json" \
  -d '{"username": "admin", "password": "adminPass"}'

Configuration

Variables d'environnement (.env)

Variable	Défaut	Description
`SECRET_KEY`	—	Clé secrète Django (obligatoire en prod)
`DEBUG`	`1`	Mode debug (`0` en production)
`ALLOWED_HOSTS`	`*`	Hôtes autorisés, séparés par virgules
`POSTGRES_DB`	`category_db`	Nom de la base de données
`POSTGRES_USER`	`appuser`	Utilisateur PostgreSQL
`POSTGRES_PASSWORD`	—	Mot de passe PostgreSQL
`DATABASE_URL`	—	URL complète (prioritaire sur les vars individuelles)
`WEB_PORT`	`8042`	Port externe Django
`DB_PORT`	`5434`	Port externe PostgreSQL
`MANTIS_ENABLED`	`0`	Activer l'intégration Mantis (`1`/`0`)
`MANTIS_URL`	—	URL de l'instance Mantis (ex: `https://mantis.example.com`)
`MANTIS_TOKEN`	—	Token API Mantis
`MANTIS_PROJECT_NAME`	—	Nom exact du projet dans Mantis

Important : après toute modification du .env, utiliser docker compose up -d (pas restart) pour que les nouvelles variables soient injectées dans le conteneur.

Ports

Service	Port interne (conteneur)	Port externe (hôte)
Django	8000	8042 (configurable via `WEB_PORT`)
PostgreSQL	5432	5434 (configurable via `DB_PORT`)

Authentification (JWT)

Tous les endpoints sauf /api/v1/status/ nécessitent un token Bearer JWT.

# Obtenir un token
curl -X POST http://localhost:8042/api/token/ \
  -H "Content-Type: application/json" \
  -d '{"username": "admin", "password": "adminPass"}'

# Utiliser le token
curl http://localhost:8042/api/v1/categories/ \
  -H "Authorization: Bearer eyJ..."

# Rafraîchir un token expiré (expire après 5 minutes)
curl -X POST http://localhost:8042/api/token/refresh/ \
  -H "Content-Type: application/json" \
  -d '{"refresh": "eyJ..."}'

Throttling : 100 req/min pour les accès anonymes, 1000 req/min pour les accès authentifiés.

API Endpoints

Endpoint	Méthode	Auth	Description
`/`	GET	Non	Homepage (ce document)
`/api/token/`	POST	Non	Obtenir un JWT
`/api/token/refresh/`	POST	Non	Rafraîchir un JWT
`/api/v1/status/`	GET	Non	Statut du moteur (règles, modèle, stats)
`/api/v1/categories/`	GET	Bearer	Liste des catégories actives
`/api/v1/classify/`	POST	Bearer	Classifier des frais annexes
`/api/v1/feedback/`	POST	Bearer	Soumettre une correction

Classifier des frais (`POST /api/v1/classify/`)

{
  "frais_annexes": [
    {"name": "Carte Grise (hors malus éventuel)", "prix": "238,00"},
    {"name": "Waxoyl", "prix": "219,00"},
    {"name": "immat + transport", "prix": "450,00"}
  ],
  "confidence_threshold": 0.55
}

Réponse :

{
  "frais_annexes": {
    "carte_grise": [
      {"name": "carte_grise_1", "code": "Carte Grise (hors malus éventuel)",
       "prix": "238,00", "confidence": 0.95, "method": "rules"}
    ],
    "traitement_carrosserie": [
      {"name": "traitement_carrosserie_1", "code": "Waxoyl",
       "prix": "219,00", "confidence": 0.95, "method": "rules"}
    ],
    "A_CLASSIFIER": [
      {"name": "A_CLASSIFIER_1", "code": "immat + transport",
       "prix": "450,00", "confidence": 0.0, "method": "rules_multi_match",
       "matched_categories": ["frais_administratif", "transport_livraison"],
       "needs_review": true}
    ]
  },
  "meta": {
    "total_items": 3, "classified": 2, "needs_review": 1,
    "processing_time_ms": 14.2,
    "methods": {"rules": 2, "rules_multi_match": 1, "setfit": 0}
  }
}

Soumettre un feedback (`POST /api/v1/feedback/`)

{
  "original_libelle": "Frais Aménagement DANGEL",
  "predicted_category": "A_CLASSIFIER",
  "correct_category": "options_vehicule",
  "notes": "DANGEL = kit aménagement 4x4"
}

Les 15 catégories (+ A_CLASSIFIER)

Catégorie	Description	Fréquence
`carte_grise`	Certificat d'immatriculation, taxes, redevances	~45%
`carburant`	Plein essence/diesel, charge électrique, câble	~11%
`accessoires`	Tapis, plaques luxe, Fix&Go, attelage	~8%
`frais_administratif`	Démarches, courtage, immatriculation hors CG	~6.5%
`garantie_extension`	Roole Confort, Coyote, Forfait Sérénité	~5.5%
`gravage`	Nomblot, Eurodatacar, marquage antivol	~5.5%
`traitement_carrosserie`	Waxoyl, PowerShine, céramique, lustrage	~5.5%
`aides_gouvernementales`	Malus CO2, bonus écologique, prime CEE	~4%
`pack_securite`	Gilet + triangle, extincteur, Crit'Air	~3.5%
`mise_a_la_route`	Préparation véhicule avant livraison	~2.3%
`autres_prestations`	Nettoyage, installation, services divers	~1%
`transport_livraison`	Transport, convoyage, mise à disposition	~0.3%
`options_vehicule`	Peinture métallisée, toit ouvrant, packs constructeur	~0.2%
`remise_commerciale`	Péréquation, remise, renfort LOA	~0.1%
`contrat_entretien`	Maintenance Plus, Allure Care, FlexCare	<0.1%
`A_CLASSIFIER`	Revue humaine obligatoire	~2-5%

Chaque catégorie porte des métadonnées comptables gérées dans l'Admin :

code_comptable : compte du Plan Comptable Général (ex: 6354, 607)
tva : régime TVA (ex: TVA 20%, Hors champ TVA, Mixte : Assurance exonérée / Services TVA 20%)

Management Commands

`import_training_data` — Import des données initiales

Importe catégories, exemples d'entraînement et règles regex depuis les fichiers JSON de src/classifier/fixtures/.

docker compose exec category_web_app python manage.py import_training_data --clear    # clean install
docker compose exec category_web_app python manage.py import_training_data            # incremental
docker compose exec category_web_app python manage.py import_training_data --dry-run  # preview
docker compose exec category_web_app python manage.py import_training_data --skip-rules

`train_setfit` — Entraîner le modèle SetFit

docker compose exec category_web_app python manage.py train_setfit             # entraînement
docker compose exec category_web_app python manage.py train_setfit --evaluate  # + évaluation
docker compose exec category_web_app python manage.py train_setfit --dry-run   # preview données
docker compose restart category_web_app  # OBLIGATOIRE après chaque entraînement

`apply_feedback` — Appliquer les corrections humaines

Traite les feedbacks approuvés : ajoute les libellés comme exemples d'entraînement dans la bonne catégorie, les retire de la mauvaise, et signale les conflits avec les règles regex.

docker compose exec category_web_app python manage.py apply_feedback --dry-run   # preview
docker compose exec category_web_app python manage.py apply_feedback --retrain   # appliquer + réentraîner
docker compose restart category_web_app

Modèles de données

Modèle	Rôle
`Category`	Catégories de classification (clé, nom, TVA, code PCG)
`CategoryRule`	Règles regex par catégorie (pattern, priorité, description)
`TrainingExample`	Libellés d'entraînement par catégorie (source : import / feedback / manuel)
`ClassificationLog`	Journal de chaque appel API de classification (traçabilité)
`ClassificationFeedback`	Corrections humaines — statut : en attente / approuvé / refusé
`TrainingRun`	Historique des entraînements (précision, durée, nombre d'exemples)

Prérequis système

Composant	Taille
Image Docker (Python 3.12 + PyTorch CPU + transformers + SetFit)	~2.5 GB
Modèle de base HuggingFace (`paraphrase-multilingual-MiniLM-L12-v2`)	~500 MB
Modèle fine-tuné (`setfit_model/`)	~500 MB
Image PostgreSQL 16	~400 MB
Marge (logs, cache pip, rebuilds)	~2 GB
Total recommandé	~6-8 GB

RAM : ~1.5 GB en inférence, ~2-3 GB pendant l'entraînement.

PyTorch est installé en variante CPU uniquement (index https://download.pytorch.org/whl/cpu) pour éviter de tirer la version CUDA de 8 GB. Cette installation se fait dans une couche Docker séparée, avant la copie de requirements.txt, ce qui évite de re-télécharger PyTorch à chaque changement de dépendances.

Architecture des fichiers

src/
├── config/
│   ├── settings.py     # JWT, throttling, DB, Mantis
│   ├── urls.py         # Routes : homepage, admin, JWT, api/v1/
│   └── views.py        # Homepage — rendu de ce README en HTML
└── classifier/
    ├── engine/
    │   ├── categories.py   # Cache des catégories depuis la DB
    │   ├── rules.py        # Niveau 1 : regex + détection multi-match
    │   ├── embeddings.py   # Niveau 2 : SetFit (chargement, inférence, entraînement)
    │   └── classifier.py   # Orchestrateur du pipeline (règles → SetFit → fallback)
    ├── fixtures/
    │   ├── training_data.json   # Snapshot des exemples d'entraînement
    │   ├── regex_rules.json     # Snapshot des règles regex
    │   └── setfit_model/        # Modèle fine-tuné (généré par train_setfit, gitignored)
    ├── management/commands/
    │   ├── import_training_data.py  # JSON fixtures → DB
    │   ├── train_setfit.py          # Entraînement SetFit depuis la DB
    │   └── apply_feedback.py        # Feedbacks approuvés → exemples d'entraînement
    ├── models.py        # Category, CategoryRule, TrainingExample, logs, feedbacks
    ├── serializers.py
    ├── views.py         # Endpoints API (JWT-protected)
    ├── admin.py         # Interface d'administration Django
    └── services.py      # Intégration Mantis Bug Tracker

Tests

docker compose exec category_web_app python manage.py test classifier -v2

Un jeu de test complet de 86 items couvrant toutes les catégories et les cas limites est disponible dans postman/test_classify_body.json.