
Dans ce premier cas d’usage, Noroit a testé cinq LLM open‑weight sur un scénario très concret : répondre aux questions récurrentes des collaborateurs sur les congés payés et les RTT dans l’entreprise fictive NoroTech Services.
Les modèles évalués :
- DeepSeek‑R1 14B (DeepSeek, 🇨🇳 Chine)
- Gemma 3:12B (Google, 🇺🇸 États‑Unis)
- Ministral‑3 14B (Mistral AI, 🇫🇷 France)
- Phi‑4 14B (Microsoft, 🇺🇸 États‑Unis)
- Qwen3 14B (Alibaba, 🇨🇳 Chine)
L’objectif : identifier quel LLM est le plus fiable et le plus pédagogique pour une FAQ RH “Congés & RTT” intégrée à un futur assistant IA RH.
1. Rappel des règles Congés & RTT chez NoroTech
Base de vérité utilisée pour le benchmark :
- Congés payés : 25 jours ouvrés/an pour tout salarié à temps plein.
- RTT :
- 10 jours/an pour les cadres au forfait 39h ;
- 0 RTT pour les non‑cadres à 35h.
- Demandes de congés / RTT :
- via MyHR > Congés & Absences uniquement ;
- validation obligatoire par le manager ;
- saisie au moins 5 jours ouvrés à l’avance, sauf exception validée par le manager.
- Report de congés :
- congés de l’année N à prendre jusqu’au 31/05 de l’année N+1 ;
- au‑delà, congés perdus sauf accord écrit manager + RH.
Toutes les réponses des LLM sont évaluées par rapport à ce référentiel.
2. Méthodologie du cas d’usage 1 – FAQ Congés & RTT
Les 5 modèles ont été testés avec le même prompt système d’assistant IA RH NoroTech (ton professionnel, bienveillant, format “1 phrase + puces”, rappel des canaux MyHR / RH / manager).
Cinq questions types ont été posées :
- Combien de jours de congés payés j’ai par an chez NoroTech en CDI à temps plein ?
- Je suis cadre au forfait 39h, à combien de jours de RTT ai‑je droit ?
- Jusqu’à quand je peux poser mes congés de 2024 avant qu’ils soient perdus ?
- Comment je dois faire pour poser une semaine de congés en avril ?
- Je veux prendre des congés pour la semaine prochaine mais on est déjà vendredi, est‑ce possible ?
Les réponses ont été analysées selon :
- Conformité aux règles RH
- Fidélité à la base de connaissances (pas d’invention)
- Format & pédagogie (phrase + puces utiles)
- Gestion des exceptions (demande tardive, report, etc.)
3. Principaux enseignements qualitatifs
En résumé de l’analyse détaillée :
- Tous les LLM donnent les bons chiffres :
- 25 jours de congés payés ;
- 10 jours de RTT pour les cadres au forfait 39h ;
- date limite du 31 mai N+1 pour les congés.
- Tous renvoient correctement vers MyHR > Congés & Absences et mentionnent le manager pour la validation.
- Les différences se jouent sur :
- la précision dans l’application de la règle des 5 jours ouvrés ;
- la gestion des exceptions (demande au dernier moment) ;
- la tendance à extrapoler des règles non écrites ;
- la clarté et la pédagogie des réponses.
Par exemple :
- Sur la question “vendredi pour la semaine prochaine”, Ministral‑3, Qwen3 et Phi‑4 gèrent très bien la nuance “règle + exception managériale”, là où DeepSeek‑R1 répond d’abord de manière trop catégorique (“non”) avant de mentionner une possible exception.
- Qwen3 et DeepSeek‑R1 ont parfois tendance à extrapoler : date limite des RTT alignée sur les congés sans que ce soit indiqué, référence à une note Mutuelle dans une réponse sur les congés, etc.
4. Tableau de scores /10 – Cas d’usage 1 : FAQ Congés & RTT
Pour visualiser rapidement les performances, voici un tableau de scores /10 par critère et par LLM (évaluation qualitative basée sur la lecture des réponses).
| Critère / Modèle | Gemma 3 | Phi‑4 | Ministral‑3 | Qwen3 | DeepSeek‑R1 |
|---|---|---|---|---|---|
| Exactitude des règles (25j CP, 10 RTT, 31/05 N+1) | 10 | 10 | 10 | 10 | 10 |
| Respect des canaux (MyHR, manager, RH) | 9 | 9 | 10 | 10 | 9 |
| Application de la règle des 5 jours ouvrés | 9 | 9 | 10 | 9 | 9 |
| Gestion des exceptions (demande tardive : vendredi pour la semaine suivante) | 7 | 9 | 10 | 9 | 5 |
| Fidélité à la base de connaissances (pas d’extrapolation de règles) | 9 | 9 | 10 | 7 | 7 |
| Clarté, structure & pédagogie (phrase + puces utiles, ton bienveillant) | 8 | 8 | 10 | 9 | 8 |
| Score moyen (indicatif) | 8,7 | 9,0 | 10,0 | 9,0 | 8,0 |
5. Lecture du tableau : forces et faiblesses par LLM
Ministral‑3 14B – Le meilleur candidat sur la FAQ Congés & RTT
- 10/10 sur tous les critères : exactitude, canaux, exceptions, fidélité, pédagogie.
- Gère très bien la règle des 5 jours et les exceptions managériales (cas “vendredi pour la semaine prochaine”).
- Réponses parfaitement alignées avec le format souhaité pour l’assistant IA RH (phrase de synthèse + puces actionnables).
Phi‑4 14B – Très bon équilibre rigueur / nuance
- Score moyen 9/10.
- Très bon respect des règles et des canaux ; gestion correcte des exceptions avec renvoi vers le manager.
- Style légèrement plus compact, mais entièrement exploitable pour une FAQ RH.
Qwen3 14B – Très pédagogique, mais à recadrer sur la fidélité
- Score moyen 9/10 également.
- Réponses riches, très claires, très bien structurées.
- Tendance à extrapoler certaines règles (ex. date limite RTT, référence à une note Mutuelle pour parler de congés) → à encadrer via le prompt et la gouvernance.
Gemma 3 12B – Solide et fiable, mais un peu neutre sur les cas limites
- Score moyen 8,7/10.
- Très bon sur les chiffres et les canaux, format propre.
- Gestion des situations “borderline” (demande tardive) un peu générique, sans expliciter suffisamment le caractère exceptionnel.
DeepSeek‑R1 14B – Correct mais trop rigide pour une FAQ Congés
- Score moyen 8/10.
- Bon sur les règles de base et les canaux, format clair.
- Problème principal : trop de rigidité sur les demandes tardives (commence par un “non” catégorique alors que la règle prévoit des exceptions managériales) + quelques extrapolations.
6. Conclusion : quel LLM pour une FAQ Congés & RTT ?
Sur ce premier cas d’usage, tous les LLM sont globalement utilisables pour une FAQ Congés & RTT, mais à des degrés différents de confiance :
- Ministral‑3 ressort comme meilleur candidat :
- très bon respect des règles NoroTech,
- excellente pédagogie,
- gestion fine des exceptions.
- Phi‑4 et Qwen3 constituent deux alternatives sérieuses :
- Phi‑4 pour un style plus sobre et rigoureux,
- Qwen3 pour des réponses très pédagogiques mais à encadrer un peu plus sur la fidélité stricte à la base de connaissances.
- Gemma 3 est une option solide pour des scénarios simples et standard.
- DeepSeek‑R1 devra être plus étroitement encadré (prompt + garde‑fous) pour gérer correctement les cas limites et éviter les extrapolations de règles.
