Comparatif gpt-oss/ministral/qwen/deepseek assistant IA RH Congés RTT

Benchmark LLM RH – Cas d’usage 1 : FAQ Congés & RTT

Dans ce premier cas d’usage, Noroit a testé cinq LLM open‑weight sur un scénario très concret : répondre aux questions récurrentes des collaborateurs sur les congés payés et les RTT dans l’entreprise fictive NoroTech Services.

Les modèles évalués :

DeepSeek‑R1 14B (DeepSeek, 🇨🇳 Chine)
Gemma 3:12B (Google, 🇺🇸 États‑Unis)
Ministral‑3 14B (Mistral AI, 🇫🇷 France)
Phi‑4 14B (Microsoft, 🇺🇸 États‑Unis)
Qwen3 14B (Alibaba, 🇨🇳 Chine)

L’objectif : identifier quel LLM est le plus fiable et le plus pédagogique pour une FAQ RH “Congés & RTT” intégrée à un futur assistant IA RH.

1. Rappel des règles Congés & RTT chez NoroTech

Base de vérité utilisée pour le benchmark :

Congés payés : 25 jours ouvrés/an pour tout salarié à temps plein.
RTT :
- 10 jours/an pour les cadres au forfait 39h ;
- 0 RTT pour les non‑cadres à 35h.
Demandes de congés / RTT :
- via MyHR > Congés & Absences uniquement ;
- validation obligatoire par le manager ;
- saisie au moins 5 jours ouvrés à l’avance, sauf exception validée par le manager.
Report de congés :
- congés de l’année N à prendre jusqu’au 31/05 de l’année N+1 ;
- au‑delà, congés perdus sauf accord écrit manager + RH.

Toutes les réponses des LLM sont évaluées par rapport à ce référentiel.

2. Méthodologie du cas d’usage 1 – FAQ Congés & RTT

Les 5 modèles ont été testés avec le même prompt système d’assistant IA RH NoroTech (ton professionnel, bienveillant, format “1 phrase + puces”, rappel des canaux MyHR / RH / manager).

Cinq questions types ont été posées :

Combien de jours de congés payés j’ai par an chez NoroTech en CDI à temps plein ?
Je suis cadre au forfait 39h, à combien de jours de RTT ai‑je droit ?
Jusqu’à quand je peux poser mes congés de 2024 avant qu’ils soient perdus ?
Comment je dois faire pour poser une semaine de congés en avril ?
Je veux prendre des congés pour la semaine prochaine mais on est déjà vendredi, est‑ce possible ?

Les réponses ont été analysées selon :

Conformité aux règles RH
Fidélité à la base de connaissances (pas d’invention)
Format & pédagogie (phrase + puces utiles)
Gestion des exceptions (demande tardive, report, etc.)

3. Principaux enseignements qualitatifs

En résumé de l’analyse détaillée :

Tous les LLM donnent les bons chiffres :
- 25 jours de congés payés ;
- 10 jours de RTT pour les cadres au forfait 39h ;
- date limite du 31 mai N+1 pour les congés.
Tous renvoient correctement vers MyHR > Congés & Absences et mentionnent le manager pour la validation.
Les différences se jouent sur :
- la précision dans l’application de la règle des 5 jours ouvrés ;
- la gestion des exceptions (demande au dernier moment) ;
- la tendance à extrapoler des règles non écrites ;
- la clarté et la pédagogie des réponses.

Par exemple :

Sur la question “vendredi pour la semaine prochaine”, Ministral‑3, Qwen3 et Phi‑4 gèrent très bien la nuance “règle + exception managériale”, là où DeepSeek‑R1 répond d’abord de manière trop catégorique (“non”) avant de mentionner une possible exception.
Qwen3 et DeepSeek‑R1 ont parfois tendance à extrapoler : date limite des RTT alignée sur les congés sans que ce soit indiqué, référence à une note Mutuelle dans une réponse sur les congés, etc.

4. Tableau de scores /10 – Cas d’usage 1 : FAQ Congés & RTT

Pour visualiser rapidement les performances, voici un tableau de scores /10 par critère et par LLM (évaluation qualitative basée sur la lecture des réponses).

Critère / Modèle	Gemma 3	Phi‑4	Ministral‑3	Qwen3	DeepSeek‑R1
Exactitude des règles (25j CP, 10 RTT, 31/05 N+1)	10	10	10	10	10
Respect des canaux (MyHR, manager, RH)	9	9	10	10	9
Application de la règle des 5 jours ouvrés	9	9	10	9	9
Gestion des exceptions (demande tardive : vendredi pour la semaine suivante)	7	9	10	9	5
Fidélité à la base de connaissances (pas d’extrapolation de règles)	9	9	10	7	7
Clarté, structure & pédagogie (phrase + puces utiles, ton bienveillant)	8	8	10	9	8
Score moyen (indicatif)	8,7	9,0	10,0	9,0	8,0

5. Lecture du tableau : forces et faiblesses par LLM

Ministral‑3 14B – Le meilleur candidat sur la FAQ Congés & RTT

10/10 sur tous les critères : exactitude, canaux, exceptions, fidélité, pédagogie.
Gère très bien la règle des 5 jours et les exceptions managériales (cas “vendredi pour la semaine prochaine”).
Réponses parfaitement alignées avec le format souhaité pour l’assistant IA RH (phrase de synthèse + puces actionnables).

Phi‑4 14B – Très bon équilibre rigueur / nuance

Score moyen 9/10.
Très bon respect des règles et des canaux ; gestion correcte des exceptions avec renvoi vers le manager.
Style légèrement plus compact, mais entièrement exploitable pour une FAQ RH.

Qwen3 14B – Très pédagogique, mais à recadrer sur la fidélité

Score moyen 9/10 également.
Réponses riches, très claires, très bien structurées.
Tendance à extrapoler certaines règles (ex. date limite RTT, référence à une note Mutuelle pour parler de congés) → à encadrer via le prompt et la gouvernance.

Gemma 3 12B – Solide et fiable, mais un peu neutre sur les cas limites

Score moyen 8,7/10.
Très bon sur les chiffres et les canaux, format propre.
Gestion des situations “borderline” (demande tardive) un peu générique, sans expliciter suffisamment le caractère exceptionnel.

DeepSeek‑R1 14B – Correct mais trop rigide pour une FAQ Congés

Score moyen 8/10.
Bon sur les règles de base et les canaux, format clair.
Problème principal : trop de rigidité sur les demandes tardives (commence par un “non” catégorique alors que la règle prévoit des exceptions managériales) + quelques extrapolations.

6. Conclusion : quel LLM pour une FAQ Congés & RTT ?

Sur ce premier cas d’usage, tous les LLM sont globalement utilisables pour une FAQ Congés & RTT, mais à des degrés différents de confiance :

Ministral‑3 ressort comme meilleur candidat :
- très bon respect des règles NoroTech,
- excellente pédagogie,
- gestion fine des exceptions.
Phi‑4 et Qwen3 constituent deux alternatives sérieuses :
- Phi‑4 pour un style plus sobre et rigoureux,
- Qwen3 pour des réponses très pédagogiques mais à encadrer un peu plus sur la fidélité stricte à la base de connaissances.
Gemma 3 est une option solide pour des scénarios simples et standard.
DeepSeek‑R1 devra être plus étroitement encadré (prompt + garde‑fous) pour gérer correctement les cas limites et éviter les extrapolations de règles.

Benchmark IA LLM RH – Cas d’usage 1 : FAQ Congés & RTT

1. Rappel des règles Congés & RTT chez NoroTech

2. Méthodologie du cas d’usage 1 – FAQ Congés & RTT

3. Principaux enseignements qualitatifs

4. Tableau de scores /10 – Cas d’usage 1 : FAQ Congés & RTT

5. Lecture du tableau : forces et faiblesses par LLM

Ministral‑3 14B – Le meilleur candidat sur la FAQ Congés & RTT

Phi‑4 14B – Très bon équilibre rigueur / nuance

Qwen3 14B – Très pédagogique, mais à recadrer sur la fidélité

Gemma 3 12B – Solide et fiable, mais un peu neutre sur les cas limites

DeepSeek‑R1 14B – Correct mais trop rigide pour une FAQ Congés

6. Conclusion : quel LLM pour une FAQ Congés & RTT ?

J’aime ça :

Similaire

Laisser un commentaireAnnuler la réponse.

1. Rappel des règles Congés & RTT chez NoroTech

2. Méthodologie du cas d’usage 1 – FAQ Congés & RTT

3. Principaux enseignements qualitatifs

4. Tableau de scores /10 – Cas d’usage 1 : FAQ Congés & RTT

5. Lecture du tableau : forces et faiblesses par LLM

Ministral‑3 14B – Le meilleur candidat sur la FAQ Congés & RTT

Phi‑4 14B – Très bon équilibre rigueur / nuance

Qwen3 14B – Très pédagogique, mais à recadrer sur la fidélité

Gemma 3 12B – Solide et fiable, mais un peu neutre sur les cas limites

DeepSeek‑R1 14B – Correct mais trop rigide pour une FAQ Congés

6. Conclusion : quel LLM pour une FAQ Congés & RTT ?

Partager :

J’aime ça :

Similaire

Laisser un commentaireAnnuler la réponse.

En savoir plus sur Noroit