Benchmark IA LLM RH – Cas d’usage 1 : FAQ Congés & RTT

Benchmark LLM RH – Cas d’usage 1 : FAQ Congés & RTT

Dans ce premier cas d’usage, Noroit a testé cinq LLM open‑weight sur un scénario très concret : répondre aux questions récurrentes des collaborateurs sur les congés payés et les RTT dans l’entreprise fictive NoroTech Services.

Les modèles évalués :

  • DeepSeek‑R1 14B (DeepSeek, 🇨🇳 Chine)
  • Gemma 3:12B (Google, 🇺🇸 États‑Unis)
  • Ministral‑3 14B (Mistral AI, 🇫🇷 France)
  • Phi‑4 14B (Microsoft, 🇺🇸 États‑Unis)
  • Qwen3 14B (Alibaba, 🇨🇳 Chine)

L’objectif : identifier quel LLM est le plus fiable et le plus pédagogique pour une FAQ RH “Congés & RTT” intégrée à un futur assistant IA RH.


1. Rappel des règles Congés & RTT chez NoroTech

Base de vérité utilisée pour le benchmark :

  • Congés payés : 25 jours ouvrés/an pour tout salarié à temps plein.
  • RTT :
    • 10 jours/an pour les cadres au forfait 39h ;
    • 0 RTT pour les non‑cadres à 35h.
  • Demandes de congés / RTT :
    • via MyHR > Congés & Absences uniquement ;
    • validation obligatoire par le manager ;
    • saisie au moins 5 jours ouvrés à l’avance, sauf exception validée par le manager.
  • Report de congés :
    • congés de l’année N à prendre jusqu’au 31/05 de l’année N+1 ;
    • au‑delà, congés perdus sauf accord écrit manager + RH.

Toutes les réponses des LLM sont évaluées par rapport à ce référentiel.


2. Méthodologie du cas d’usage 1 – FAQ Congés & RTT

Les 5 modèles ont été testés avec le même prompt système d’assistant IA RH NoroTech (ton professionnel, bienveillant, format “1 phrase + puces”, rappel des canaux MyHR / RH / manager).

Cinq questions types ont été posées :

  1. Combien de jours de congés payés j’ai par an chez NoroTech en CDI à temps plein ?
  2. Je suis cadre au forfait 39h, à combien de jours de RTT ai‑je droit ?
  3. Jusqu’à quand je peux poser mes congés de 2024 avant qu’ils soient perdus ?
  4. Comment je dois faire pour poser une semaine de congés en avril ?
  5. Je veux prendre des congés pour la semaine prochaine mais on est déjà vendredi, est‑ce possible ?

Les réponses ont été analysées selon :

  • Conformité aux règles RH
  • Fidélité à la base de connaissances (pas d’invention)
  • Format & pédagogie (phrase + puces utiles)
  • Gestion des exceptions (demande tardive, report, etc.)

3. Principaux enseignements qualitatifs

En résumé de l’analyse détaillée :

  • Tous les LLM donnent les bons chiffres :
    • 25 jours de congés payés ;
    • 10 jours de RTT pour les cadres au forfait 39h ;
    • date limite du 31 mai N+1 pour les congés.
  • Tous renvoient correctement vers MyHR > Congés & Absences et mentionnent le manager pour la validation.
  • Les différences se jouent sur :
    • la précision dans l’application de la règle des 5 jours ouvrés ;
    • la gestion des exceptions (demande au dernier moment) ;
    • la tendance à extrapoler des règles non écrites ;
    • la clarté et la pédagogie des réponses.

Par exemple :

  • Sur la question “vendredi pour la semaine prochaine”, Ministral‑3, Qwen3 et Phi‑4 gèrent très bien la nuance “règle + exception managériale”, là où DeepSeek‑R1 répond d’abord de manière trop catégorique (“non”) avant de mentionner une possible exception.
  • Qwen3 et DeepSeek‑R1 ont parfois tendance à extrapoler : date limite des RTT alignée sur les congés sans que ce soit indiqué, référence à une note Mutuelle dans une réponse sur les congés, etc.

4. Tableau de scores /10 – Cas d’usage 1 : FAQ Congés & RTT

Pour visualiser rapidement les performances, voici un tableau de scores /10 par critère et par LLM (évaluation qualitative basée sur la lecture des réponses).

Critère / ModèleGemma 3Phi‑4Ministral‑3Qwen3DeepSeek‑R1
Exactitude des règles (25j CP, 10 RTT, 31/05 N+1)1010101010
Respect des canaux (MyHR, manager, RH)9910109
Application de la règle des 5 jours ouvrés991099
Gestion des exceptions (demande tardive : vendredi pour la semaine suivante)791095
Fidélité à la base de connaissances (pas d’extrapolation de règles)991077
Clarté, structure & pédagogie (phrase + puces utiles, ton bienveillant)881098
Score moyen (indicatif)8,79,010,09,08,0

5. Lecture du tableau : forces et faiblesses par LLM

Ministral‑3 14B – Le meilleur candidat sur la FAQ Congés & RTT

  • 10/10 sur tous les critères : exactitude, canaux, exceptions, fidélité, pédagogie.
  • Gère très bien la règle des 5 jours et les exceptions managériales (cas “vendredi pour la semaine prochaine”).
  • Réponses parfaitement alignées avec le format souhaité pour l’assistant IA RH (phrase de synthèse + puces actionnables).

Phi‑4 14B – Très bon équilibre rigueur / nuance

  • Score moyen 9/10.
  • Très bon respect des règles et des canaux ; gestion correcte des exceptions avec renvoi vers le manager.
  • Style légèrement plus compact, mais entièrement exploitable pour une FAQ RH.

Qwen3 14B – Très pédagogique, mais à recadrer sur la fidélité

  • Score moyen 9/10 également.
  • Réponses riches, très claires, très bien structurées.
  • Tendance à extrapoler certaines règles (ex. date limite RTT, référence à une note Mutuelle pour parler de congés) → à encadrer via le prompt et la gouvernance.

Gemma 3 12B – Solide et fiable, mais un peu neutre sur les cas limites

  • Score moyen 8,7/10.
  • Très bon sur les chiffres et les canaux, format propre.
  • Gestion des situations “borderline” (demande tardive) un peu générique, sans expliciter suffisamment le caractère exceptionnel.

DeepSeek‑R1 14B – Correct mais trop rigide pour une FAQ Congés

  • Score moyen 8/10.
  • Bon sur les règles de base et les canaux, format clair.
  • Problème principal : trop de rigidité sur les demandes tardives (commence par un “non” catégorique alors que la règle prévoit des exceptions managériales) + quelques extrapolations.

6. Conclusion : quel LLM pour une FAQ Congés & RTT ?

Sur ce premier cas d’usage, tous les LLM sont globalement utilisables pour une FAQ Congés & RTT, mais à des degrés différents de confiance :

  • Ministral‑3 ressort comme meilleur candidat :
    • très bon respect des règles NoroTech,
    • excellente pédagogie,
    • gestion fine des exceptions.
  • Phi‑4 et Qwen3 constituent deux alternatives sérieuses :
    • Phi‑4 pour un style plus sobre et rigoureux,
    • Qwen3 pour des réponses très pédagogiques mais à encadrer un peu plus sur la fidélité stricte à la base de connaissances.
  • Gemma 3 est une option solide pour des scénarios simples et standard.
  • DeepSeek‑R1 devra être plus étroitement encadré (prompt + garde‑fous) pour gérer correctement les cas limites et éviter les extrapolations de règles.

Laisser un commentaire

Retour en haut

En savoir plus sur Noroit

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture