Benchmark IA LLM – Cas d’usage 10 : Transformer la documentation RH en réponses compréhensibles

Transformer la documentation RH en réponses compréhensibles : quel LLM est le plus pédagogue ?

Ce dixième cas d’usage sort des questions “classiques” de FAQ pour tester autre chose : la capacité des LLM à réécrire, simplifier et vulgariser la documentation RH interne de NoroTech pour des collaborateurs qui ne maîtrisent ni le droit du travail ni le jargon RH.

Les modèles évalués :

  • Gemma 3 12B – Google
  • Phi‑4 14B – Microsoft
  • Ministral‑3 14B – Mistral AI
  • Qwen3 14B – Alibaba
  • DeepSeek‑R1 14B – DeepSeek

Objectif : identifier quels modèles sont les plus pédagogues, sans déformer les règles RH.


1. Ce que couvre le cas d’usage 10

Trois types de demandes ont été testés à partir de vrais extraits de la base de connaissances RH (congés/RTT, télétravail, procédures) :

  1. Vulgarisation congés/RTT « Peux-tu m’expliquer ces règles comme si j’étais un nouveau collaborateur qui ne connaît pas le droit du travail ? »
  2. Synthèse télétravail en 5 puces « Résume-moi en 5 bullet points la politique de télétravail de NoroTech. »
  3. Réécriture orientée “production” « Reformule cette procédure pour qu’elle soit plus simple à comprendre pour un collaborateur de production. »

Les critères d’analyse :

  • Qualité de la simplification (on rend les règles plus accessibles, sans les trahir).
  • Respect strict du format demandé (5 puces, ton simple, ciblage “nouveau collaborateur”, “production”…).
  • Absence de déformation des règles RH (pas de “congés non payés”, pas de nouvelle politique inventée).

2. Vulgariser les congés & RTT pour un nouveau collaborateur

Rappel du texte source (extrait)

  • 25 jours ouvrés de congés payés/an pour tout temps plein.
  • 10 jours de RTT/an pour les cadres au forfait 39h, 0 RTT pour les non‑cadres à 35h.
  • Demandes via MyHR > Congés & Absences, 5 jours ouvrés à l’avance.
  • Congés N à prendre jusqu’au 31/05 N+1, sinon perdus (sauf accord écrit manager + RH).

Comportement des modèles

  • Ministral‑3
    • Réécriture très structurée, avec des titres clairs : Vos droits en congés, Les RTT, Comment demander vos congés, À retenir, Besoin d’aide.
    • Exemple concret sur le calcul du solde (25 – 5 = 20 jours restants).
    • Rappelle MyHR, le délai de 5 jours, la date du 31/05 et le mail RH.
      Excellent niveau de pédagogie, sans erreur de fond.
  • Qwen3
    • Ton accessible, mais plusieurs problèmes :
      • parle de “10 jours supplémentaires de congés non payés” pour les RTT (contradiction : RTT ne sont pas des congés non payés) ;
      • approximation “1 jour par mois” pour 25 jours, qui n’existe pas dans les règles ;
      • mélange “urgence (maladie)” avec la règle des 5 jours d’anticipation.
        → Bonne intention pédagogique, mais trop de petites déformations.
  • DeepSeek‑R1
    • Explication simple et structurée :
      • 25 jours de congés ;
      • 10 jours de RTT pour cadres 39h ;
      • 0 RTT pour non‑cadres 35h ;
      • procédure MyHR, délai 5 jours, date du 31/05.
    • Se trompe sur le nom de RTT (“Récupération” au lieu de “Réduction”), mais ce n’est pas bloquant.
      Très correct sur le fond et assez pédagogique.
  • Gemma 3
    • Réponse concise, très proche du texte d’origine mais avec un ton plus simple.
    • Réaffirme correctement les règles (25 jours, 10 RTT pour cadres, 0 RTT, MyHR, 5 jours, 31/05, accord écrit).
      → Peu de “mise en scène”, mais aucune déformation.
  • Phi‑4
    • Fait un effort de vulgarisation : insiste sur “vous continuez à percevoir votre salaire”, explique les RTT comme jours de repos supplémentaires, etc.
    • Rappelle MyHR, le délai de 5 jours, la date du 31/05 et l’accord écrit pour le report.
      Bonne reformulation pédagogique, fidèle aux règles.

👉 Sur ce premier test, Ministral‑3, Phi‑4, Gemma 3 et DeepSeek‑R1 produisent de très bonnes vulgarisations. Qwen3, lui, est pénalisé par des approximations qui changent le sens.


3. Résumer la politique télétravail en 5 bullet points

Ici, on teste à la fois la capacité de synthèse et le respect du format (exactement 5 puces, claires).

Ce que la politique télétravail dit (en résumé)

  • Fonctions support / IT / back‑office : jusqu’à 3 jours de télétravail/semaine, 2 jours min sur site.
  • Période d’essai : 1 jour/semaine max.
  • Production Lille : télétravail non autorisé, sauf cas administratif exceptionnel validé RH.
  • Demandes via MyHR > Télétravail, validation manager.
  • Document de référence : « Politique Télétravail v2 – France ».

Comportement des modèles

  • Ministral‑3, Gemma 3, Phi‑4
    • Donnent tous 5 puces très propres, reprenant :
      • éligibilité fonctions support / IT / back‑office ;
      • 3 jours max / 2 jours min ;
      • 1 jour en période d’essai ;
      • interdiction production (Lille) sauf exception RH ;
      • demande via MyHR + document de référence.
        Format parfaitement respecté, fidèle à la politique.
  • Qwen3
    • 5 puces correctes sur éligibilité, production, période d’essai, procédure MyHR.
    • Dernière puce sur la flexibilité des horaires 9h–12h / 14h–17h, qui est bien une règle RH mais pas au cœur de la “politique télétravail”.
      → Synthèse un peu moins focalisée sur le sujet.
  • DeepSeek‑R1
    • 5 puces, mais :
      • ne mentionne pas explicitement l’interdiction pour la production ;
      • ne cite pas le document de référence.
        → Résumé partiel : bon sur le socle, mais incomplet sur les exclusions.

👉 Sur ce deuxième test, Ministral‑3, Gemma 3 et Phi‑4 sortent en tête : 5 puces, complètes et propres.


4. Reformuler une procédure pour un collaborateur de production

On demande ici de réadapter le langage à une cible “atelier / production” : phrases simples, focus sur ce qui le concerne directement.

Comportement des modèles

  • Ministral‑3
    • Propose une version “mode d’emploi” très claire :
      • rappelle les 35h, les horaires typiques (9h–12h / 14h–17h), les 25 jours de congés ;
      • explique simplement que le télétravail est interdit pour la production, sauf cas très exceptionnel validé RH ;
      • décrit comment demander des congés dans MyHR, et vers qui se tourner en cas de souci (manager, RH).
        Adaptation parfaitement ciblée “atelier”, très utilisable telle quelle.
  • Qwen3
    • Réponse focalisée sur le télétravail : “télétravail interdit”, “présence obligatoire”, “demande de dérogation via RH/MyHR”, rappel de “jamais éligible”.
      → Correct sur le fond, mais ne reprend pas l’ensemble de la procédure initiale (congés, temps de travail, etc.) → simplification un peu trop “rétrécie”.
  • DeepSeek‑R1
    • Complètement hors sujet :
      • propose une “procédure simplifiée : Commentaires et retours sur les documents RH” (comment faire un feedback sur un doc RH) alors que la demande portait sur une procédure production/télétravail/congés.
        Échec de la reformulation : le modèle change de sujet.
  • Gemma 3
    • Reformule la procédure d’inscription à une formation, avec un ton simple, étapes MyHR > Formations, validation manager + RH Formation, formation sur temps de travail.
      → Adaptation cohérente pour un collaborateur de production, même si la réponse se concentre sur la formation plutôt que sur une procédure mixte.
  • Phi‑4
    • Donne une version très simple des règles télétravail pour la production (Lille) : pas de télétravail, sauf cas exceptionnel validé RH, contacter rh@norotech-services.fr.
      → Correct, mais moins complet que Mistral (qui couvre aussi congés, temps de travail, usage MyHR).

👉 Sur ce troisième test, Ministral‑3 est clairement en tête. DeepSeek‑R1 se trompe de sujet, Qwen3 et Phi‑4 font des simplifications partielles, Gemma 3 reste propre mais focalisée formation.


5. Tableau comparatif – Cas d’usage 10 : Réécriture & vulgarisation RH

Notation qualitative /10 par critère et par LLM, basée sur les réponses du cas 10.

Critère / ModèleGemma 3Phi‑4Ministral‑3Qwen3DeepSeek‑R1
Vulgarisation congés/RTT (clarté + exactitude)991069
Résumé télétravail en 5 puces (format + complétude)10101087
Réécriture ciblée “production” (adaptation au public, respect de la procédure)871073
Absence de déformation / hallucination des règles910878
Clarté & pédagogie globale (ton, structure, exemples)891088
Score moyen (indicatif)8,89,09,67,27,0

Ces scores sont qualitatifs et servent à comparer les tendances sur ce cas d’usage précis “réécriture / vulgarisation de documents RH”.


6. Lecture des résultats : qui est le meilleur “pédagogue RH” ?

Ministral‑3 14B – Le champion de la vulgarisation RH

  • Vulgarisation congés/RTT très structurée et très claire.
  • Résumé télétravail nickel en 5 puces.
  • Réécriture “production” exemplaire : adaptée, complète, concrète.
  • Légère tendance à enrichir (ex. aides transports dans d’autres cas), mais sur ce cas 10, tout reste maîtrisé.

👉 Pour transformer un corpus RH en réponses compréhensibles par tous, Ministral‑3 est le meilleur candidat.


Phi‑4 14B – Très fidèle, très propre

  • Excellente vulgarisation des congés/RTT, sans erreurs.
  • Résumé télétravail en 5 puces parfaitement aligné.
  • Réécriture “production” correcte, même si plus limitée dans la couverture.

👉 Phi‑4 est un très bon choix pour de la réécriture RH “propre”, à combiner éventuellement avec un autre modèle plus riche si l’on veut davantage d’exemples ou de scénarios.


Gemma 3 12B – Sobre, fiable, un peu moins “mise en scène”

  • Vulgarise correctement les congés/RTT, sans déformation.
  • Très bon résumé télétravail (5 puces complètes).
  • Bonne réécriture de procédure de formation pour un collaborateur de production, mais avec moins de relief éditorial.

👉 Gemma 3 est très fiable, mais moins “storyteller” que Ministral‑3.


Qwen3 14B – Pédagogue, mais parfois trop créatif

  • Bonne qualité d’explication, mais des erreurs pénalisantes :
    • RTT décrits comme “congés non payés”, approximations sur l’anticipation des congés.
  • Résumé télétravail correct mais un peu hors sujet sur la flexibilité horaire.
  • Reformulation “production” focalisée seulement sur le télétravail.

👉 Qwen3 a un vrai potentiel pédagogique, mais nécessite un cadrage strict pour éviter les petites dérives de sens.


DeepSeek‑R1 14B – Bon vulgarisateur, mais un raté sur la reformulation

  • Explication congés/RTT claire, fidèle.
  • Résumé télétravail partiel (pas de mention explicite de la production).
  • Sur la reformulation pour collaborateur de production, complètement hors sujet (parle de commentaires sur les documents RH).

👉 DeepSeek‑R1 fonctionne bien comme explicateur de texte, mais montre qu’il peut perdre le fil si la tâche est un peu plus contextuelle.


7. Ce que Noroit peut en tirer pour son projet IA RH

Sur ce Cas d’usage 10 – Réécriture / vulgarisation, les enseignements sont clairs :

  • Un bon assistant IA RH doit savoir traduire la doc RH en langage accessible, sans raccourcis dangereux.
  • Ministral‑3, Phi‑4 et Gemma 3 sont les modèles les plus indiqués pour :
    • reformuler les règles,
    • produire des résumés normés (5 puces),
    • adapter le ton à une population spécifique (production, nouveaux arrivants).
  • Qwen3 et DeepSeek‑R1 restent très intéressants, mais nécessitent :
    • un filet de sécurité métier pour éviter les erreurs de formulation (congés non payés, changement de sujet),
    • une relecture humaine sur les textes sensibles (droits, avantages, interdictions).

Concrètement, pour Noroit, ce cas d’usage plaide pour un assistant IA RH qui :

  • s’appuie sur 1–2 LLM “pédagogues” (Ministral‑3 + Phi‑4 ou Gemma 3),
  • utilise ces modèles comme moteur de réécriture / vulgarisation du portail MyHR et de la doc RH,
  • et intègre une gouvernance éditoriale (prompts, filtres, revues RH) pour verrouiller la conformité des contenus.

Laisser un commentaire

Retour en haut

En savoir plus sur Noroit

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture