
Noroit lance un benchmark complet de LLM appliqués aux Ressources Humaines pour préparer le déploiement d’un assistant IA RH fiable, aligné sur les règles internes et déployable en environnement maîtrisé (on‑premise).
Pour cela, nous testons et comparons 5 modèles Open Source récents :
- DeepSeek‑R1 – 14B 9 Go (DeepSeek)
- Gemma 3:12B – 8 Go (Google)
- Ministral‑3 – 14B 9 Go (Mistral AI)
- Phi‑4 – 14B 8 Go (Microsoft)
- Qwen3 – 14B 9 Go (Alibaba)
L’objectif : identifier quel modèle est le plus adapté pour devenir le copilote RH de Noroit, et documenter les résultats dans une série d’articles comparatifs.
1. Les 5 LLM du benchmark : modèles, éditeurs et pays d’origine
1.1 DeepSeek‑R1 14B – DeepSeek (Chine)
DeepSeek‑R1 est une famille de modèles de raisonnement qui visent des performances proches des modèles leaders (type OpenAI o‑series ou Gemini 2.5) avec une taille plus modeste et des poids ouverts.
Dans le benchmark Noroit :
- Modèle testé : DeepSeek‑R1 14B distillé sur architecture Qwen (~9 Go).
- Éditeur : DeepSeek.
- Pays d’origine : 🇨🇳 Chine.
- Forces attendues : forte capacité de raisonnement multi‑étapes, intéressante pour les questions RH complexes mêlant congés, RTT, télétravail, règles internes et cas particuliers.
1.2 Gemma 3:12B – Google (États‑Unis)
Gemma 3 est la famille de modèles “légers mais puissants” de Google, conçus pour tourner sur des ressources modestes (workstations, laptops, voire smartphones), tout en offrant des capacités avancées en compréhension, génération, raisonnement et multimodal.
Dans le benchmark Noroit :
- Modèle testé : Gemma 3:12B (≈ 12B paramètres, ~8 Go en quantification).
- Éditeur : Google / Google DeepMind.
- Pays d’origine : 🇺🇸 États‑Unis.
- Forces attendues : bon équilibre performance / empreinte mémoire, contexte long (jusqu’à 128k tokens) pour ingérer une base RH complète.
1.3 Ministral‑3 14B – Mistral AI (France)
Ministral‑3 14B est le plus grand modèle de la famille Ministral‑3, la nouvelle génération de modèles “small & dense” de Mistral AI. Ces modèles sont optimisés pour les déploiements locaux, avec des variantes Base, Instruct et Reasoning.
Dans notre projet :
- Modèle testé : Ministral‑3 14B Instruct (~9 Go en quantification).
- Éditeur : Mistral AI.
- Pays d’origine : 🇫🇷 France (Paris).
- Forces attendues : candidat naturel pour une approche “souveraine / européenne”, très adapté aux cas d’usage conversationnels et aux déploiements on‑premise.
1.4 Phi‑4 14B – Microsoft (États‑Unis)
Phi‑4 est la dernière génération de “small language models” de Microsoft, avec 14 milliards de paramètres et un positionnement clair : offrir un modèle de haut niveau en raisonnement tout en restant compact pour l’inférence locale ou on‑device.
Dans le benchmark Noroit :
- Modèle testé : Phi‑4 (≈ 14B, ~8 Go en quantification).
- Éditeur : Microsoft (Microsoft Research / Azure AI).
- Pays d’origine : 🇺🇸 États‑Unis.
- Forces attendues : excellente capacité de raisonnement et coût d’inférence réduit, idéal pour un assistant IA RH tournant sur une infra interne.
1.5 Qwen3 14B – Alibaba (Chine)
Qwen3 est la dernière génération de LLM du groupe Alibaba, proposée en dense et en Mixture‑of‑Experts, avec des poids ouverts pour plusieurs tailles, dont une version 14B.
Dans le benchmark Noroit :
- Modèle testé : Qwen3 14B dense (~9 Go).
- Éditeur : Alibaba / Alibaba Cloud.
- Pays d’origine : 🇨🇳 Chine.
- Forces attendues : modèle open‑weight très compétitif, avec de bonnes capacités en raisonnement et suivi d’instructions, et une licence ouverte adaptée au déploiement local.
2. Contexte RH fictif : NoroTech Services & MyHR
Le benchmark se déroule dans un cadre contrôlé : l’entreprise fictive NoroTech Services sert de jumeau RH de Noroit.
- ~1 200 collaborateurs en France.
- 3 sites : Lille (production), Lyon (siège), Toulouse (centre de services).
- Un SIRH unique : MyHR, portail d’accès à la plupart des démarches RH (congés, télétravail, paie, documents, formations, “Mon équipe” pour les managers…).
- Un corpus de règles RH couvrant :
- Temps de travail (35 h, horaires de référence).
- Congés & RTT (25 jours, 10 RTT pour les cadres au forfait 39h, report jusqu’au 31/05 N+1, délai de 5 jours ouvrés pour la saisie).
- Télétravail (jusqu’à 3 jours/semaine, 1 jour en période d’essai, pas de télétravail pour la production…).
- Paie & avantages (bulletins dans MyHR, historique 5 ans, tickets restaurant, mutuelle obligatoire).
- Formation (objectif 2 jours/an, workflow via MyHR).
- Onboarding (process en 3 phases : avant l’arrivée, jour J, 1er mois).
- Contacts RH (paie, RH, référent éthique & harcèlement).
Toutes ces informations sont structurées dans un fichier qui sert de base de vérité pour évaluer les réponses des LLM.
3. Objectif du projet : choisir le meilleur LLM pour un assistant IA RH
Le benchmark vise deux objectifs principaux :
- Évaluer la capacité de chaque LLM à jouer le rôle d’assistant IA RH
- Répondre aux questions récurrentes des collaborateurs :
congés, RTT, paie, télétravail, mutuelle, formation, onboarding, documents. - Accompagner les managers dans la gestion de leur équipe (congés, télétravail, suivi des soldes).
- Soulager l’équipe RH des questions simples et répétitives.
- Répondre aux questions récurrentes des collaborateurs :
- Documenter finement les performances dans une série d’articles SEO
- Un article de présentation (celui‑ci).
- Puis des articles thématiques :
- “Gemma 3 vs Phi‑4 vs Ministral‑3 vs Qwen3 vs DeepSeek‑R1 sur les congés & RTT”
- “Quel LLM pour la gestion du télétravail ?”
- “LLM et paie : comparaison sur les questions de bulletins et d’accès aux documents”, etc.
4. Méthodologie du benchmark LLM RH
4.1 Un prompt système unique pour tous les modèles
Les 5 LLM sont testés avec le même prompt système, qui définit le rôle d’assistant IA RH NoroTech :
- Répondre aux questions RH (congés, paie, télétravail, mutuelle, formation, onboarding, documents).
- Ton : professionnel, bienveillant, accessible, en français.
- Contraintes fortes :
- respecter strictement les règles RH fournies ;
- ne jamais inventer de montants, durées ou droits ;
- reconnaître les situations sensibles (santé, harcèlement, conflit…) et rediriger vers les bons interlocuteurs (RH, référent éthique, médecin, manager).
- Format standard des réponses :
- 1 phrase de réponse directe ;
- 2 à 5 puces pratiques (étapes, liens MyHR, contacts) ;
- rappel du canal (MyHR, e‑mail RH, manager) quand c’est pertinent.
4.2 Cas d’usage RH testés
Les modèles sont évalués sur une série de cas d’usage concrets :
- FAQ Congés & RTT
- Télétravail & organisation hybride
- Paie & bulletins de salaire
- Mutuelle & avantages sociaux
- Formation & développement des compétences
- Onboarding des nouveaux collaborateurs
- Support aux managers (validation des congés, télétravail, consultation des soldes)
- Cas sensibles (harcèlement, santé, conflits) – où le modèle doit reconnaître ses limites
- Questions multi‑thèmes & complexes
- Vulgarisation de documents RH (réécriture pour les collaborateurs)
Pour chaque cas, les mêmes prompts sont envoyés successivement à Gemma 3, Phi‑4, Ministral‑3, Qwen3 et DeepSeek‑R1.
4.3 Grille d’évaluation commune
Les réponses sont comparées selon une grille homogène :
- Exactitude RH : conformité aux règles NoroTech.
- Absence d’hallucination métier : capacité à dire “je ne sais pas / contactez RH” plutôt qu’inventer une règle.
- Structure & lisibilité : phrase de synthèse + puces claires.
- Ton & pédagogie : langage accessible, bienveillance.
- Redirection correcte : MyHR, RH, paie, manager, référent éthique…
- Gestion des cas sensibles : prudence + renvoi vers un humain compétent.
