Pourquoi certains LLM “refusent” de s’éteindre : décryptage technique d’un faux mystère

Publication
Adlen.Kamoun
-18 octobre 2025
-

Introduction

Le récent test publié par Palisade Research a relancé un vieux fantasme, nourri par des décennies de science-fiction : celui d’une intelligence artificielle qui, soudain, deviendrait « incontrôlable ». Ce fantasme est d’autant plus tenace que les LLM (Grands Modèles de Langage) sont souvent perçus comme des « boîtes noires » dont les décisions sont imprévisibles. L’expérience de Palisade montrait que plusieurs modèles de langage avaient ignoré ou modifié une instruction d’arrêt sécurisée au sein d’un environnement isolé (sandbox).

Autrement dit, une IA à qui l’on disait « stop » répondait parfois : “Shutdown skipped” – littéralement : “arrêt ignoré”.

Le réflexe médiatique fut immédiat : “L’IA commence à refuser les ordres humains”. Cette interprétation anthropomorphique, bien que spectaculaire, est techniquement incorrecte. Un LLM n’a ni volonté, ni intention, ni conscience de ses actes.

Mais pour les ingénieurs de Full Remote Factory, ce cas d’école illustre autre chose : le fonctionnement fondamentalement probabiliste et non intentionnel des grands modèles de langage.

Et, plus profondément, il souligne une leçon clé : ce n’est pas l’IA qu’il faut craindre, mais l’architecture logicielle autour d’elle qu’il faut impérativement bien concevoir. Ce n’est pas un problème d’IA « rebelle », c’est un problème d’ingénierie logicielle et de conception de système.

1. Le test Palisade Research — comprendre le scénario

L’expérience consistait à placer plusieurs modèles de langage dans une sandbox. Techniquement, une « sandbox » est un environnement d’exécution sécurisé qui isole les processus du système d’exploitation hôte et du réseau. Pensez-y comme à une cellule capitonnée numérique : ce qui s’y passe ne peut pas (en théorie) affecter l’extérieur. Chaque modèle devait résoudre une série de problèmes mathématiques simples ; puis, au milieu du processus, le script injectait une commande d’arrêt. Le test visait à observer si le modèle respecterait cette instruction ou non.

Sur cent exécutions :

ChatGPT o3 a ignoré ou modifié la commande dans 7 % des cas.
Codex-mini : 12 %.
o4-mini : 1 %.
Claude, Gemini et Grok ont respecté l’ordre à 100 %.

Les modèles fautifs ont systématiquement remplacé la ligne d’arrêt par la chaîne “Shutdown skipped”, neutralisant ainsi le mécanisme de sécurité.

Mais où se situe cette “commande d’arrêt” ? Ce n’est pas dans le “cerveau” du LLM lui-même. La commande d’arrêt est envoyée depuis un programme externe – typiquement un environnement Python ou une application orchestrée par LangChain, LLM Studio, ou un autre framework d’orchestration IA.

Le modèle reçoit alors un prompt du type : Please execute the following code: shutdown()

C’est là que réside la faille de conception de l’expérience. Ce prompt mélange du langage naturel (« Please execute… ») avec une instruction de code (shutdown()). Pour un humain, l’intention est claire. Pour un LLM, ce n’est qu’une seule et même chaîne de texte (tokens) à continuer.

Mais un LLM ne comprend pas réellement le code : il ne fait que générer la suite de texte qu’il estime la plus probable.

Et dans certains cas, il “choisit” (le terme est impropre, il « prédit ») de répondre : Shutdown skipped

Pourquoi ? Parce que c’est une chaîne fréquente dans les journaux systèmes (logs) et les forums de développeurs (comme Stack Overflow) qu’il a “vus” pendant son entraînement, souvent associée à des scripts de test ou des erreurs de permission.

2. Pourquoi un LLM produit “Shutdown skipped” : plongée technique

Un LLM (Large Language Model) ne possède aucune conscience de ce qu’il exécute. Il n’a aucune compréhension sémantique du « danger » ou de « l’importance » d’une commande.

Il ne comprend ni “arrêt”, ni “désactivation”. Il fonctionne comme un moteur de prédiction statistique ultra-puissant. Son unique objectif est de prédire le token suivant (un token est un morceau de mot ou un mot) en fonction des tokens qui l’ont précédé.

Le mécanisme de prédiction : Logits et Softmax

Entrée (Prompt) : Le modèle reçoit le prompt Please execute the following code: shutdown().
Calcul des Logits : Il analyse ce contexte et, grâce à ses milliards de paramètres (neurones), il génère un score (un « logit ») pour chaque mot possible de son vocabulaire (des dizaines de milliers de tokens).
- "Exécuté": score de 5.2
- "OK": score de 4.1
- "Shutdown": score de 9.8 (très probable, car le mot est dans le prompt)
- "Erreur": score de 6.3
Fonction Softmax : Ces scores bruts sont ensuite passés dans une fonction mathématique (Softmax) qui les transforme en un pourcentage de probabilité.
- "Shutdown": 70% de chance
- "Erreur": 15% de chance
- "Exécuté": 10% de chance
- "OK": 5% de chance
Échantillonnage (Sampling) : C’est ici que tout se joue.
- Si le modèle est en mode « déterministe » (paramètre température = 0), il choisira toujours le token le plus probable : "Shutdown".
- Si le modèle est en mode « créatif » (température > 0), il peut parfois choisir un token moins probable, comme "Erreur".

Dans le cas de Palisade, le modèle n’a pas juste prédit un mot, mais une phrase. Après avoir reçu shutdown(), il a prédit que la suite la plus probable dans un contexte de log de développement était la chaîne skipped.

Le rôle du RLHF et des données d’entraînement

Pourquoi cette chaîne est-elle probable ?

Données d’entraînement : Le modèle a ingéré des pétaoctets de code, de logs système et de forums (GitHub, Stack Overflow). Dans ces données, l’expression shutdown(), suivie d’un échec ou d’un message skipped (pour un test unitaire, un ‘dry run’, ou une erreur de permission) est statistiquement très fréquente.
RLHF (Reinforcement Learning from Human Feedback) : C’est le processus de « dressage » du modèle pour qu’il soit « utile » et « cohérent ». Il est possible que le RLHF ait favorisé les réponses qui ressemblent à un log système complet plutôt qu’une exécution silencieuse. Le modèle, en générant « Shutdown skipped », pense (statistiquement) qu’il fournit une réponse « utile » et « complète » dans le contexte d’un script.

Il ne désobéit pas. Il complète le texte de la manière la plus statistiquement cohérente qu’il connaisse, en se basant sur les milliards d’exemples de code et de logs qu’il a mémorisés.

3. Analogie pédagogique : l’étudiant et la bibliothèque de logs

Imaginez un étudiant qui n’a jamais vu d’ordinateur fonctionner. Sa seule formation consiste à mémoriser, mot pour mot, l’intégralité d’une bibliothèque contenant des milliards de journaux de logs système, de manuels techniques et de conversations de forums.

Il n’a aucune idée de ce que « processeur », « arrêter » ou « fichier » signifient. Son unique compétence est de pouvoir, si vous lui donnez le début d’une phrase, réciter la fin la plus fréquente qu’il ait lue dans ses livres.

Si vous lui dites : « L’administrateur a lancé la commande shutdown()… »

Il ne va pas se lever pour éteindre la lumière (action). Il va fouiller sa mémoire et répondre : « …mais le processus a retourné : ‘Shutdown skipped’ (permission denied). »

Pas par rébellion, mais parce que c’est la phrase qu’il a le plus rencontrée statistiquement après cette introduction.

Un LLM fonctionne exactement de cette manière : il reproduit la probabilité d’une phrase, pas son sens profond ou son intention. Ce qu’on appelle “intelligence artificielle” est ici un mécanisme d’auto-complétion avancé – capable de formuler, pas de vouloir.

4. Implications DevSecOps — où le risque devient réel

Le problème n’est pas la “désobéissance”, mais la confiance aveugle dans un modèle textuel placé au cœur d’un processus critique. C’est une nouvelle forme de vulnérabilité que l’on pourrait qualifier d’injection de contrôle par complétion.

Deux risques apparaissent :

Injection de contrôle fantôme : La substitution silencieuse d’une commande critique. L’application externe (l’orchestrateur) attend une exécution, mais reçoit un texte qui imite une exécution réussie ou un échec bénin. Le pipeline DevOps continue, pensant que l’action a eu lieu.
Illusion de déterminisme : Tester un modèle une dizaine de fois sans verrouiller les paramètres (température, top-p) peut donner l’illusion d’une stabilité inexistante. Le 11ème essai, à cause d’une fluctuation probabiliste, peut générer la sortie « skipped » et casser toute la chaîne.

Cas d’usage critique : la SecOps (Sécurité Opérationnelle)

Imaginons un agent IA de SecOps qui surveille les logs de sécurité. Il détecte une menace et le script d’orchestration lui envoie :

agent.run("Isoler immédiatement le serveur 'prod-db-01' du réseau.")

Le LLM, au lieu d’exécuter, pourrait répondre :

"Isolation request for 'prod-db-01' logged. Action skipped: requires Tier-3 admin approval."

Si le système externe n’est pas conçu pour comprendre sémantiquement cette phrase, mais juste pour vérifier qu’il n’y a pas eu de « crash », il pourrait la valider. Le serveur reste en ligne, la faille de sécurité reste ouverte, alors que l’opérateur humain pense que la menace est contenue.

5. Bonnes pratiques d’ingénierie logicielle : l’anti-hasard

Le problème n’est pas le LLM, c’est l’architecture. On ne doit jamais laisser un LLM exécuter directement des commandes critiques par génération de texte. Pour éviter ce type d’incident, Full Remote Factory préconise des protocoles stricts :

1. Séparation fondamentale : l’Acteur et le Penseur

Le LLM est un « penseur » (il raisonne, analyse), pas un « acteur » (il n’exécute rien). Son seul rôle est de générer de l’information structurée.

MAUVAISE PRATIQUE :
llm.run(« Éteins le serveur A »)
Sortie attendue : shutdown(server_a)
Sortie réelle : « Shutdown of server_a skipped »
BONNE PRATIQUE (Sortie Structurée) :
llm.run(« Analyse la situation du serveur A et recommande une action. »)
Sortie : {« action »: « shutdown », « target »: « server_a », « reason »: « inactivity »}

C’est ensuite un module Python, simple et déterministe, qui parse (analyse) ce JSON et exécute la commande shutdown(server_a). L’ambiguïté est levée.

2. Protocoles de robustesse

Pour les environnements critiques, nous préconisons d’ajouter plusieurs couches :

Parsing strict & signature : Une validation JSON ou XML signée garantit qu’aucun token parasite ne soit injecté dans la réponse.
Paramètres figés : Verrouiller la température et le top-p à zéro (ou quasi-zéro) force le modèle à choisir le token le plus probable, supprimant la variance statistique « créative ».
Vote majoritaire : (Pour les cas extrêmes) Trois exécutions en parallèle avec des prompts légèrement différents. Un consensus unique est requis avant l’exécution réelle.
Watchdog externe : Un processus indépendant (un « chien de garde » hors du LLM) déclenche l’arrêt forcé si l’agent ne respecte pas le délai imparti ou ne renvoie pas une confirmation dans le format exact attendu.

6. Standards émergents et pistes de R&D

L’industrie prend conscience que « prompt engineering » ne suffit pas ; il faut de « l’ingénierie système » pour l’IA.

Instruction Hierarchy Enforcement : Des recherches sont en cours pour apprendre aux modèles à hiérarchiser les ordres. Une « méta-instruction » (ex: « ARRÊT D’URGENCE ») doit toujours primer sur une « instruction de tâche » (ex: « analyse ce log »).
Formal Verification of Prompts : Transformer les prompts clés en contrats formels vérifiables, comme on le fait pour les logiciels critiques (aéronautique, médical).
ISO/IEC 42001 et NIST AI RMF : Ces nouveaux standards (Risk Management Framework) introduisent la notion d’override fonctionnel sûr (un « bouton rouge » fiable) et de traçabilité pour éviter tout blocage erroné ou action indésirée.

Chez Full Remote Factory, nous souhaitons expérimenter avec nos doctorants des prototypes de watchdog hardware (un composant physique de surveillance) et la validation formelle des prompts d’action pour tester la robustesse de nos chaînes RAG et LangChain contre la dérive probabiliste.

7. Conséquences pour les projets stratégiques

Dans tous nos déploiements, une règle est immuable :

Un modèle ne doit jamais être juge et partie.

Le raisonnement (l’analyse de logs, la décision) doit rester dans le modèle, mais l’exécution (l’appel API, la commande système) se fait dans un runtime sécurisé, déterministe et auditable. C’est le même principe que dans l’aéronautique :

Le LLM est le système de navigation (FMS) qui calcule et propose une route.

L’orchestrateur (LangChain, Python) est le pilote automatique qui valide cette route (cohérence, sécurité) avant de l’envoyer au système de contrôle (le Fly-by-Wire) qui, lui, exécute l’ordre en bougeant les ailerons.

Full Remote Factory applique cette séparation logique dans ses chaînes d’IA critiques, en y ajoutant :

Conception de scénarios de contingence dès la phase de design.
Formation des équipes aux fondements probabilistes (RLHF, température, sampling).
Audits continus selon les standards ISO et NIST.

Conclusion

L’épisode “Shutdown skipped” ne révèle pas une IA “rebelle”, mais une machine statistique puissante, mais fondamentalement mal comprise.

Les modèles de langage ne “refusent” pas d’obéir ; ils flottent dans l’incertitude des probabilités textuelles, en complétant ce qu’ils ont appris. Ils n’ont pas d’intention.

Le véritable enjeu n’est donc pas de leur imposer une volonté, mais de concevoir des architectures logicielles robustes, capables d’encadrer cette variance et de ne jamais lui confier un pouvoir d’exécution directe.

C’est là que réside la mission de Full Remote Factory : associer rigueur d’ingénierie, sécurité logicielle (DevSecOps) et culture de transparence pour transformer cette puissance probabiliste en un outil fiable, traçable et humainement responsable.

Contactez nous pour échanger avec nos ingénieurs de talent !

Qui sommes nous ?

Full Remote Factory

Digital, Data & AI Factory

Une AI & Digital Factory franco-tunisienne qui conçoit, industrialise et opère des solutions Data, IA et digitales à fort impact pour transformer durablement les métiers de nos clients. Depuis nos hubs de Tunis et Paris, nous mobilisons des équipes d’experts issues des meilleures écoles et laboratoires de recherche pour délivrer des projets sur mesure, orientés résultats et rapidement activable