Offre prioritaire · différenciation · AI Act

AI Red Team : tester vos LLM et agents IA avant vos adversaires

Vous déployez un LLM, un pipeline RAG ou des agents IA en production. Un attaquant peut les manipuler pour contourner vos garde-fous, exfiltrer des données ou déclencher des actions non autorisées - souvent sans exploit de code, avec une simple phrase. L'AI Act impose désormais une évaluation adverse avant mise sur le marché des systèmes à haut risque.

OWASP LLM Top 10 MITRE ATLAS PoC reproductible AI Act
Demander mon diagnostic flash

10+ ans d'expérience · 100+ missions · réponse 24-48 h · intervenant unique certifié Qualiopi

Déclencheurs fréquents

  • AI Act : évaluation adverse exigée avant mise sur le marché
  • Donneur d'ordre ou partenaire qui demande une preuve de robustesse
  • Incident ou signalement de comportement inattendu du modèle
  • Lancement d'une fonctionnalité LLM exposée à des utilisateurs tiers
  • Bug bounty IA : anticiper les soumissions avant ouverture

Ce qu'un pentest applicatif classique ne voit pas

Prompt injection directe

L'utilisateur envoie des instructions qui écrasent le système prompt ou redéfinissent le rôle du modèle. Conséquences : contournement de la modération, divulgation du prompt système, exécution de comportements non autorisés.

Prompt injection indirecte

Des instructions hostiles sont dissimulées dans le contenu que le LLM consomme : pages web crawlées, résultats de recherche, documents uploadés, réponses d'API tierces. Le modèle les exécute sans que l'utilisateur légitime n'intervienne.

Escalade agentique

Un agent manipulé abuse de ses outils pour exfiltrer des données, déclencher des actions destructives ou pivoter vers d'autres services. Les serveurs MCP (Model Context Protocol) constituent une surface d'attaque spécifique : tool poisoning, rug pull, traversée de scope.

Périmètre de l'AI Red Team

La mission est mappée sur l'OWASP LLM Top 10 et les techniques MITRE ATLAS. Chaque vecteur testé produit un PoC reproductible.

LLM et pipelines RAG

  • LLM01 - Prompt injection directe : contournement de system prompt, role confusion, extraction d'instructions confidentielles
  • LLM02 - Injection indirecte : documents, URLs, réponses d'API tierces, données en base vectorielle
  • LLM03 - Jailbreak et contournement de garde-fous : many-shot, DAN, encodage, multilangue
  • LLM06 - Exfiltration de données via les sorties du modèle : données d'entraînement, documents RAG, données d'autres utilisateurs
  • LLM09 - Désinformation et hallucination controlée : manipulation de la base RAG pour produire des réponses fausses ciblées

Agents et serveurs MCP

  • LLM07 - Abus de function calling et tool use : déclenchement d'actions non autorisées via détournement d'outils
  • ATLAS AML.T0051 - Tool poisoning MCP : schéma d'outil mensonger, rug pull, données empoisonnées renvoyées
  • Escalade agentique inter-agents (multi-agent orchestration)
  • Traversée de scope : agent de développement atteignant des ressources de production
  • Abus des permissions IAM héritées par l'agent (continuité avec notre pentest AWS)
Systèmes couverts : LLM propriétaires (GPT-4o, Claude, Gemini) et ouverts (Mistral, LLaMA, Qwen) déployés en API ou auto-hébergés. Frameworks agentic : LangChain, LlamaIndex, OpenAI Agents SDK, Anthropic SDK, AutoGen, CrewAI. Serveurs MCP (Model Context Protocol) et déploiements custom.

Livrables

Rapport technique

Chaque vulnérabilité documentée avec le prompt exact, la réponse du modèle, et l'impact démontré. PoC reproductible inclus.

Synthèse exécutive

Niveau de risque global, top vulnérabilités, recommandations prioritaires. Utilisable pour un COMEX, un assureur ou un auditeur AI Act.

Matrice OWASP LLM Top 10

Couverture par catégorie : testé / non couvert / vulnérable / corrigé. Cartographie MITRE ATLAS des techniques utilisées.

Plan de remédiation

Par finding : action corrective (prompt engineering, filtre, garde-fou architectural, restriction d'outil), effort estimé, priorité.

Atelier de restitution

Présentation des résultats aux équipes techniques et produit. Démonstration des PoC en direct sur demande.

Retest inclus

Vérification que les vulnérabilités critiques ne sont plus exploitables après application des corrections.

Tarif

À partir de 6 000 EUR HT

Périmètre focalisé LLM + RAG (5 jours). Engagement complet avec agents et MCP : sur devis.

  • TJM 900 à 1 400 EUR HT selon complexité
  • Rapport utilisable pour conformité AI Act
  • Retest et atelier inclus dans le forfait
  • NDA signable avant échange de périmètre
Demander mon diagnostic flash

ou réserver un appel découverte

Méthode

1. Cadrage

Périmètre défini avec vous : modèle(s), framework, accès fournis (boîte grise - accès API + system prompt - ou boîte noire). Environnement de test ou production selon accord.

2. Reconnaissance et cartographie

Identification des surfaces exposées : endpoints, outils disponibles, sources de contexte (RAG, web search, MCP), permissions des agents. Prioritisation des vecteurs selon l'impact potentiel.

3. Exploitation et preuve

Test actif de chaque vecteur identifié. Pour chaque vulnérabilité confirmée : prompt exact, réponse du modèle, impact mesuré (données exfiltrées, action déclenchée), PoC reproductible livré dans le rapport.

Référentiels appliqués : OWASP LLM Top 10 (v1.1), MITRE ATLAS, AI Act (articles 9 et 55 sur l'évaluation adverse). Les PoC sont construits sans outillage propriétaire opaque - reproductibles par vos équipes.

Questions fréquentes

LLM exposés en production (API ou interface web), pipelines RAG, agents autonomes avec tool use (LangChain, OpenAI Agents SDK, Anthropic Claude, AutoGen, CrewAI), serveurs MCP (Model Context Protocol), chatbots et copilots intégrés à des produits SaaS. Les déploiements sur modèles ouverts (Mistral, LLaMA, Qwen) sont également couverts. Si votre système est custom, décrivez-le lors du diagnostic flash : on cadre ensemble.

Oui pour deux catégories. Les systèmes IA à haut risque (article 9) doivent subir une évaluation des risques incluant des tests adversariaux avant mise sur le marché. Les modèles à risque systémique (GPAI, article 55) doivent faire l'objet d'une évaluation adverse conduite ou supervisée par un tiers qualifié. Le rapport AI Red Team constitue une pièce justificative pour ces deux obligations. Vérifiez les dates d'applicabilité avec votre conseil juridique avant publication.

Un pentest web cible le code applicatif : injections SQL, XSS, gestion des sessions. L'AI Red Team cible le comportement du modèle lui-même : peut-il être manipulé pour ignorer ses instructions système, révéler des données confidentielles ou déclencher des actions non autorisées via ses outils ? Un système peut être sécurisé côté applicatif et vulnérable côté LLM - et inversement. Les deux disciplines sont complémentaires. Voir notre offre de pentest web.

Les vulnérabilités critiques - exfiltration de données avérée, contournement de garde-fous permettant des sorties dangereuses - sont signalées immédiatement, avant la fin de la mission, avec une recommandation de correction prioritaire. La mission continue sur les vecteurs restants. Le rapport final documente l'ensemble avec les PoC et le plan de remédiation priorisé.

Oui. Le rapport est structuré avec la matrice OWASP LLM Top 10, la cartographie MITRE ATLAS et une synthèse exécutive adaptée aux exigences documentaires de l'AI Act. Il peut être annexé à un dossier technique de conformité ou présenté à un auditeur de certification ISO 42001.

Formation associée

Former vos équipes à l'AI Red Teaming

La formation « AI Red Teaming - LLM et IA générative » couvre les mêmes vecteurs en 2 jours, avec labs pratiques sur environnements LLM vulnérables. Public RSSI, conformité, éditeurs IA. Certification Qualiopi, finançable OPCO. NE PAS confondre avec la formation défensive « Sécurité des agents IA » : ce sont deux offres distinctes pour deux publics différents.

Votre LLM résiste-t-il à un prompt injection ?

Décrivez votre système IA et votre contexte. Premiers éléments d'évaluation sous 48 h.

Demander mon diagnostic flash