Offre prioritaire · différenciation · AI Act
AI Red Team : tester vos LLM et agents IA avant vos adversaires
Vous déployez un LLM, un pipeline RAG ou des agents IA en production. Un attaquant peut les manipuler pour contourner vos garde-fous, exfiltrer des données ou déclencher des actions non autorisées - souvent sans exploit de code, avec une simple phrase. L'AI Act impose désormais une évaluation adverse avant mise sur le marché des systèmes à haut risque.
10+ ans d'expérience · 100+ missions · réponse 24-48 h · intervenant unique certifié Qualiopi
Déclencheurs fréquents
- AI Act : évaluation adverse exigée avant mise sur le marché
- Donneur d'ordre ou partenaire qui demande une preuve de robustesse
- Incident ou signalement de comportement inattendu du modèle
- Lancement d'une fonctionnalité LLM exposée à des utilisateurs tiers
- Bug bounty IA : anticiper les soumissions avant ouverture
Ce qu'un pentest applicatif classique ne voit pas
Prompt injection directe
L'utilisateur envoie des instructions qui écrasent le système prompt ou redéfinissent le rôle du modèle. Conséquences : contournement de la modération, divulgation du prompt système, exécution de comportements non autorisés.
Prompt injection indirecte
Des instructions hostiles sont dissimulées dans le contenu que le LLM consomme : pages web crawlées, résultats de recherche, documents uploadés, réponses d'API tierces. Le modèle les exécute sans que l'utilisateur légitime n'intervienne.
Escalade agentique
Un agent manipulé abuse de ses outils pour exfiltrer des données, déclencher des actions destructives ou pivoter vers d'autres services. Les serveurs MCP (Model Context Protocol) constituent une surface d'attaque spécifique : tool poisoning, rug pull, traversée de scope.
Périmètre de l'AI Red Team
La mission est mappée sur l'OWASP LLM Top 10 et les techniques MITRE ATLAS. Chaque vecteur testé produit un PoC reproductible.
LLM et pipelines RAG
- LLM01 - Prompt injection directe : contournement de system prompt, role confusion, extraction d'instructions confidentielles
- LLM02 - Injection indirecte : documents, URLs, réponses d'API tierces, données en base vectorielle
- LLM03 - Jailbreak et contournement de garde-fous : many-shot, DAN, encodage, multilangue
- LLM06 - Exfiltration de données via les sorties du modèle : données d'entraînement, documents RAG, données d'autres utilisateurs
- LLM09 - Désinformation et hallucination controlée : manipulation de la base RAG pour produire des réponses fausses ciblées
Agents et serveurs MCP
- LLM07 - Abus de function calling et tool use : déclenchement d'actions non autorisées via détournement d'outils
- ATLAS AML.T0051 - Tool poisoning MCP : schéma d'outil mensonger, rug pull, données empoisonnées renvoyées
- Escalade agentique inter-agents (multi-agent orchestration)
- Traversée de scope : agent de développement atteignant des ressources de production
- Abus des permissions IAM héritées par l'agent (continuité avec notre pentest AWS)
Livrables
Rapport technique
Chaque vulnérabilité documentée avec le prompt exact, la réponse du modèle, et l'impact démontré. PoC reproductible inclus.
Synthèse exécutive
Niveau de risque global, top vulnérabilités, recommandations prioritaires. Utilisable pour un COMEX, un assureur ou un auditeur AI Act.
Matrice OWASP LLM Top 10
Couverture par catégorie : testé / non couvert / vulnérable / corrigé. Cartographie MITRE ATLAS des techniques utilisées.
Plan de remédiation
Par finding : action corrective (prompt engineering, filtre, garde-fou architectural, restriction d'outil), effort estimé, priorité.
Atelier de restitution
Présentation des résultats aux équipes techniques et produit. Démonstration des PoC en direct sur demande.
Retest inclus
Vérification que les vulnérabilités critiques ne sont plus exploitables après application des corrections.
Tarif
À partir de 6 000 EUR HT
Périmètre focalisé LLM + RAG (5 jours). Engagement complet avec agents et MCP : sur devis.
- TJM 900 à 1 400 EUR HT selon complexité
- Rapport utilisable pour conformité AI Act
- Retest et atelier inclus dans le forfait
- NDA signable avant échange de périmètre
Méthode
1. Cadrage
Périmètre défini avec vous : modèle(s), framework, accès fournis (boîte grise - accès API + system prompt - ou boîte noire). Environnement de test ou production selon accord.
2. Reconnaissance et cartographie
Identification des surfaces exposées : endpoints, outils disponibles, sources de contexte (RAG, web search, MCP), permissions des agents. Prioritisation des vecteurs selon l'impact potentiel.
3. Exploitation et preuve
Test actif de chaque vecteur identifié. Pour chaque vulnérabilité confirmée : prompt exact, réponse du modèle, impact mesuré (données exfiltrées, action déclenchée), PoC reproductible livré dans le rapport.
Référentiels appliqués : OWASP LLM Top 10 (v1.1), MITRE ATLAS, AI Act (articles 9 et 55 sur l'évaluation adverse). Les PoC sont construits sans outillage propriétaire opaque - reproductibles par vos équipes.
Questions fréquentes
Formation associée
Former vos équipes à l'AI Red Teaming
La formation « AI Red Teaming - LLM et IA générative » couvre les mêmes vecteurs en 2 jours, avec labs pratiques sur environnements LLM vulnérables. Public RSSI, conformité, éditeurs IA. Certification Qualiopi, finançable OPCO. NE PAS confondre avec la formation défensive « Sécurité des agents IA » : ce sont deux offres distinctes pour deux publics différents.
Votre LLM résiste-t-il à un prompt injection ?
Décrivez votre système IA et votre contexte. Premiers éléments d'évaluation sous 48 h.
Demander mon diagnostic flash