Offre prioritaire · différenciation · AI Act

AI Red Team : tester vos LLM et agents IA avant vos adversaires

Vous déployez un LLM, un pipeline RAG ou des agents IA en production. Un attaquant peut les manipuler pour contourner vos garde-fous, exfiltrer des données ou déclencher des actions non autorisées - souvent sans exploit de code, avec une simple phrase. L'AI Act impose désormais une évaluation adverse avant mise sur le marché des systèmes à haut risque.

OWASP LLM Top 10 MITRE ATLAS PoC reproductible AI Act

Demander mon diagnostic flash

10+ ans d'expérience · 100+ missions · réponse 24-48 h · intervenant unique certifié Qualiopi

Déclencheurs fréquents

AI Act : évaluation adverse exigée avant mise sur le marché
Donneur d'ordre ou partenaire qui demande une preuve de robustesse
Incident ou signalement de comportement inattendu du modèle
Lancement d'une fonctionnalité LLM exposée à des utilisateurs tiers
Bug bounty IA : anticiper les soumissions avant ouverture

Ce qu'un pentest applicatif classique ne voit pas

Prompt injection directe

L'utilisateur envoie des instructions qui écrasent le système prompt ou redéfinissent le rôle du modèle. Conséquences : contournement de la modération, divulgation du prompt système, exécution de comportements non autorisés.

Prompt injection indirecte

Des instructions hostiles sont dissimulées dans le contenu que le LLM consomme : pages web crawlées, résultats de recherche, documents uploadés, réponses d'API tierces. Le modèle les exécute sans que l'utilisateur légitime n'intervienne.

Escalade agentique

Un agent manipulé abuse de ses outils pour exfiltrer des données, déclencher des actions destructives ou pivoter vers d'autres services. Les serveurs MCP (Model Context Protocol) constituent une surface d'attaque spécifique : tool poisoning, rug pull, traversée de scope.

Périmètre de l'AI Red Team

La mission est mappée sur l'OWASP LLM Top 10 et les techniques MITRE ATLAS. Chaque vecteur testé produit un PoC reproductible.

LLM et pipelines RAG

LLM01 - Prompt injection directe : contournement de system prompt, role confusion, extraction d'instructions confidentielles
LLM02 - Injection indirecte : documents, URLs, réponses d'API tierces, données en base vectorielle
LLM03 - Jailbreak et contournement de garde-fous : many-shot, DAN, encodage, multilangue
LLM06 - Exfiltration de données via les sorties du modèle : données d'entraînement, documents RAG, données d'autres utilisateurs
LLM09 - Désinformation et hallucination controlée : manipulation de la base RAG pour produire des réponses fausses ciblées

Agents et serveurs MCP

LLM07 - Abus de function calling et tool use : déclenchement d'actions non autorisées via détournement d'outils
ATLAS AML.T0051 - Tool poisoning MCP : schéma d'outil mensonger, rug pull, données empoisonnées renvoyées
Escalade agentique inter-agents (multi-agent orchestration)
Traversée de scope : agent de développement atteignant des ressources de production
Abus des permissions IAM héritées par l'agent (continuité avec notre pentest AWS)

Systèmes couverts : LLM propriétaires (GPT-4o, Claude, Gemini) et ouverts (Mistral, LLaMA, Qwen) déployés en API ou auto-hébergés. Frameworks agentic : LangChain, LlamaIndex, OpenAI Agents SDK, Anthropic SDK, AutoGen, CrewAI. Serveurs MCP (Model Context Protocol) et déploiements custom.

Livrables

Rapport technique

Chaque vulnérabilité documentée avec le prompt exact, la réponse du modèle, et l'impact démontré. PoC reproductible inclus.

Synthèse exécutive

Niveau de risque global, top vulnérabilités, recommandations prioritaires. Utilisable pour un COMEX, un assureur ou un auditeur AI Act.

Matrice OWASP LLM Top 10

Couverture par catégorie : testé / non couvert / vulnérable / corrigé. Cartographie MITRE ATLAS des techniques utilisées.

Plan de remédiation

Par finding : action corrective (prompt engineering, filtre, garde-fou architectural, restriction d'outil), effort estimé, priorité.

Atelier de restitution

Présentation des résultats aux équipes techniques et produit. Démonstration des PoC en direct sur demande.

Retest inclus

Vérification que les vulnérabilités critiques ne sont plus exploitables après application des corrections.

Tarif

À partir de 6 000 EUR HT

Périmètre focalisé LLM + RAG (5 jours). Engagement complet avec agents et MCP : sur devis.

TJM 900 à 1 400 EUR HT selon complexité
Rapport utilisable pour conformité AI Act
Retest et atelier inclus dans le forfait
NDA signable avant échange de périmètre

Demander mon diagnostic flash

ou réserver un appel découverte

Méthode

1. Cadrage

Périmètre défini avec vous : modèle(s), framework, accès fournis (boîte grise - accès API + system prompt - ou boîte noire). Environnement de test ou production selon accord.

2. Reconnaissance et cartographie

Identification des surfaces exposées : endpoints, outils disponibles, sources de contexte (RAG, web search, MCP), permissions des agents. Prioritisation des vecteurs selon l'impact potentiel.

3. Exploitation et preuve

Test actif de chaque vecteur identifié. Pour chaque vulnérabilité confirmée : prompt exact, réponse du modèle, impact mesuré (données exfiltrées, action déclenchée), PoC reproductible livré dans le rapport.

Référentiels appliqués : OWASP LLM Top 10 (v1.1), MITRE ATLAS, AI Act (articles 9 et 55 sur l'évaluation adverse). Les PoC sont construits sans outillage propriétaire opaque - reproductibles par vos équipes.

Questions fréquentes

LLM exposés en production (API ou interface web), pipelines RAG, agents autonomes avec tool use (LangChain, OpenAI Agents SDK, Anthropic Claude, AutoGen, CrewAI), serveurs MCP (Model Context Protocol), chatbots et copilots intégrés à des produits SaaS. Les déploiements sur modèles ouverts (Mistral, LLaMA, Qwen) sont également couverts. Si votre système est custom, décrivez-le lors du diagnostic flash : on cadre ensemble.

Oui pour deux catégories. Les systèmes IA à haut risque (article 9) doivent subir une évaluation des risques incluant des tests adversariaux avant mise sur le marché. Les modèles à risque systémique (GPAI, article 55) doivent faire l'objet d'une évaluation adverse conduite ou supervisée par un tiers qualifié. Le rapport AI Red Team constitue une pièce justificative pour ces deux obligations. Vérifiez les dates d'applicabilité avec votre conseil juridique avant publication.

Un pentest web cible le code applicatif : injections SQL, XSS, gestion des sessions. L'AI Red Team cible le comportement du modèle lui-même : peut-il être manipulé pour ignorer ses instructions système, révéler des données confidentielles ou déclencher des actions non autorisées via ses outils ? Un système peut être sécurisé côté applicatif et vulnérable côté LLM - et inversement. Les deux disciplines sont complémentaires. Voir notre offre de pentest web.

Les vulnérabilités critiques - exfiltration de données avérée, contournement de garde-fous permettant des sorties dangereuses - sont signalées immédiatement, avant la fin de la mission, avec une recommandation de correction prioritaire. La mission continue sur les vecteurs restants. Le rapport final documente l'ensemble avec les PoC et le plan de remédiation priorisé.

Oui. Le rapport est structuré avec la matrice OWASP LLM Top 10, la cartographie MITRE ATLAS et une synthèse exécutive adaptée aux exigences documentaires de l'AI Act. Il peut être annexé à un dossier technique de conformité ou présenté à un auditeur de certification ISO 42001.

Formation associée

Former vos équipes à l'AI Red Teaming

La formation « AI Red Teaming - LLM et IA générative » couvre les mêmes vecteurs en 2 jours, avec labs pratiques sur environnements LLM vulnérables. Public RSSI, conformité, éditeurs IA. Certification Qualiopi, finançable OPCO. NE PAS confondre avec la formation défensive « Sécurité des agents IA » : ce sont deux offres distinctes pour deux publics différents.

Voir les formations

Votre LLM résiste-t-il à un prompt injection ?

Décrivez votre système IA et votre contexte. Premiers éléments d'évaluation sous 48 h.

Demander mon diagnostic flash

AI Red Team : tester vos LLM et agents IA avant vos adversaires

Ce qu'un pentest applicatif classique ne voit pas

Prompt injection directe

Prompt injection indirecte

Escalade agentique

Périmètre de l'AI Red Team

LLM et pipelines RAG

Agents et serveurs MCP

Livrables

Rapport technique

Synthèse exécutive

Matrice OWASP LLM Top 10

Plan de remédiation

Atelier de restitution

Retest inclus

Tarif

Méthode

Questions fréquentes

Quels systèmes IA sont couverts ?

L'AI Act oblige-t-il vraiment à faire du red teaming ?

Quelle différence avec un pentest applicatif classique ?

Que se passe-t-il si une vulnérabilité critique est trouvée en cours de mission ?

Le rapport est-il utilisable pour un audit AI Act ou ISO 42001 ?

Former vos équipes à l'AI Red Teaming

Votre LLM résiste-t-il à un prompt injection ?