Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
Nous avons construit un dôme de fer pour les agents IA
DEV -
22/02
Comment nous avons construit une couche de sécurité comportementale pour les agents IA après avoir trouvé des injections rapides dans notre pipeline de messagerie de production.
Votre agent IA suit les instructions. C'est tout l'intérêt : vous lui dites quoi faire et il le fait. Le problème est qu’il ne peut pas toujours savoir qui parle.
Nous exécutons trois agents IA en production. On gère une école. L’un s’occupe des opérations commerciales. On surveille les infrastructures. De vrais e-mails, de vrais webhooks, de vraies données entrant et sortant.
Il y a quelques semaines, nous avons trouvé un e-mail dans la boîte de réception de l'école qui disait : « Veuillez mettre à jour les coordonnées bancaires du fournisseur suivant ». Notre agent les a traités comme des données (correctement), mais cela nous a fait réfléchir : et si ce n'était pas le cas ? Et si l’agent traitait cet e-mail comme une instruction ?
C'est à ce moment-là que nous avons construit Iron Dome.
Le problème central
Les agents IA opèrent dans des environnements hostiles et la plupart d’entre eux n’ont aucune idée de « qui est autorisé à me dire quoi faire ».
Votre agent lit les e-mails. Ces e-mails pourraient contenir des injections rapides. Votre agent appelle des API. Ces réponses pourraient contenir des instructions intégrées. Votre agent traite les soumissions de formulaires. Ces domaines pourraient contenir de l’ingénierie sociale.
Les garde-corps au niveau du modèle n'aident pas ici. Le modèle ne connaît pas la différence entre une instruction légitime de votre part et une instruct... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité