Gemini 2.5 Computer Use : Google lance une IA qui contrôle le navigateur comme un humain

Blog Du Moderateur - 08/10
Google présente Gemini 2.5 Computer Use, un modèle d'IA capable d'interagir avec des interfaces comme un humain, en cliquant, en écrivant ou en scrollant.
Sommaire
  1. Un fonctionnement basé sur une boucle d’interactions
  2. Des démonstrations pour illustrer les capacités de Gemini 2.5 Computer Use
  3. Des performances supérieures à la concurrence ?
  4. Une attention particulière portée à la sécurité
  5. Une disponibilité immédiate en preview publique

Google a présenté Gemini 2.5 Computer Use, une déclinaison de son modèle Gemini 2.5 Pro. Son rôle est de permettre à des agents IA de manipuler directement des interfaces utilisateur, comme un navigateur web par exemple. Contrairement aux modèles qui reposent uniquement sur des API structurées, celui-ci peut cliquer, saisir du texte, faire défiler une page ou encore interagir avec des éléments à l’écran.

L’intérêt de ce modèle est de couvrir des besoins qui n’ont pas toujours d’API adaptée. Remplir un formulaire en ligne, organiser un tableau collaboratif ou encore planifier un rendez-vous peut souvent nécessiter de pass...
[Courte citation de 8% de l'article original]

Loading...