Ce nouveau modèle Google Gemini navigue sur Internet comme vous - ZDNET

Marc Zaffagni - ZDNet - 10/10
Désormais disponible en avant-première publique, ce nouveau modèle marque une nouvelle étape vers l'IA capable d'opérer dans des environnements web avec une surveillance humaine minimale.

A retenir

  • Le nouveau modèle d'IA de Google peut interagir directement avec les interfaces utilisateur des sites web.
  • Il rejoint les outils similaires d'OpenAI et d'Anthropic.
  • L'entreprise a également reconnu ses faiblesses, notamment en matière d'hallucinations.

Google DeepMind a lancé un nouveau modèle d'IA en avant-première publique, conçu pour naviguer dans un navigateur web comme un humain. S'appuyant sur Gemini 2.5 Pro, le nouveau modèle peut exécuter des tâches telles que cliquer, saisir du texte et faire défiler une page web directement.

Il suffit aux utilisateurs de faire une requête en langage naturel, par exemple : « Ouvre Wikipédia, recherche "Atlantide" et résume l'histoire du mythe dans la pensée occidentale.» Le modèle récupère automatiquement l'URL et les captures d'écran du site demandé pour analyser l'interface utilisateur sur laquelle il doit agir, et exécute la tâche demandée étape par étape, tout en décrivant son raisonnement et ses actions dans une zone de texte facilement visible par les utilisateurs. Il peut également demander une confirmation s'il est invité à effectuer une tâche sensible, comme un achat.

La version préliminaire de Gemini 2.5 Computer Use fait suite au lancement de modèles de navigation web sim...
[Courte citation de 8% de l'article original]

Loading...