WebMCP : un modèle d'exécution natif du navigateur pour les agents IA

DEV - 22/02
Le 13 février, Google a annoncé la version préliminaire de WebMCP, introduisant une méthode native de navigateur pour l'IA...

Le 13 février, Google a annoncé la version préliminaire de WebMCP, introduisant un moyen natif de navigateur permettant aux agents d'IA d'interagir avec les sites Web. Pour comprendre pourquoi c’est important, réfléchissons à la manière dont les agents opèrent aujourd’hui.

Les agents d'IA interprètent les interfaces en analysant le DOM, en inspectant les arborescences d'accessibilité, en analysant les pages rendues, puis en simulant des clics ou des entrées. Chaque action dépend de l'inférence sur les couches de présentation. Cela augmente l’utilisation des jetons, ajoute de la latence et conduit souvent à une exécution fragile.

La limitation est structurelle. Le Web a été conçu pour les personnes naviguant sur des interfaces. Les agents nécessitent toutefois des capacités clairement définies qu’ils peuvent invoquer par programmation.

WebMCP comble cette lacune en permettant aux sites Web d'enregistrer des fonctions JavaScript structurées que les agents peuvent appeler directement dans le runtime du navigateur. Ces outils s'exécutent sous des contraintes d'état de session existantes et de même origine, exposant uniquement ce que le site définit explicitement.

Le résultat est un modèle d'interaction plus direct qui aligne les systèmes front-end avec les modèles d'outils déterministes déjà établis dans les intégrations back-end MCP.

Dans cet article, nous examinons l'architecture de WebMCP, comment elle se compare au MCP traditionnel et ce qu'elle signale pour une infrastructure Web pilotée par agents.

Model Context Protocol (MCP) : état actuel et contraintes du navigateur

Model Context Protocol (MCP) a établi un modèle structuré pour la façon dont les agents d'IA interagissent avec les systèmes externes. Les outils sont définis avec des schémas clairs, les agents les invoquent avec des entrées structurées et les réponses sont renvoyées dans des formats prévisibles. Cela garantit une exécution déterministe plutôt que de s’appuyer sur un raisonnement libre.

L'architecture est généralement client-serveur. Un agent se connecte à un serveur MCP qui expose des outils encapsulant des API, des bases de données ou des services internes. Ce modèle s'adapte naturellement aux environnements backend où l'e...
[Courte citation de 8% de l'article original]

Loading...