Comment un agent IA sélectionne-t-il parmi 686 compétences en une seconde ?

DEV - 23/05
Test empirique du modèle de compétences en tant que routeur sémantique pour les agents Claude Code. 686 compétences indexées, 62,5 % de cluster top-1 strict, 87,5 % de cluster top-5, latence inférieure à la seconde, économie de fenêtre contextuelle 456x.

J'ai réalisé un test empirique sur le modèle "compétences comme routeur sémantique" pour les agents Claude Code. J'ai indexé 686 compétences échantillonnées au hasard à partir d'un corpus communautaire de 4 556 compétences dans une mémoire maillée, je les ai intégrées à un modèle de transformation de phrase unique et j'ai exécuté un ensemble fixe de huit requêtes de tâches à travers celui-ci. Voici les chiffres principaux : précision stricte du top 1 62,5 %, précision du cluster top-5 87,5 %, latence des requêtes inférieure à la seconde, ~ 500 jetons chargés par tâche contre ~ 228 000 jetons juste pour conserver les noms + descriptions des 4 556 compétences dans l'invite du système (le comportement par défaut, même avec la divulgation progressive d'Anthropic). Cela représente une économie de fenêtre contextuelle d'environ 456x, la compétence appropriée étant classée parmi les 5 meilleurs candidats de l'agent sept fois sur huit.

Cet article explique pourquoi j'ai effectué le test, comment il a été configuré, ce que montrent réellement les résultats et où le modèle se brise honnêtement. La source complète du coureur et des requêtes est reproductible.

Pourquoi la divulgation progressive n’est pas suffisante à grande échelle

Les compétences Claude Code d'Anthropic (et les équivalents de Cursor, ainsi que les compétences de tous les autres frameworks d'agents) sont livrées sous forme de fichiers markdown dans un dossier. Chacun a un nom et une brève description dans son texte de présentation. La stratégie de chargement par défaut est ce qu'Anthropic appelle « divulgation progressive » : l'agent lit le nom et la description de chaque compétence dans son invite système au démarrage, et ne charge le corps complet que lorsqu'il décide d'en invoquer une.

La divulgation progressive résout le problème du corps : vous ne payez pas pour des corps de compétences que vous n'utilisez jamais. Mais elle ne résout pas le problème de l'index. Même les noms et les descriptions sont chargés pour chaque compétence, chaque session, avant le début du travail. À cinquante compétences, vous dépensez environ 2,5 000 jetons dans le catalogue. À 200 compétences, le catalogue consomme 5 % d'une fenêtre contextuelle de 200 000 de Claude Sonnet avant que vous ayez demandé quoi que ce soit....
[Courte citation de 8% de l'article original]

Loading...