J'ai réalisé un test empirique sur le modèle "compétences comme routeur sémantique" pour les agents Claude Code. J'ai indexé 686 compétences échantillonnées au hasard à partir d'un corpus communautaire de 4 556 compétences dans une mémoire maillée, je les ai intégrées à un modèle de transformation de phrase unique et j'ai exécuté un ensemble fixe de huit requêtes de tâches à travers celui-ci. Voici les chiffres principaux : précision stricte du top 1 62,5 %, précision du cluster top-5 87,5 %, latence des requêtes inférieure à la seconde, ~ 500 jetons chargés par tâche contre ~ 228 000 jetons juste pour conserver les noms + descriptions des 4 556 compétences dans l'invite du système (le comportement par défaut, même avec la divulgation progressive d'Anthropic). Cela représente une économie de fenêtre contextuelle d'environ 456x, la compétence appropriée étant classée parmi les 5 meilleurs candidats de l'agent sept fois sur huit.
Cet article explique pourquoi j'ai effectué le test, comment il a été configuré, ce que montrent réellement les résultats et où le modèle se brise honnêtement. La source complète du coureur et des requêtes est reproductible.
Les compétences Claude Code d'Anthropic (et les équivalents de Cursor, ainsi que les compétences de tous les autres frameworks d'agents) sont livrées sous forme de fichiers markdown dans un dossier. Chacun a un nom et une brève description dans son texte de présentation. La stratégie de chargement par défaut est ce qu'Anthropic appelle « divulgation progressive » : l'agent lit le nom et la description de chaque compétence dans son invite système au démarrage, et ne charge le corps complet que lorsqu'il décide d'en invoquer une.
La divulgation progressive résout le problème du corps : vous ne payez pas pour des corps de compétences que vous n'utilisez jamais. Mais elle ne résout pas le problème de l'index. Même les noms et les descriptions sont chargés pour chaque compétence, chaque session, avant le début du travail. À cinquante compétences, vous dépensez environ 2,5 000 jetons dans le catalogue. À 200 compétences, le catalogue consomme 5 % d'une fenêtre contextuelle de 200 000 de Claude Sonnet avant que vous ayez demandé quoi que ce soit....
[Courte citation de 8% de l'article original]