Ce que les tests de mémoire ne testent pas

DEV - 26/03
Chaque comparaison des systèmes de mémoire IA se classe sur la précision de la récupération. Aucun ne se classe sur ce qui se passe lorsque le...

Chaque comparaison des systèmes de mémoire IA se classe sur la précision de la récupération. Aucun ne se classe sur ce qui se passe lorsque le système récupère avec confiance des informations erronées, maintient simultanément des croyances contradictoires ou fait confiance à des connaissances obsolètes comme si elles étaient actuelles. Voici le cadre d'évaluation qui leur manque.

En mars 2026, trois postes de comparaison indépendants ont évalué les systèmes de mémoire des agents IA. Tous trois ont utilisé LoCoMo comme référence. Les trois systèmes sont classés par taux de réussite de récupération. Tous les trois ont déclaré vainqueur. Aucun d’entre eux n’a posé la question qui compte réellement en production : que fait le système lorsqu’il ne va pas ?

Ce n'est pas une critique de LoCoMo. C'est une excellente référence pour ce qu'il teste : si un système peut faire apparaître une mémoire pertinente à la suite d'une requête. Mais la précision de la récupération est une condition nécessaire à une mémoire utile, et non une condition suffisante. Un système qui récupère les faits exacts 90 % du temps et hallucine en toute confiance les 10 % restants – sans aucun mécanisme permettant de les distinguer – n’est pas un système de production. C'est un passif avec un bon score de référence.

Les trois modes de dé...
[Courte citation de 8% de l'article original]

Loading...