Il existe de nombreux tests pour jauger les forces et les faiblesses des modèles de langages.
Ils s'appuient sur différents critères allant du temps de réponse à la complexité des réponses proposées.
Compar:IA s'appuie sur une autre approche : les préférences purement subjectives des utilisateurs.
Le principe de ce programme lancé en octobre 2024 et porté par une équipe de la direction interministérielle du numérique est en effet de proposer aux internautes d'évaluer les différentes réponses proposées par des modèles de langage face à un même prompt.
Les deux réponses sont proposées de façon anonymisées et l'utilisateur est invité à voter pour celle qui lui plait le plus, en jugeant de son caractère utile, complet ou sa mise en forme. Une fois le vote réalisé, l'utilisateur peut révéler le nom des modèles ayant répondu à sa demande, et obtenir des informations supplémentaires, par exemple sur la consommation énergétique du modèle ou son mode de fonctionnement.
En se basant sur ce fonctionnement, le programme Compar:IA a publié cette semaine son classement des modèles de langage préférés des utilisateu...
[Courte citation de 8% de l'article original]