Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
Apporter de la rigueur scientifique à la comparaison LLM
DEV -
31/05
Outil CLI pour comparer les LLM avec les CI bootstrap, le test de McNemar, la détection des hallucinations et le suivi des coûts. 8 fournisseurs, une installation pip.
Pourquoi j'ai construit Cli Modelarium et pourquoi il appartient à votre terminal, pas à un tableau de bord
Remarque : Il s’agit d’un projet personnel, non affilié à aucune entreprise. Cela ne constitue pas un conseil financier ou d’investissement.
Chaque fois que je voulais comparer deux LLM, je devais choisir entre une vérification ponctuelle rapide dans une fenêtre de discussion ou la création d'une plateforme d'évaluation complète.
On ne vous dit rien d'utile.
L’autre prend plus de temps à mettre en place que ne vaut la comparaison.
J'ai donc construit une CLI qui le fait depuis le terminal. Il s'appelle Cli Modelarium et est aujourd'hui disponible sur PyPI sous Apache 2.0.
pip installer cli-modelarium
Entrer en mode plein écran Quitter le mode plein écran
Dans le reste de cet article, je vais expliquer ce qu'il fait, pourquoi je l'ai construit, ce qu'il y a réellement sous le capot et comment vous pouvez l'utiliser pour votre propre travail de comparaison LLM en moins d'une minute.
Le problème dont personne ne parle
Le paysage des outils LLM a deux extrémités.
D'un côté, vous avez la vérification ponctuelle de la fenêtre de discussion. Vous collez une invite dans Claude, puis dans GPT, puis dans Gemini, observez les sorties et décidez laquelle est « meilleure ». C’est ce que font réellement la plupart des développeurs. Cela semble productif. Cela ne produit rien de digne de confiance.
Le problème avec les contrôles ponctuels est que la sortie LLM présente des variations. Vous pouvez exécuter la même invite deux fois et obtenir des réponses différentes. Vous pouvez également exécuter la même invite sur deux modèles, obtenir des réponses qui se ressemblent et passer à côté du fait que l’un d’entre eux hallucine des faits subtils. L’observation de sorties uniques n’est pas une comparaison. C'est une ambiance.
De l’autre côté, vous avez les plateformes d’évaluation d’entreprise. Ceux-ci existent et ils sont puissants. Ils vous ob... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité