Évaluation des modèles LLM dans GitHub Copilot. Un guide pratique de notation et d’évaluation

DEV - 06/03
Un guide pratique pour évaluer et noter les modèles LLM disponibles dans GitHub Copilot pour vos flux de travail.

Évaluation des modèles LLM dans GitHub Copilot. Un guide pratique de notation et d’évaluation

GitHub Copilot nous donne accès à un ensemble rapide de LLM provenant de plusieurs fournisseurs. C’est formidable pour l’innovation, mais cela crée également un problème pratique pour les équipes. Quel modèle devriez-vous utiliser pour une tâche spécifique, et comment justifier cette décision par des preuves plutôt que par votre intuition ?

Ce guide est un cadre pratique que vous pouvez utiliser avec votre propre réseau et votre propre équipe. Nous expliquerons comment fonctionne l'évaluation des modèles, comment créer votre propre approche de notation et comment effectuer des comparaisons reproductibles afin que vous puissiez choisir des modèles en toute confiance à mesure que de nouvelles versions arrivent.

Pourquoi l'évaluation du modèle est importante

Le choix d'un modèle n'est plus une décision ponctuelle.

  • Les modèles sont spécialisés : certains conviennent mieux aux tâches rapides et légères, d'autres au raisonnement et au débogage plus approfondis.
  • Le coût compte : différents modèles ont différents multiplicateurs de demande de prime dans Copilot.
  • Les catalogues de modèles changent fréquemment : de nouveaux modèles sont ajoutés et les plus anciens sont retirés.
  • Les équipes ont besoin de cohérence : des critères d'évaluation partagés permettent d'éviter les changements de modèle aléatoires et la qualité inégale des résultats.

Si vous n'évaluez pas, vous optimisez généralement ce qui vous semble le plus rapide sur le moment. Cela crée souvent des coûts cachés ultérieurs lors des retouches, des cycles de révision et des problèmes de fiabilité.

Modèles disponibles dans GitHub Copilot aujourd'hui

GitHub maintient une référence en direct des modèles d'IA pris en charge. Le point le plus important est le suivant. Considérez les documents comme la source de vérité, car la disponibilité peut varier selon le client, le plan et le cycle de publication.

  • Modèles pris en charge : https://docs.github.com/en/copilot/reference/ai-models/supported-models
  • Comparaison de modèles : https://docs.github.com/en/copilot/reference/ai-models/model-comparison

Au moment de la rédaction, Copilot comprend des modèles de :

  • OpenAI (par exemple famille GPT et variantes Codex)
  • Anthropique (famille Claude)
  • Google (famille Gémeaux)
  • xAI (par exemple Grok Code Fast 1)
  • Options optimisées par Copilot en avant-première

Une manière pratique de réfléchir au choix du modèle :

  • Tâches rapides/simples : aide rapide sur la syntaxe, petites modifications, transformations répétitives
  • Codage/écriture générale : codage quotidien, documentation, support au refactoring
  • Raisonnement/débogage approfondi : investigations en plusieurs étapes, décisions au niveau de l'architecture, analyse de défauts complexes
  • Workflows agents : tâches de codage de longue durée en modes chat/agent

A noter également :

  • La sélection automatique du modèle est disponible dans les expériences de discussion IDE prises en charge et peut choisir un modèle automatiquement.
  • Vous pouvez toujours annuler manuellement lorsque vous disposez de preuves issues de votre propre évaluation.

Comment les...
[Courte citation de 8% de l'article original]

Loading...