Mistral 7B contre Mixtral 8x7B

DEV - 26/03
Une startup française, Mistral AI a publié deux impressionnants grands modèles de langage (LLM) - Mistral 7B...

Une startup française, Mistral AI a publié deux impressionnants grands modèles de langage (LLM) : Mistral 7B et Mixtral 8x7B. Ces modèles repoussent les limites des performances et introduisent une meilleure innovation architecturale visant à optimiser la vitesse d'inférence et l'efficacité des calculs.

Mistral 7B : petit mais puissant

Mistral 7B est un modèle de transformateur de 7,3 milliards de paramètres qui dépasse sa catégorie de poids. Malgré sa taille relativement modeste, il surpasse les 13 milliards de paramètres du modèle Llama 2 dans tous les benchmarks. Il surpasse même le plus grand modèle Llama 1 de 34 milliards de paramètres pour les tâches de raisonnement, de mathématiques et de génération de code.

Deux fondements de l'efficacité de Mistral 7B :

  1. Attention aux requêtes groupées (GQA)
  2. Attention à fenêtre coulissante (SWA)

GQA accélère considérablement la vitesse d'inférence et réduit les besoins en mémoire pendant le décodage en partageant les clés et les valeurs sur plusieurs requêtes au sein de chaque couche de transformateur.

SWA, d'autre part, permet au modèle de gérer des séquences d'entrée plus longues à un coût de calcul inférieur en introduisant une « fenêtre d'attention » configurable qui limite le nombre de jetons auxquels le modèle s'occupe à un moment donné.

NomNombre de paramètresNombre de paramètres actifsMin. RAM GPU pour l'inférence (Go)
Mistral-7B-v0...
[Courte citation de 8% de l'article original]
Loading...