Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
Mistral 7B contre Mixtral 8x7B
DEV -
26/03
Une startup française, Mistral AI a publié deux impressionnants grands modèles de langage (LLM) - Mistral 7B...
Une startup française, Mistral AI a publié deux impressionnants grands modèles de langage (LLM) : Mistral 7B et Mixtral 8x7B. Ces modèles repoussent les limites des performances et introduisent une meilleure innovation architecturale visant à optimiser la vitesse d'inférence et l'efficacité des calculs.
Mistral 7B : petit mais puissant
Mistral 7B est un modèle de transformateur de 7,3 milliards de paramètres qui dépasse sa catégorie de poids. Malgré sa taille relativement modeste, il surpasse les 13 milliards de paramètres du modèle Llama 2 dans tous les benchmarks. Il surpasse même le plus grand modèle Llama 1 de 34 milliards de paramètres pour les tâches de raisonnement, de mathématiques et de génération de code.
Deux fondements de l'efficacité de Mistral 7B :
Attention aux requêtes groupées (GQA)
Attention à fenêtre coulissante (SWA)
GQA accélère considérablement la vitesse d'inférence et réduit les besoins en mémoire pendant le décodage en partageant les clés et les valeurs sur plusieurs requêtes au sein de chaque couche de transformateur.
SWA, d'autre part, permet au modèle de gérer des séquences d'entrée plus longues à un coût de calcul inférieur en introduisant une « fenêtre d'attention » configurable qui limite le nombre de jetons auxquels le modèle s'occupe à un moment donné.
Nom
Nombre de paramètres
Nombre de paramètres actifs
Min. RAM GPU pour l'inférence (Go)
Mistral-7B-v0... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité