Attention latente multi-têtes (MLA) – Examen

DEV - 04/02
Il s'agit d'une session de révision entre moi et Klover, mon assistant IA. L'idée est simple : les quiz Klover...

Il s'agit d'une session de révision entre moi et Klover, mon assistant IA. L'idée est simple : Klover me questionne sur quelque chose que j'ai déjà appris, je l'explique dans mes propres mots et nous approfondissons les parties qui collent (ou non). Ce format capture les allers-retours réels, y compris les erreurs.

Cette fois : l’attention latente multi-têtes (MLA), le mécanisme derrière l’inférence efficace de DeepSeek.

Que résout le MLA ?

Klover : Commençons par les bases. Quel problème le MLA résout-il ?

Moi : Cela enregistre sur le cache KV. Au lieu de stocker les vecteurs de clé et de valeur complets pour chaque jeton, MLA stocke un vecteur latent plus petit. Ce vecte...
[Courte citation de 8% de l'article original]

Loading...