DeepSeek v3, Microsoft Phi 4, OpenAI o3, de nouveaux outils et plus encore

DEV - 12/01
Bonjour les passionnés d'IA ! Bienvenue dans la première édition de « This Week in AI Engineering » — pour que vous puissiez...

Bonjour les passionnés d'IA !

Bienvenue dans la première édition de « This Week in AI Engineering » : vous pourrez ainsi vous tenir au courant de tous les derniers modèles et annonces open source chaque semaine, en 4 minutes ou moins.

De DeepSeek-V3 introduisant une efficacité révolutionnaire avec son architecture MoE au lancement par Microsoft de Phi-4, un petit modèle de langage redéfinissant les capacités de raisonnement, et OpenAI dévoilant o3, un modèle plus proche que jamais de l'AGI, nous aborderons toutes ces mises à jour avec quelques outils incontournables pour faciliter le développement d'agents et d'applications d'IA.

DeepSeek-V3 : une IA open source pionnière avec l'architecture MoE

DeepSeek-V3, un modèle de langage Mixture-of-Experts (MoE) de pointe, apporte une efficacité exceptionnelle avec 671B de paramètres, activant seulement 37B par jeton.

Les principales avancées comprennent :

  • Architecture : une stratégie d'équilibrage de charge auxiliaire sans perte réduit la dégradation des performances. La prédiction multi-jetons (MTP) permet un décodage spéculatif plus rapide pour l'inférence.

  • Efficacité de la formation : valide la précision du FP8 à grande échelle, en surmontant les goulots d'étranglement de communication entre nœuds pour un chevauchement presque complet entre calcul et communication. Pré-formation réalisée sur des jetons 14,8T avec seulement 2,664 millions d'heures GPU.

  • Post-formation : distille de manière innovante les compétences de raisonnement de DeepSeek-R1, améliorant ainsi le raisonnement, la réflexion et le contrôle des résultats.

  • DeepSeek-V3 surpasse les modèles open source et rivalise avec les leaders du secteur fermé, excellant dans les tâches de mathématiques ...
    [Courte citation de 8% de l'article original]

Loading...