Des chercheurs de chez Microsoft ont publié Visual ChatGPT, une version plus évoluée du chatbot capable de comprendre le contenu des images, ainsi que de générer ou d’éditer des images à la demande.
L'un des principaux points faibles de l'intelligence artificielle conversationnelle ChatGPTChatGPT est qu'elle est limitée au texte uniquement. Pour résoudre ce problème, des chercheurs de chez MicrosoftMicrosoft viennent de publier une nouvelle version de ChatGPT baptisée Visual ChatGPT. Dans l’article associé, ils expliquent comment ils ont réussi à intégrer la prise en charge des images dans ChatGPT sans toucher à l'IA elle-même.
Plutôt que de reconstruire complètement ChatGPT pour prendre en charge différentes modalités (audio, images, vidéos...), ils ont décidé de s'appuyer sur les modèles de fondation visuels (VFM) préexistants, comme Stable Diffusio...
[Courte citation de 8% de l'article original]