Comment Fishjam.io a créé un jeu d'IA multi-enceintes à l'aide de Gemini Live

DEV - 09/02
Imaginez un dîner animé : des verres qui tintent, des phrases à moitié terminées et trois personnes qui rient...

Imaginez un dîner animé : des verres tintent, des phrases à moitié terminées et trois personnes rient en même temps. Pour un humain, s’y retrouver est instinctif. Pour une IA, c'est un cauchemar. Les développeurs maîtrisent efficacement le flux prévisible d’une conversation en tête-à-tête. Mais gérer une conversation de groupe, où les gens s’interrompent et se parlent, est beaucoup plus difficile.

Bernard Gawor et l'équipe Fishjam de Software Mansion ont décidé de présenter leur solution Selective Forwarding Unit en créant une application de démonstration unique qui résout ce problème. C’est ainsi que le jeu Deep Sea Stories a vu le jour.

Le principe est simple : un groupe de détectives entre dans une salle de conférence pour résoudre un mystère. Le rebondissement ? Le "Riddle Master", l'entité qui connaît la solution secrète et répond aux questions, est en fait un agent Gemini Voice AI. Cela obligeait l'agent à écouter, comprendre et répondre à un groupe d'utilisateurs en temps réel.

L'anatomie d'un agent vocal

Tout d’abord, regardons comment un AI Voice Agent traite généralement les données. Il fonctionne généralement via un pipeline modulaire qui comprend les étapes suivantes :

  • Speech-to-Text (S2T) : le système convertit la saisie orale de l'utilisateur en texte à l'aide de modèles tels que Google Speech-to-Text, OpenAI Whisper ou le service de transcription d'ElevenLabs.
  • Large Language Model (LLM) : le texte transcrit est traité par un LLM (par exemple Gemini, GPT-4, Claude) pour comprendre le contexte et générer une réponse textuelle appropriée.
  • Synthèse vocale (TTS) : la réponse textuelle est reconvertie en parole naturelle à l'aide de services tels que Google Cloud TTS, ElevenLabs ou Azure TTS.
  • Streaming audio en temps réel : l'audio est restitué à l'utilisateur avec une laten...
    [Courte citation de 8% de l'article original]
Loading...