Comment réaliser la parole en temps réel avec l'API Dify

DEV - 24/08
Dify est une plate-forme SaaS open source permettant de créer des flux de travail LLM en ligne. J'utilise l'API pour créer...

Dify est une plate-forme SaaS open source permettant de créer des flux de travail LLM en ligne. J'utilise l'API pour créer une expérience d'IA conversationnelle sur mon application. J'avais du mal à obtenir des flux TTS comme réponse API et à les lire. Ici, je montre comment traiter les flux audio et les lire correctement.

J'utilise le point de terminaison de l'APIhttps://api.dify.ai/v1/chat-messagespour le chat textuel. Il renvoie les données audio dans le même flux que la réponse textuelle si nous avons activéSynthèse vocalefonctionnalité dans nos applications Dify.

PresseAJOUTER UNE FONCTIONbouton et ajouterSynthèse vocalefonctionnalité.

Vous pouvez vérifier la réponse de l'API avec la commande curl suivante.

curl -X POST 'https://api.dify.ai/v1/chat-messages' \ --header 'Autorisation : Porteur VOTRE_API_KEY' \ --header 'Content-Type : application/json' \ --data-raw '{ "inputs": {}, "query": "Quelles sont les spécifications de l'iPhone 13 Pro Max ?", "response_mode": "streaming", "conversation_id": "", "user": "abc-123 ", "fichiers": [] }'
Passer en mode plein écran Quitter le mode plein écran

Je fais une démonstration en TypeScript / JavaScript mais vous pouvez appliquer la même logique à votre langage de programmation.

Anatomie des données diffusées en streaming

Tout d'abord, comprenons quel type de données Dify utilise pour les flux.

Format de données diffusées en continu

Dify utilise le format de données texte suivant. C'est comme les lignes JSON mais ce n'est pas exactement la même chose....
[Courte citation de 8% de l'article original]

Loading...