Comment réaliser la parole en temps réel avec l'API Dify

DEV - 24/08

Dify est une plate-forme SaaS open source permettant de créer des flux de travail LLM en ligne. J'utilise l'API pour créer...

Dify est une plate-forme SaaS open source permettant de créer des flux de travail LLM en ligne. J'utilise l'API pour créer une expérience d'IA conversationnelle sur mon application. J'avais du mal à obtenir des flux TTS comme réponse API et à les lire. Ici, je montre comment traiter les flux audio et les lire correctement.

J'utilise le point de terminaison de l'APIhttps://api.dify.ai/v1/chat-messagespour le chat textuel. Il renvoie les données audio dans le même flux que la réponse textuelle si nous avons activéSynthèse vocalefonctionnalité dans nos applications Dify.

PresseAJOUTER UNE FONCTIONbouton et ajouterSynthèse vocalefonctionnalité.

Vous pouvez vérifier la réponse de l'API avec la commande curl suivante.

curl -X POST 'https://api.dify.ai/v1/chat-messages' \ --header 'Autorisation : Porteur VOTRE_API_KEY' \ --header 'Content-Type : application/json' \ --data-raw '{ "inputs": {}, "query": "Quelles sont les spécifications de l'iPhone 13 Pro Max ?", "response_mode": "streaming", "conversation_id": "", "user": "abc-123 ", "fichiers": [] }'Passer en mode plein écran Quitter le mode plein écran

Je fais une démonstration en TypeScript / JavaScript mais vous pouvez appliquer la même logique à votre langage de programmation.

Anatomie des données diffusées en streaming

Tout d'abord, comprenons quel type de données Dify utilise pour les flux.

Format de données diffusées en continu

Dify utilise le format de données texte suivant. C'est comme les lignes JSON mais ce n'est pas exactement la même chose....
[Courte citation de 8% de l'article original]

Tags : dify - ai - llm - javascript - logiciel - codage - développement - ingénierie - inclusif - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1
Lien original, consulter l'article dans son intégralité ici : https://dev.to/ku6ryo/how-to-realize-real-time-speech-with-dify-api-4ii1
Lien direct sur notre site : http://newsexplorer.fr/article/20725951/Comment-r%C3%A9aliser-la-parole-en-temps-r%C3%A9el-avec-l%27API-Dify
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.