Votre pipeline CI / CD est un chef-d'œuvre de l'automatisation. Le code engage les builds de déclenchement, les tests exécutés en parallèle, les déploiements déploient avec zéro temps d'arrêt. Vous avez résolu le problème difficile de l'expédition du logiciel de manière fiable à grande échelle.
Mais vos fonctionnalités d'IA sont toujours déployées comme en 2005.
Vous écrivez une invite, le testez manuellement dans une interface de chat, le copiez-le dans votre base de code et poussez la production en espérant que cela fonctionne de la même manière. Quand il se casse - et il se brisera - vous déboguez en regardant les grumes et en ajustant des mots comme si vous lanciez des sorts.
Les mêmes équipes qui ne déploieraient jamais les modifications de schéma de base de données sans scripts de migration sont expédiées les fonctionnalités d'IA sans test systématique, sans base de performances et sans stratégies de retour.
Nous avons passé vingt ans à perfectionner une intégration continue pour le code. Nous devons maintenant construire une intégration continue pour l'intelligence.
Le CI / CD traditionnel fonctionne parce que le code est déterministe. La même entrée produit toujours la même sortie. Si vos tests unitaires passent en stadification, ils passeront en production. Si votre fonction gère correctement les cas Edge en développement, il les gérera correctement lors du déploiement.
L'IA rompt complètement ces hypothèses.
La même invite peut produire des sorties différentes entre les analyses, différents modèles ou différentes versions API. Une invite qui fonctionne parfaitement avec GPT-4 pourrait échouer catastrophiquement avec Claude. Une caractéristique qui gère magnifiquement les cas de test pourrait halluciner des bêtises dangereuses lors du déploiement.
Pourtant, la plupart des équipes traitent les fonctionnalités de l'IA comme tout autre changement de code. Ils testent manuellement, se déploient de manière optimiste et déboguent de manière réactive. Ils appliquent des pratiques de déploiement déterministes à des systèmes fondamentalement non déterministes.
Le résultat est les fonctionnalités de l'IA qui fonctionnent dans des démos mais échouent en production.
L'intégration contin...
[Courte citation de 8% de l'article original]