Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
Swe-Bench Multimodal est la référence que les développeurs JavaScript pourraient explorer
DEV -
27/06
Nous avons récemment dirigé Refact.ai Agent sur Swe-Bench Multimodal, une référence qui honnêtement n'en a pas assez ...
Nous avons récemment dirigé Refact.ai Agent sur Swe-Bench Multimodal, une référence qui honnêtement n'obtient pas assez d'attention. C'est l'une des rares évaluations qui testent si l'IA peut corriger les bogues décrits à l'aide de captures d'écran (par exemple, des maquettes d'interface utilisateur, des diagrammes, des messages d'erreur, etc.).
Contrairement à Swe-Bench vérifié (Python uniquement), la version multimodale se concentre sur les bibliothèques Web et les tâches frontales. Cela le rend plus représentatif du débogage du monde réel, en particulier dans les environnements JavaScript où les bogues sont souvent signalés de cette façon.
Donc, je suis ici pour partager que notre agent AI Refact.ai a atteint le n ° 1 sur Swe-Bench Multimodal. Il a résolu 184 sur 517 tâches (35,59%) et l'a fait entièrement autonome. Nous avons également obtenu le score le plus élevé sur SWE-Bench vérifié parmi les agents de l'IA résolvant des tâches dans Pass @ 1 (dans une tentative).
Le pipeline SWE-Bench complet que nous avons utilisé est open-source et entièrement reproductible.
Vous pouvez exécuter Refact.ai dans VS Code, JetBrains ou Host, il peut corriger les bogues les plus difficiles, résoudre les tâches de développement de routine que vous déléguez, construire des solutions de travail à partir de zéro et vous aider à faire plus avec moins de codage manuel!
Dans cet article, je vais expliquer comment nous avons obtenu les meilleurs résultats sur Swe-Bench et la technologie derrière les courses.
# 1 L'agent ... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité