Ensembles de données et benchmarks CVPR 2024 - Partie 2 : Benchmarks

DEV - 30/04
Auteur : Harpreet Sahota (Hacker en résidence chez Voxel51) Dans la première partie de cette série, j'ai exploré certains...

Auteur : Harpreet Sahota (Hacker en résidence chez Voxel51)

Dans la première partie de cette série, j'ai exploré quelques ensembles de données intéressants présentés au CVPR 2024, soulignant comment ils contribueront à faire progresser la vision par ordinateur et l'apprentissage en profondeur.

Il est maintenant temps de porter notre attention sur l’autre côté de la médaille : les benchmarks.

Tout comme les musiciens ont besoin de scènes pour mettre en valeur leur talent, les modèles d'apprentissage profond ont besoin de références pour démontrer leurs capacités et repousser les limites du possible. Ces tâches et défis standardisés constituent un critère crucial pour évaluer et comparer différents modèles, favoriser une concurrence saine et accélérer les progrès.

Le CVPR 2024 a une fois de plus fourni une série de références innovantes qui répondent aux limites existantes et explorent de nouvelles frontières en matière de vision par ordinateur.

Dans cette deuxième partie de la série, je mettrai en avant trois benchmarks que j’ai trouvés intéressants :

  • ImageNet-D : tester la robustesse des classificateurs d'images face aux perturbations du monde réel.
  • Polaris : Évaluer la capacité des modèles de langage visuel à suivre des instructions en langage naturel dans des environnements interactifs.
  • VBench : suite de référence complète pour les modèles génératifs vidéo

Chacun de ces critères présente des défis et des opportunités uniques pour les chercheurs, poussant le domaine vers des modèles plus robustes. Dans les sections suivantes, je me concentrerai sur les aspects suivants de chaque ensemble de données :

Tâche et objectif : définissez clairement la tâche ou le problème spécifique évalué par le benchmark.

Ensemble de données et métrique d'évaluation : fournissez des détails sur le benchmark, y compris sa taille, sa composition et les métriques d'évaluation utilisées pour mesurer les performances du modèle.

Conception et protocole du benchmark : expliquez la conception et le protocole du benchmark, y compris la façon dont l'ensemble de données est divisé en ensembles de formation, de validation et de test.

Comparaison avec les benchmarks existants : comparez le nouveau benchmark à ceux existants dans le même domaine, en mettant en évidence ses défis uniques, ses critères d'évaluation et/ou la manière dont le benchmark complète ou améliore les benchmarks existants.

Résultats de pointe : présentez le classement du benchmark, s'il existe, et quels sont les modèles les plus performants. Si disponible, discutez des principales caractéristiques architecturales ou des stratégies de formation du modèle.

Impact et orientations futures : discutez de l'impact potentiel du benchmark, de la manière dont il peut orienter la recherche dans de nouvelles directions et relever les défis importants des benchmarks existants.

ImageNet-D

tl;dr

  • Tâche : Reconnaissance d'objets sur des images synthétiques
  • Métrique : Précision Top-1
  • Papier
  • GitHub
  • Ensemble de données sur le visage câlin

Tâche et domaine

Le benchmark ImageNet-D évalue la robustesse des réseaux de neurones dans les tâches de reconnaissance d'objets à l'aide d'images synthétiques générées par des modèles de diffusion.

  • Il évalue les performances de divers modèles de vision, allant des classificateurs visuels standards aux modèles de base comme CLIP et MiniGPT-4.
  • L'objectif principal est de tester rigoureusement la robustesse de ces modèles pour identifier correctement les objets dans des conditions difficiles.
  • Le benchmark se concentre explicitement sur des images « dures » conçues pour tester les capacités de perception des modèles.
  • À l'aide d'images synthétiques générées par des modèles de diffusion, ImageNet-D fournit une évaluation rigoureuse de la capacité des réseaux de neurones à gérer les variations de représentation des objets.

Conservation, taille et composition des ensembles de données

Les images synthétiques ont été générées à l’aide de modèles de diffusion stable pilotés par des invites linguistiques. Ils ont testé la robustesse des systèmes de reconnaissance visuelle en utilisant divers arrière-plans, textures et matériaux pour mettre à l'épreuve les capacités de perception des modèles.

  • Il comprend 4 835 images difficiles réparties dans 113 catégories qui se chevauchent entre ImageNet et ObjectNet.
  • Les images présentent un large éventail d'arrière-plans (3 764), de textures (498) et de matériaux (573) pour repousser les limites des modèles de reconnaissance d'objets.
  • L'ensemble de données est généré en associant chaque objet à 547 candidats nuisibles de l'ensemble de données Broden, ce qui donne lieu à diverses images synthétiques réalistes et stimulantes.
  • La principale mesure d'évaluation est la précision de premier ordre en matière de reconnaissance d'objets, qui mesure la proportion d'images correctement classées.
  • Comparé aux ensembles de données standards, ImageNet-D s'avère nettement plus complexe, comme en témoigne la baisse notable des pourcentages de précision pour divers modèles ...
    [Courte citation de 8% de l'article original]
Loading...