Aujourd’hui, on parle d’augmentation des données dans le monde de l'intelligence artificielle. Derrière ce terme, une idée simple. Il s'agit de créer, à partir de vos données existantes, de nouvelles variantes synthétiques pour entraîner des modèles de machine learning plus robustes.
Pourquoi c’est utile ? Parce que dans la vraie vie, les jeux de données sont souvent limités, sensibles, ou pas assez variés. Alors on enrichit artificiellement le jeu d’entraînement… mais intelligemment.
Je vous propose trois points pour tout comprendre avec l'aide d'une documentation AWS sur le sujet.
L’augmentation des données améliore la performance et la généralisation des modèles. En multipliant les versions d’une même donnée, une image un peu plus sombre, un texte reformulé, un son avec un léger bruit, le modèle voit plus de cas et se trompe moins sur des données qu’il n’a jamais vues.
Et cette augmentation des données réduit la dépendance à de très gros jeux de données, donc coûte moins cher.
Elle limite également le ...
[Courte citation de 8% de l'article original]