Apprentissage auto-supervisé et défis liés à la conservation des données

Les chercheurs et les entreprises spécialisés dans l’IA repoussent sans cesse les limites pour développer des modèles d’apprentissage automatique plus vastes et plus avancés. Ces modèles devenant de plus en plus complexes, la recherche d’ensembles de données appropriés pour une formation efficace constitue un défi de taille.

Les ensembles de données traditionnels peuvent ne plus suffire en raison de leur taille, de leur diversité ou de leur qualité, ce qui fait de la recherche et de la création de meilleurs ensembles de données une priorité absolue dans le développement de l’IA.

Nouvelle méthode de curation de données par Meta et Google

En réponse au besoin croissant d’ensembles de données de formation de haute qualité, un effort de collaboration entre des chercheurs de Meta AI, Google, l’INRIA et l’Université Paris Saclay a conduit au développement d’une nouvelle technique de curation automatique des données.

Les besoins des systèmes d’apprentissage auto-supervisé (SSL) sont spécifiquement ciblés, dans le but de réduire radicalement les obstacles associés à la préparation des ensembles de données.

L’automatisation du processus de curation a aidé les chercheurs à ouvrir la voie à une formation de modèles plus efficace et plus évolutive, ouvrant ainsi de nouvelles possibilités pour les applications de l’IA.

Principes fondamentaux de l’apprentissage auto-supervisé

SSL est une méthode transformatrice de l’apprentissage automatique, qui consiste à former des modèles à l’aide de données non étiquetées. Contrairement à l’apprentissage supervisé qui s’appuie fortement sur des données annotées, SSL exploite les modèles et les structures inhérents aux données brutes, évitant ainsi la nécessité d’une saisie manuelle extensive.

Les processus de préparation des données sont simplifiés et l’évolutivité des modèles d’IA est améliorée.

En exploitant les données non étiquetées, SSL peut utiliser de vastes quantités d’informations qui étaient auparavant inaccessibles en raison des contraintes d’étiquetage, ce qui élargit considérablement l’horizon de formation des systèmes d’IA.

La qualité des données est une préoccupation essentielle

Dans SSL, la qualité des données influence directement la performance des modèles qui en résultent. En règle générale, les ensembles de données rassemblés à la hâte sur l’internet présentent une distribution inégale, où quelques concepts dominants éclipsent les autres.

Les déséquilibres conduisent à des ensembles de données qui faussent l’apprentissage du modèle, limitant sa capacité à se généraliser efficacement à des exemples nouveaux et variés. Pour que SSL progresse réellement, il est essentiel de maintenir une qualité de données élevée qui évite ces écueils.

Caractéristiques idéales des ensembles de données SSL

Les chercheurs s’accordent à dire que pour que SSL atteigne son plein potentiel, les ensembles de données qu’il utilise doivent être étendus, diversifiés et équilibrés. Toutefois, la réalisation manuelle de cette tâche est un processus laborieux qui ralentit la capacité d’adapter efficacement la formation au modèle.

Les processus de curation manuelle, bien que moins exigeants que l’annotation de chaque donnée, constituent toujours un goulot d’étranglement important, limitant la vitesse et l’efficacité avec lesquelles de nouveaux modèles peuvent être formés et déployés.

Techniques puissantes de curation automatique des ensembles de données

La méthode de curation innovante développée par les chercheurs automatise l’équilibrage des ensembles de données à l’aide de modèles d’intégration avancés et d’algorithmes basés sur le regroupement. Pour ce faire, il faut d’abord calculer les liens pour tous les points de données, en saisissant leurs caractéristiques sémantiques et conceptuelles.

Les emboîtements servent de base au regroupement des points de données de manière à mettre l’accent sur les concepts les moins communs, ce qui permet de résoudre les problèmes de déséquilibre.

Un élément clé de cette technique est l’utilisation de l’algorithme de regroupement k-means, qui regroupe les points de données en fonction de leurs similitudes. Le regroupement traditionnel par k-moyennes, bien qu’efficace, conduit souvent à des regroupements dominés par des concepts surreprésentés, ce qui ne résout pas le problème du déséquilibre.

Pour y remédier, les chercheurs mettent en œuvre un processus hiérarchique sophistiqué de k-moyennes en plusieurs étapes. Les points de données sont regroupés de manière plus équitable, en veillant à ce que chaque étape de regroupement maintienne un équilibre, ce qui permet d’obtenir un ensemble de données plus représentatif et plus efficace.

Les stratégies de regroupement en couches garantissent que tous les concepts, en particulier ceux qui sont moins fréquents, sont représentés de manière adéquate. Le clustering équilibré améliore la diversité de l’ensemble de données et renforce la robustesse et la généralisation des modèles SSL formés sur ces ensembles de données.

Grâce à cette curation automatique, le processus de préparation des ensembles de données est rationalisé, ce qui permet aux organisations de développer leurs initiatives d’IA plus rapidement et avec moins d’interventions manuelles.

Avantages du regroupement hiérarchique

Le regroupement hiérarchique offre une méthode dynamique pour organiser les données en grappes qui s’agrègent progressivement de groupes spécifiques à des groupes généraux. Les grappes de données sont structurées comme un arbre, en partant de nombreuses petites grappes et en les fusionnant pour obtenir des grappes plus grandes et plus complètes.

À chaque étape, l’algorithme veille à ce que les grappes restent équilibrées, ce qui permet de remédier efficacement aux disparités susceptibles de fausser l’analyse des données et l’apprentissage des modèles.

Décrit comme un « algorithme de curation générique », le regroupement hiérarchique fonctionne indépendamment des tâches spécifiques qu’il prendra en charge par la suite. Cela lui permet d’extraire des informations précieuses à partir de sources de données brutes, ce qui en fait un outil puissant pour diverses applications dans différents domaines.

Cette méthode s’adapte également de manière transparente à différents types de données, ce qui améliore son utilité dans divers projets d’IA.

Valider et appliquer les ensembles de données conservées

Des évaluations approfondies révèlent que l’utilisation d’ensembles de données automatisés améliore les performances des modèles de vision artificielle, en particulier dans les tâches de classification d’images. Les ensembles de données sont particulièrement efficaces pour les exemples hors distribution, car ils améliorent considérablement la capacité du modèle à se généraliser au-delà de ses données d’apprentissage.

Les modèles entraînés sur des ensembles de données traités automatiquement atteignent des niveaux de performance comparables à ceux entraînés sur des ensembles de données traités manuellement, mais ils le font avec beaucoup moins de temps et d’efforts humains. Il s’agit d’une avancée majeure dans la préparation des ensembles de données, car elle réduit la charge logistique et accélère la préparation des modèles en vue de leur déploiement.

Applications au-delà de la vision par ordinateur

L’utilité des techniques de regroupement hiérarchique s’étend à d’autres domaines critiques tels que le traitement du langage naturel et la télédétection. Par exemple, lorsqu’elle est appliquée à des données textuelles, cette stratégie de curation facilite l’apprentissage de modèles de langage de grande taille qui sont plus performants dans toute une série de tests de référence.

De même, dans le contexte de l’imagerie satellitaire utilisée pour prédire la hauteur de la canopée, les ensembles de données traités à l’aide de cette technique ont permis d’améliorer considérablement les performances. Ces méthodes sont adaptables et largement applicables, ce qui souligne leur potentiel de transformation des pratiques de conservation des données dans de multiples domaines et industries.

Ce que cela signifie pour l’industrie de l’IA

L’introduction de techniques de conservation automatique des ensembles de données devrait permettre de réduire considérablement les coûts et la main-d’œuvre traditionnellement associés à l’annotation et à la préparation des ensembles de données.

Pour les géants de la technologie tels que Meta et Google, qui gèrent de vastes quantités de données brutes inexploitées, ces méthodes sont particulièrement transformatrices. Ils permettent une conversion plus efficace des données brutes en ensembles de données formables, accélérant ainsi le rythme de l’innovation en matière d’IA.

En réduisant leur dépendance à l’égard de la curation manuelle des données, les entreprises peuvent s’adapter plus rapidement aux technologies émergentes de l’IA et en tirer parti.

Le potentiel de ces techniques pour rationaliser et améliorer la formation des modèles d’apprentissage automatique est immense.

Alors que la demande de solutions d’IA sophistiquées continue de croître, la capacité à préparer rapidement et efficacement des ensembles de données de haute qualité deviendra probablement une pierre angulaire de l’avantage concurrentiel dans l’industrie technologique, influençant les développements futurs de l’IA et de l’apprentissage automatique.

Tim Boesen

juin 10, 2024

8 Min