Dans cet article, nous explorerons en détail le sujet de Apprentissage auto-supervisé, une question très pertinente qui a retenu l'attention des experts et du grand public. Au fil des années, Apprentissage auto-supervisé a fait l’objet de débats et de discussions dans divers domaines, suscitant un véritable intérêt pour son impact sur la société. A travers une analyse exhaustive, nous aborderons les différentes perspectives et arguments liés à Apprentissage auto-supervisé, dans le but de faire la lumière sur ce sujet complexe. De même, nous examinerons son évolution dans le temps et son influence sur le présent, offrant au lecteur une vision complète et actualisée de Apprentissage auto-supervisé.
Type |
Apprentissage automatique, weakly supervised learning (en) |
---|---|
Nom court |
(en) SSL |
L'apprentissage auto-supervisé (en anglais : self-supervised learning, SSL) est une méthode d'apprentissage automatique où le modèle apprend à partir d'échantillons de données non annotées. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. L'apprentissage auto-supervisé est typiquement utilisé sur des architectures à base de réseau de neurones artificiels[1]. Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau[2],[3]. Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé[4],[5],[6]. L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale[7]. Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets[8].
Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas[9].
Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs[9].
Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9].
Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. Cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données[10]. Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8].
Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes[10].
L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3].
Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[11].
L'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre[7].
Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche[12].
Le GPT-3 d'OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres[13].
Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés[14].
DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de les apprendre via la mise à jour du gradient[9] .