Cet article abordera Apprentissage profond sous différents angles, afin d'offrir aux lecteurs une vue complète et détaillée sur ce sujet. Les aspects pertinents seront analysés, les données pertinentes seront présentées et divers avis d'experts dans le domaine seront proposés. Apprentissage profond est un sujet qui suscite un grand intérêt et une grande curiosité dans la société actuelle, il est donc essentiel d'approfondir son étude pour comprendre son importance et son impact dans différents domaines. Tout au long de cet article, différentes facettes de Apprentissage profond seront explorées, dans le but de fournir aux lecteurs un aperçu complet et enrichissant de ce sujet.
L'apprentissage profond[1],[2] ou apprentissage en profondeur[1] (en anglais : deep learning) est un sous-domaine de l’intelligence artificielle qui utilise des réseaux neuronaux artificiels formant de nombreuses couches pour résoudre des tâches complexes. L'apprentissage profond permet des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel, notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. Les développements de l'apprentissage profond sont rendus possibles par des investissements privés et publics importants, notamment de la part des GAFAM (Google, Apple, Facebook, Amazon, Microsoft)[3], durant les années 2000.
Définition
Pour créer un modèle informatique prédictif de manière classique, on modélise les données par extraction de caractéristiques, cette dernière étant souvent effectuée au moyen d'un algorithme. Selon la méthode de l'apprentissage profond, l'extraction de caractéristiques résulte elle-même d'un processus d'apprentissage : on parle donc d'apprentissage de représentations. En pratique, la machine apprend des représentations hiérarchisées, souvent dans les couches cachées de réseaux de neurones artificiels, chacune étant définie à partir de représentations plus simples[DLB2016 1]. Ces représentations étant apprises directement à partir des données, cela évite que les humains aient à expliciter la manière de les construire au moyen d'un algorithme. Si l'on représente la manière dont ces représentations sont construites les unes à partir des autres au moyen d'un graphe, celui-ci sera profond, avec de multiples couches, justifiant ainsi la qualification de « profond ».
Un exemple de réseau de neurones avec une seule couche cachée (en bleu).
L’apprentissage profond fait partie d’une famille de méthodes d'apprentissage automatique fondées sur l’apprentissage de représentations de données. Une observation peut être représentée de différentes façons. Une image peut être modélisée par exemple par un vecteur, une matrice ou un tenseur de données décrivant la scène observée, notamment en fonction :
Une des finalités des techniques d'apprentissage profond consiste à remplacer certaines tâches simples telles que des calculs mathématiques, encore relativement laborieux, par des modèles algorithmiques d’apprentissage supervisé et non supervisé (c’est-à-dire prenant ou non en compte des connaissances spécifiques du domaine étudié) ou encore par des techniques d’extraction hiérarchique des caractéristiques.
Les recherches dans ce domaine s’efforcent de construire de meilleures représentations du réel et de créer des modèles capables d’apprendre ces représentations à partir de données brutes et non-travaillées en amont par l'homme, et ce à grande échelle. Certaines[Lesquelles ?] de ces représentations s’inspirent des dernières avancées en neuroscience. Il s'agit, donc pour résumer d'interprétations du traitement de l'information et des modèles de communication du système nerveux, à l'image de la façon dont le système nerveux établit des connexions en fonction des messages reçus, de la réponse neuronale et du poids des connexions entre les neurones du cerveau.
Les premières couches d'un réseau neuronal convolutif identifient des motifs relativement simples, comme des contours, et les couches suivantes identifient des motifs de plus en plus complexes.
Des bases de données suffisamment grandes, capables d'entraîner des systèmes de grandes tailles[10].
En 2015, le programme AlphaGo, à qui l'on a « appris » à jouer au jeu de go grâce à la méthode de l'apprentissage profond, bat le champion européen Fan Hui[11] par cinq parties à zéro. En , le même programme bat le champion du monde Lee Sedol par 4 parties à 1[12].
En 2019, OpenAI publie GPT-2, un modèle de fondation capable de générer du texte. Tout en exprimant leurs inquiétudes sur les détournements possibles de ce type de technologie, les chercheurs de l'association renoncent à partager la version complète[13].
Domaines d'application
L'apprentissage profond s'applique à divers secteurs des NTIC, notamment :
la reconnaissance visuelle, par exemple la reconnaissance d'un panneau de signalisation par un robot ou une voiture autonome[14], ou la reconnaissance d'emplacements dans une image en combinant ses caractéristiques, comme un lit, une fenêtre et des affiches peuvent indiquer une chambre[15]. Elle aide à prédire certaines propriétés (ex. : les propriétés d'un sol filmé par un robot[16]) ;
la reconnaissance ou la comparaison de formes[17] ou d'objets hautement déformables[18] ;
l'analyse de mouvements et positions des doigts d'une main, ce qui peut être utile pour traduire les langues signées[19] ;
le positionnement automatique d'une caméra, etc.[20] ;
poser, dans certains cas (à partir de l'imagerie médicale notamment), un diagnostic médical (ex. : reconnaissance automatique d'un cancer en imagerie médicale[26], mélanome notamment[27] ; détection automatique de la maladie de Parkinson (par la voix)[28] ; diagnostic d'une rétinopathie[29], de métastases de cancer du sein[30] et d'autres problèmes biomédicaux[31], classer les arythmies cardiovasculaires[32], pronostics[33], et prédiction de mortalité hospitalière ainsi que de réadmissions aux urgences[34]. L'apprentissage profond peut aussi améliorer le soin médical[35],[36]. Une application du deep learning en santé publique est le projet Horus[37], un appareil portable utilisant la plate-forme NVidia Jetson, qui aide les mal-voyants ou les aveugles à s'orienter et à reconnaître des personnes ou des objets, en retranscrivant en audio une image captée par une caméra. Des liens entre l'apprentissage profond et la théorie de jeux ont été établis par Hamidou Tembine en utilisant notamment des jeux de type champ moyen[38] ;
Sont pointés de possibles usages malveillants de l'apprentissage profond. Il est devenu possible avec les hypertrucages d'incruster le visage d'une personne sur une autre, à son insu, et de lui faire faire ou dire des choses qu'elle n'a pas faites (comme dans le film Running Man de 1986), l'apprentissage profond recréant les mouvements du visage en rendant l'incrustation ressemblante. Ainsi, plusieurs actrices comme Gal Gadot, Emma Watson, Cara Delevingne, Emma Stone, Natalie Portman ou Scarlett Johansson se sont retrouvées avec leur visage incrusté sur celui d'une actrice pornographique, soulevant des craintes quant à la généralisation d'un tel usage, permettant à n'importe qui de nuire à la réputation d'une autre personne[42]. Face à ce danger, plusieurs plates-formes telles que Pornhub, Twitter et Reddit ont réagi en interdisant la publication de telles vidéos, et l'utilisateur « deepfakes », créateur du logiciel éponyme permettant à tout usager de créer des fausses vidéos à caractère pornographique, a été banni de Reddit et son fil dédié supprimé[43].
↑ a et bB. Alipanahi, A. Delong, M. T. Weirauch et B. J. Frey (2015), « Predicting the sequence specificities of DNA-and RNA-binding proteins by deep learning », Nature Biotechnology (résumé).
↑David Larousserie et Morgane Tual, « Première défaite d’un professionnel du go contre une intelligence artificielle », Le Monde, (lire en ligne).
↑William Audureau, « Jeu de go : pour Lee Sedol, la victoire de la machine est moins tactique que psychologique », Le Monde, (ISSN1950-6244, lire en ligne, consulté le ).
↑(en) Dan Cireşan, Ueli Meier, Jonathan Masci et Jürgen Schmidhuber, « Multi-column deep neural network for traffic sign classification », Neural Networks, vol. 32 « Selected Papers from IJCNN 2011 », , p. 333-338 (ISSN0893-6080, e-ISSN1879-2782, PMID22386783, DOI10.1016/j.neunet.2012.02.023).
↑(en) Matthew Veres, Griffin Lacey et Graham W. Taylor, « Deep Learning Architectures for Soil Property Prediction », dans 2015 12th Conference on Computer and Robot Vision (CRV), (ISBN978-1-4799-1986-4, DOI10.1109/CRV.2015.15, lire en ligne ).
↑(en) I. Mariolis, G. Peleka, A. Kargakos et S. Malassiotis, « Pose and category recognition of highly deformable objects using deep learning », International Conference on Advanced Robotics (ICAR), juillet 2015, p. 655-662, IEEE (résumé).
↑(en) Rose Moskolai, Wahabou Abdou, Albert Dipanda et Kolyang, « Application of Deep Learning Architectures for Satellite Image Time Series Prediction: A Review », Remote Sensing, vol. 13, no 23, , p. 4822 (lire en ligne).
↑(en) M. Cai, Y. Shi et J. Liu (2013), « Deep maxout neural networks for speech recognition », Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop, p. 291-296, IEEE, 198.
↑(en) W. Y. Lim, A. Ong, L. L. Soh et A. Sufi (2016), « Teachers' Voices and Change: The Structure and Agency Dialectics that Shaped Teachers' Pedagogy Toward Deep Learning », Future Learning in Primary Schools, p. 147-158, Springer Singapore.
↑A. Halpern et J. R. Smith (octobre 2015), « Deep Learning, Sparse Coding, and SVM for Melanoma Recognition in Dermoscopy Images », dans Machine Learning in Medical Imaging: 6th International Workshop, MLMI 2015, organisé en conjunction avec MICCAI 2015, Munich, Allemagne, , Proceedings (Vol. 9 352, p. 118), Springer (résumé).
↑(en) Laetitia Jeancolas, Dijana Petrovska-Delacrétaz, Graziella Mangone, Badr-Eddine Benkelfat, Jean-Christophe Corvol, Marie Vidailhet, Stéphane Lehéricy et Habib Benali, « X-Vectors: New Quantitative Biomarkers for Early Parkinson's Disease Detection From Speech », Frontiers in Neuroinformatics, vol. 15, (ISSN1662-5196, DOI10.3389/fninf.2021.578369, lire en ligne).
↑(en) Varun Gulshan, Lily Peng, Marc Coram et Martin C. Stumpe, « Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs », JAMA, vol. 316, no 22, , p. 2402 (ISSN0098-7484, DOI10.1001/jama.2016.17216, lire en ligne, consulté le ).
↑« NASA/ADS », sur ui.adsabs.harvard.edu (consulté le ).
↑(en) Travers Ching, Daniel S. Himmelstein, Brett K. Beaulieu-Jones et Alexandr A. Kalinin, « Opportunities and obstacles for deep learning in biology and medicine », Journal of The Royal Society Interface, vol. 15, no 141, , p. 20170387 (ISSN1742-5689 et 1742-5662, PMID29618526, PMCIDPMC5938574, DOI10.1098/rsif.2017.0387, lire en ligne, consulté le ).
↑(en) G. S. Collins, J. B. Reitsma, D. G. Altman et K. G. M. Moons, « Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement », BMJ, vol. 350, no jan07 4, , g7594–g7594 (ISSN1756-1833, DOI10.1136/bmj.g7594, lire en ligne, consulté le ).
↑(en) Riccardo Miotto, Li Li, Brian A. Kidd et Joel T. Dudley, « Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records », Scientific Reports, vol. 6, no 1, (ISSN2045-2322, PMID27185194, PMCIDPMC4869115, DOI10.1038/srep26094, lire en ligne, consulté le ).
↑(en) H. Tembine, « Deep Learning Meets Game Theory: Bregman-Based Algorithms for Interactive Deep Generative Adversarial Networks », IEEE Transactions on Cybernetics, , p. 1–14 (DOI10.1109/TCYB.2018.2886238, lire en ligne, consulté le ).
↑P. Baldi et S. Brunak (1998), « Bioinformatics, the Machine Learning Approach », MIT Press, 579.
↑(en) Anindya Gupta, Philip J. Harrison, Håkan Wieslander et Nicolas Pielawski, « Deep Learning in Image Cytometry: A Review », Cytometry Part A, vol. 95, no 4, , p. 366–380 (ISSN1552-4930, DOI10.1002/cyto.a.23701, lire en ligne, consulté le ).
↑(en) P. Baldi, P. Sadowski et D. Whiteson (2014), « Searching for exotic particles in highenergy physics with deep learning », Nature Communications, 5, 23.
↑(en-US) « Facial Recognition for Porn Stars Is a Privacy Nightmare Waiting to Happen », Motherboard, (lire en ligne, consulté le ).
↑« Le porno avec des stars incrustées dedans n’est pas le bienvenu sur Internet », Madmoizelle, (lire en ligne, consulté le ).