Les données sont le nouveau pétrole. Et l’apprentissage automatique est le feu. Celui qui contrôlera ces deux éléments contrôlera le monde.
Non, il ne s’agit pas d’une phrase pompeuse tirée d’un roman dystopique.
C’est une réalité.
Le nouvel ordre mondial consiste à collecter de grandes quantités de données pertinentes et à les transformer en informations exploitables, ce que l’humanité n’a jamais été capable de faire dans l’histoire. C’est le genre de technologie qui permet à un pays de prendre de l’avance sur les autres et, à terme, de dominer le monde.
C’est pourquoi elle est prise très, très au sérieux par les nations progressistes du monde.
Un choix de carrière lucratif
Les intrigues internationales mises à part, la science des données et l’apprentissage automatique sont des domaines en plein essor qui offrent d’incroyables possibilités. La demande explose (et c’est un euphémisme), et il n’y a pas assez de data scientists. Il n’y en a même pas de médiocres.
C’est comme si nous avions soudainement découvert de nombreuses nouvelles planètes habitables, mais qu’il n’y avait pas assez de personnes pour les déplacer. Je pourrais continuer longtemps et passer pour un disque rayé, mais je pense que cette infographie fait bien mieux le travail :
Nous voyons donc que les salaires commencent à 50 000 dollars et que, pour les cadres, ils peuvent dépasser largement les 250 000 dollars.
Et ce n’est pas tout : l’habitant moyen de cette planète générera 1,7 Mo de données par seconde. Cela représente 3 500 To de données sur l’ensemble de sa vie, soit plus de données que nous ne savons en traiter à l’heure actuelle, sans parler de leur utilisation à des fins d’analyse.
La science des données et l’apprentissage automatique sont-ils difficiles ?
Bonne question !
D’après mon expérience, la réponse est à la fois “oui” et “non”
L’intelligence artificielle (et, par extension, l’apprentissage automatique) est la chose la plus difficile à faire si vous êtes enclin à vous lancer dans la recherche et à repousser les limites. Pour ce type de travail, même un doctorat en informatique et en mathématiques ne suffit pas. Mais le commun des mortels n’a ni l’ambition, ni le temps de se lancer dans une telle entreprise.
À l’autre extrémité, on trouve ce que j’appellerais la science des données appliquée et l’apprentissage automatique.
Il s’agit de prendre des outils, des techniques et des algorithmes existants et de les appliquer pour résoudre des problèmes du monde réel. Cette partie exige de l’engagement, de la perception et de la créativité (ainsi que la connaissance de quelques concepts mathématiques simples, qui s’apprennent rapidement), mais en ce qui concerne les véritables connaissances “techniques”, elle est beaucoup plus souple que ce qu’exige le travail d’un ingénieur en logiciel.
En d’autres termes, ce n’est pas une partie de plaisir, mais si l’on en croit le rapport récompense/effort, c’est l’un des meilleurs investissements qui soient.
Maintenant que vous avez renforcé votre volonté de devenir un scientifique des données et un ingénieur en apprentissage automatique, commençons à explorer les meilleures options qui s’offrent à vous.
Apprentissage automatique (Google)
Peu de gens le savent, mais Google propose un cours complet, très pratique et gratuit sur l’apprentissage automatique. Selon l’entreprise, cela fait partie de son engagement à faire progresser les technologies d’IA/ML et à maintenir les connaissances ouvertes.
La meilleure chose à propos de ce cours est qu’il n’y a pas de prérequis, mais préparez-vous à passer plus de temps à explorer les concepts statistiques par vous-même.
Je veux dire, ce n’est pas nécessaire, mais si vous n’avez aucune expérience en statistiques avancées, les explications de ce cours peuvent ne pas être suffisantes. Un autre problème est que ce cours introduit l’apprentissage automatique via TensorFlow, qui est une implémentation de l’apprentissage automatique développée par Google. Ainsi, d’une certaine manière, Google vise à promouvoir ses API pour l’apprentissage automatique, mais compte tenu de la valeur offerte par ce cours, je ne vois pas en quoi cela devrait être une pierre d’achoppement.
En fait, TensorFlow est l’un des moyens les plus faciles de se lancer dans l’apprentissage automatique et jouit d’une popularité fulgurante (pour une comparaison des frameworks d’IA, voir ceci).
Science des données
Le nom de Harvard inspire l’admiration, et il en va de même pour ce cours.
Tout d’abord, il ne s’agit pas d’un cours de type “Let’sget-dirty-quick” où vous vous familiarisez avec l’apprentissage automatique en écrivant un extrait ici ou un script là. Ce cours est un véritable baptême du feu qui exige un travail acharné et un investissement important en temps.
Le cours est accompagné de vidéos gratuites, de code (hébergé sur GitHub) et de solutions aux exercices de laboratoire, de sorte que, pratiquement, vous n’êtes limité par rien si vous voulez le suivre.
Public idéal ?
Vous… je ne plaisante pas.
Je dirais des professionnels avec une bonne formation en maths, même s’ils ne sont peut-être plus passionnés par les maths (les habitudes d’inférence et de preuve sont la chose la plus nécessaire). Mais encore une fois, soyez averti : vous pouvez penser que vous êtes bon, mais ce cours vous donnera l’impression d’avoir des ongles durcis au petit déjeuner – les problèmes pratiques sont assez difficiles pour vous faire pleurer, mais alors, c’est peut-être exactement la chose que vous recherchez !
Apprentissage automatique
Entrez dans un bar rempli de data scientists et demandez qui est Andrew Ng, et vous recevrez la raclée de votre vie.
Dans les cercles de la science des données et de l’apprentissage automatique, Andrew Ng a atteint un statut de dieu, grâce à son cours exceptionnel sur Coursera — Machine Learning.
Et si vous doutez des références d’Andrew Ng, je vais laisser ce cours parler de lui-même :
Il s’agit d’un cours payant, en ce sens qu’il fait partie du plan de tarification de Coursera, mais l’engagement financier et la détermination ne sont pas les seules conditions préalables. Il s’agit d’un cours long, car Andrew plonge dans les mathématiques qui sous-tendent tout ce qui touche à la modélisation moléculaire et dissèque les algorithmes les plus répandus. Mais heureusement, il s’agit d’un cours complet, et vous serez guidé pas à pas dans les profondeurs les plus sombres, puis ramené à bon port.
Je vous le recommande vivement, surtout parce qu’il est de bon ton aujourd’hui d’exhiber le certificat d’achèvement de ce cours !
Science des données appliquée
Les spécialisations sur Coursera consistent en une série de cours qui visent à vous amener de zéro à la maîtrise d’un concept particulier. Si vous cherchez un cours complet, sérieux mais convivial sur la science des données et l’apprentissage automatique avec Python, je ne saurais trop vous recommander cette spécialisation.
À la fin du cours, vous obtenez un certificat.
DataCamp
DataCamp propose de nombreux cours de science des données, qui incluent également plusieurs compétences et pistes de carrière. De la manipulation des données à l’apprentissage automatique, vous acquerrez des compétences en Python et en R qui vous aideront à réussir dans le domaine de la science des données.
Grâce au contenu de DataCamp, de la taille d’un octet, vous pouvez apprendre à votre propre rythme. Ces cours vous offrent une expérience pratique qui vous permettra d’améliorer vos compétences en science des données.
Vous pouvez commencer par la version gratuite et évaluer le cours en regardant le premier chapitre.
edX
Apprenez du MITx, de Harvardx, d’IBM, de RICEx, d’UCSanDiegox et de GTx sur la plateforme edX.
Tous ces établissements proposent un programme complet qui vous aide à acquérir des compétences de data scientist. Ces programmes conviennent mieux à ceux qui ont une formation en statistiques ou en informatique.
Si vous ne cherchez pas de programme, vous pouvez choisir un programme à la carte. Sur edX, vous trouverez plus de 200 cours liés à la science des données, qui couvrent Python, R, Excel, les probabilités, les statistiques, l’apprentissage automatique, la visualisation des données, et bien d’autres choses encore.
Codecademy
Codecademy est une autre plateforme qui est l’un des meilleurs systèmes existants pour vous aider à apprendre à coder. Elle croit en l’apprentissage par la pratique et propose de nombreux projets et tests sur sa plateforme.
Le cours de science des données proposé par Codecademy comprend SQL, Python 3, NumPy, Pandas, Matplotlib, Scikit-learn et bien d’autres bibliothèques.
L’ensemble du parcours contient 26 cours qui sont plus que suffisants pour vous aider à devenir un scientifique de données réussi.
Ce cours sur les données
- Vous donne une connaissance approfondie de la science des données
- Fournit une feuille de route facile à suivre
- Vous prépare à l’emploi en vous aidant à acquérir suffisamment d’expérience pratique
Udemy
Udemy n’a pas besoin d’être présenté.
Python for Data Science and Machine Learning Bootcamp sur Udemy est l’un des cours les plus populaires avec plus de 85 000 notes de 4,6 et a été suivi par 370 000 étudiants à travers le monde.
Vous trouverez ci-dessous les sujets abordés dans ce cours :
Vous trouverez ci-dessous les caractéristiques de ce cours :
- 25 heures de vidéos à la demande
- Accès complet à vie
- 13 articles et cinq ressources téléchargeables
- Accès sur mobile et TV
- Certificat d’achèvement
- garantie de remboursement de 30 jours
Donc, si vous préférez un cours à budget limité, celui-ci vous conviendrait le mieux pour commencer.
Google AI
Seriez-vous intéressé par l’apprentissage automatique auprès des experts en intelligence artificielle de Google ?
Dans ce cas, vous devez consulter les cours sur Google AI.
Cette plateforme propose des cours et du contenu sur l’apprentissage automatique et la science des données pour les étudiants, les ingénieurs logiciels, les scientifiques des données et même les chercheurs. Ces cours sont gratuits.
Pour commencer, le cours accéléré sur l’apprentissage automatique de Google AI devrait être votre premier cours. Il s’agit d’un cours rapide avec une introduction pratique utilisant les API TensorFlow. Vous trouverez ci-dessous les détails de ce cours :
Cette plateforme propose également des cours spécifiques sur des sujets importants de l’apprentissage automatique tels que le clustering, les systèmes de recommandation, les tests et le débogage dans l’apprentissage automatique, la séparation des données et l’ingénierie des fonctionnalités dans l’apprentissage automatique. Si vous connaissez déjà les bases de l’apprentissage automatique, ces cours vous apporteront une valeur ajoutée.
Udacity
Udacity est également une plateforme d’apprentissage en ligne très populaire qui propose une pléthore de cours sur les technologies en vogue. Elle propose plusieurs programmes de pointe élaborés et reconnus par des entreprises de premier plan dans le monde entier, telles que AT&T, AWS, Google et IBM.
L’un des programmes d’Udacity porte sur la science des données – School of Data Science. Ce programme vous aide à obtenir des emplois d’analyste de données, de scientifique de données, d’ingénieur de données et d’analyste commercial. Dans ce programme, le cours Data Scientist est crucial car il couvre les concepts de l’apprentissage automatique, de l’apprentissage profond et de l’ingénierie logicielle. Vous devez avoir des connaissances de base en apprentissage automatique pour opter pour ce cours.
Si vous connaissez la programmation en python mais que vous êtes novice en matière d’apprentissage automatique, il existe un autre programme sur Udacity – School of AI. Ce programme propose des cours commençant par les bases de l’apprentissage automatique.
Apprentissage profond
Ce cours est une bénédiction et ma recommandation préférée sur cette liste si vous êtes un codeur.
Je le répète : si vous êtes un programmeur.
C’est parce que ce cours ne passe pas de temps à vous enseigner les bases de la programmation. La description du cours le dit en termes très clairs (l’accent est mis dans l’original) :
Nous partons du principe que tous ceux qui suivent ce cours ont au moins un an d’expérience en matière de codage. Le cours utilise Python comme langage d’enseignement, donc si vous ne connaissez pas encore Python, nous supposons que vous prendrez le temps d’apprendre – pour un codeur expérimenté, vous devriez trouver que Python est un langage assez facile à apprendre.
Si vous connaissez déjà Python (sinon apprenez-le ici), ou si vous pouvez vous y habituer rapidement, ce cours est parfait pour les pragmatiques qui veulent construire des systèmes réels et utilisables sans trop se préoccuper des fondements théoriques des algorithmes.
Je dirais même que c’est pour les bricoleurs impatients (comme moi !) qui détestent les cérémonies et la monotonie.
Et n’ai-je pas mentionné qu’il est 100% gratuit et qu’il a une grande communauté !
Conclusion
Ouf !
Cette liste a été difficile à compiler. Non pas parce qu’il n’y avait pas assez de bonnes sources, mais parce qu’il y en avait beaucoup trop !
L’apprentissage automatique est un domaine qui a littéralement explosé et qui permet de résoudre des problèmes difficiles de manière très élégante, et il y a donc des centaines de cours en ligne, gratuits et payants, la plupart d’entre eux étant vraiment, vraiment bons. Mais cela peut aussi être une source de confusion, c’est pourquoi j’ai essayé de réduire le nombre de cours à onze pour différents types d’apprenants en fonction de leur niveau d’expérience.
Ensuite, apprenez en détail l’ingénierie des fonctionnalités.