Il faut avoir été dans un coma depuis 2015 pour ne jamais avoir  entendu les mots Machine Learning, Deep Learning, Data Science, Big Data, Intelligence artificielle. Ces mots sont tellement apparus dans la presse que beaucoup sont ceux qui veulent apprendre les compétences pour exercer ce métier. Cette forte demande a conduit à une masse de contenu de formation en Data Science. L'individu qui souhaite désormais rentrer dans ce milieu est face à une multitude de ressources, ce qui rend le choix compliqué. Tout faire à la fois est impossible et pas du tout productif. Se construire un plan, un curriculum à suivre reste la meilleure des choses à faire. Après être moi-même passé par ces étapes  je vous présente dans cet article, le curriculum que je me serais crée si je devrais reprendre à zéro aujourd'hui.

Ce curriculum comporte 4 points essentiels que sont

  • Python
  • Analyse de données
  • Le Machine Learning
  • Le Deep Learning

A chaque partie de ce curriculum, je suggerai un seul livre qui pourrait aider à acquérir les compétences requises. Pourquoi les livres et pas les Moocs ? Juste parce que je préfère utiliser les livres pour l'apprentissage de concepts avancés. Pourquoi un et pas plusieurs livres ? Le but de ce curriculum n'est pas d'apprendre tout ce qu'il faut savoir, mais plutôt le nécessaire pour débuter sur des projets.

Dans ce même sens, vous n'êtes pas tenu de finir chaque livre avant de passer au suivant et n'hésitez pas à revenir sur une notion déjà vu.

Python

Pourquoi Python ? Pourquoi pas R ? Cette question a été posée maintes fois. Une recherche "Python vs R " sur Google vous donnera assez d'articles qui en parlent et finissent pas conclure que Python est le langage le plus adéquat pour le machine learning. Python est facile à apprendre, est versatile et est utilisé par une large communauté de data scientists qui publie beaucoup de contenus pour aider les débutants à commencer. Plusieurs librairies de Data Science sont également à l'origine de la célébrité de Python

Quelles sont les bases de Python à connaitre pour commencer l'apprentissage de la data science ? Pour ceux qui ont déjà une expérience en programmation avec un autre langage, il suffira d'apprendre la syntaxe de Python. Pour ceux qui n'ont pas d'expérience en Python, il faudra apprendre dans l'ordre

  • Les variables
  • Les Types de données en python
  • Les conditions et les boucles en python
  • Les fonctions et les modules
  • La manipulation des fichiers avec python
  • L'orienté objet avec python

Le livre que je propose pour apprendre ces est le suivant : Automate the Boring stuff with Python. Ce livre est gratuit et même disponible directement sous forme de page web à cette adresse : https://automatetheboringstuff.com/ .

Automate the Boring Stuff with Python

Une fois ces bases acquises, nous pouvons rentrer dans le vif su sujet.

Analyse de données

A la fin de cette partie, vous êtes censé être capable d'importer des données de différents formats, les nettoyer, transformer à votre guise afin de repondre à des questions pertinentes avec des schémas à l'appuie. Cette partie aurait pu s'appeler Python pour la data Science. Dans un projet typique de Machine Learning, vous utiliserez les librairies suivantes 80% du temps. Dans l'ordre

  • Numpy pour le calcul scientifique
  • Pandas pour la manipulation des données
  • Matplotlib et Seaborn pour la visualisation des données

Le livre que je recommande pour cette partie est :  Python Data Science Handbook. Comme le livre précédent, celui-ci est gratuit également et disponible sous forme de page web à l'adresse suivante : https://jakevdp.github.io/PythonDataScienceHandbook/

Le code de ce livre est  disponible sur github sous forme de Jupyter notebooks sur le dépôt suivant : https://github.com/jakevdp/PythonDataScienceHandbook

Python Data Science Handbook

Machine Learning

Vous êtes prêt pour l'apprentissage du Machine Learning. Ici vous allez apprendre les concepts du Machine Learning, les algorithmes utilisés et comment les implémenter avec la librairie scikit-learn. Le livre suivant vous apprendra à créer des modèles de Machine Learning et même commencer à compétir dans des compétitions sur Kaggle.

Ce livre n'est pas gratuit mais le code est également disponible sur github sous forme de jupyter notebooks sur le depôt suivant : https://github.com/amueller/introduction_to_ml_with_python

Introduction to Machine Learning with Python

Deep Learning

Bienvenu à la partie la plus interessante du Machine Learning :  Le Deep Learning. En se basant sur les compétences acquises précédemment. Dans cette partie, vous apprendrez à entrainer des modèles sur des images, du texte, la voix et plus. Le livre suivant est l'un des meilleurs sinon le meilleur que j'ai eu à lire sur le Deep Learning. Dans la première partie du livre, vous pourrez rafraichir les notions en Machine Learning en ayant une meilleure compréhension des algorithmes utilisés. Dans le seconde partie, les bases du Deep learning et ses applications sont présentées avec une introduction à Tensorflow 2.0.

Le code de ce livre est aussi disponible sur Github sous forme de jupyter notebooks dans le dépôt suivant : https://github.com/ageron/handson-ml2

Handson Ml

Conclusion

Vous n'allez peut-être pas finir tous les livres cités dans cet article, c'est d'ailleurs la raison pour laquelle j'en ai sélectionné que 4. Mais vous aurez pris assez de choses pour réaliser d'interessants projets de Machine Learning et même prétendre à un poste de Data Scientist.

Je suis conscient que le format Livre n'est pas la meilleure manière d'apprendre pour tout le monde. Certains préfèrent les vidéos et c'est tout à fait normal. C'est pourquoi je présenterai sur ma chaine Youtube des vidéos tutoriels sur Python, le Machine Learning, Deep Learning et plus encore. Si tout cela vous interesse, abonnez-vous pour recevoir des notifications pour les prochaines vidéos.