Contenu de cette formation
Une fois les données extraites, le data analyst ou le data engineer va avoir besoin de nettoyer les données. Il va commencer ses opérations de filtres, de créations de colonnes, de fusions de données…
Afin d’y parvenir, Python propose entre autres deux bibliothèques indispensables pour la data : Pandas et Numpy. Ces bibliothèques sont entièrement dédiées à la data science.
La bibliothèque Pandas propose un langage simple qui permet de manipuler les données facilement. Les données peuvent être chargées, agrégées, fusionnée, extraite, groupée… Les données manquantes peuvent être facilement compensées. C’est un outil large et très performant. Cette bibliothèque est utile lorsque l’on veut structurer des données non structurées.
Pandas fonctionne sur un système de tableau à deux dimensions : le DataFrame. Le DataFrame contient des variables en colonnes et les valeurs en lignes. Les valeurs peuvent être de types différents. Ce type de tableau est très apprécié en machine learning.
Numpy est plutôt une bibliothèque mathématique. Cette bibliothèque va permettre de faire des calculs algébriques. Elle offre la possibilité de calcul matriciel également.
Notre formation a pour but de vous familiariser avec ces bibliothèques. Vous saurez à la fin de la formation nettoyer les données.