Power BI est l’outil de Microsoft dédié à l’analyse de données. L’outil propose des fonctionnalités d’intégration, de traitement et de visualisation de données. Power Query est la fonctionnalité de Power BI dédié au traitement de données. Power Query propose un outil d’intégration de script Python.
Ci-dessous l’exemple de l’éditeur Power Query avec sa fonctionnalité d’intégration de script Python entouré en noir.
Pandas est la bibliothèque Python dédié à la transformation de données. Cette bibliothèque propose une richesse de fonctionnalités pour le nettoyage, la manipulation et l'analyse de données.
En intégrant Pandas dans Power Query, les utilisateurs de Power BI peuvent bénéficier de la puissance de cette bibliothèque.
Il y a plusieurs avantages à utiliser Pandas dans Power Query. Premièrement Pandas permet de simplifier les actions de nettoyage et transformation de données parce que les fonctions et méthodes sont nombreuses et donc souvent adaptée à des problèmes très spécifiques. Deuxièmement Pandas est plus manipulable que le langage M car sa syntaxe est concise et beaucoup plus lisible. Ce qui rend la maintenance du code plus simple. Troisièmement Pandas est capable de traiter des volumes importants de données.
L'intégration de Pandas dans Power Query ouvre la voie à l'utilisation de bibliothèques Python tierces pour des analyses plus avancées. Les utilisateurs peuvent exploiter des algorithmes de machine learning, des statistiques avancées et d'autres fonctionnalités disponibles dans l'écosystème Python pour enrichir leurs analyses dans Power BI.
Ci-dessous nous allons voir un exemple de traitement de données à l’aide de Pandas dans Power Query.
Voici l’éditeur Power Query avec l’exemple d’une table.
En cliquant sur « Exécuter le script Python » une fenêtre s’ouvre nous invitant à écrire notre code.
Le code ci-dessous effectue les tâches suivantes :
Etendre les lignes de la colonne « continent » vers le bas.
Dépivoter les colonnes « 2020 », « 2021 », « 2022 » et « 2023 » en utilisant les paramètres de la méthode pour nommer correctement les colonnes.
Filtrer la colonne « CA » sur les valeurs supérieures à 50.
Reste à cliquer sur « ok ».
Le code qui a été choisi ici est simple et les actions effectuées sont tout à fait faisables en Power Query. Il faut bien comprendre que Pandas permet un code plus simple là où l’utilisation de Power Query sera plus complexe.
Le code est exécuté. Les données sont maintenant compressées dans les cellules de la colonne « valeurs ». Il faut cliquer sur « table » pour que les données soient décompressées. Si on a plusieurs lignes au niveau de cette étape, le fait de cliquer sur « table » de la dernière ligne retourne l’état des données à la dernière étape de transformation du script.
On voit ci-dessous l’état des données. Dans le volet « étapes appliquées » on constate qu’il n’y a qu’une seule étape relative à l’exécution du script.
Si vous avez plus de questions n’hésitez pas à nous contacter. N’hésitez pas non plus à consulter nos propositions de formations.
Comments