top of page

Comprendre l’utilisation des tableaux masqués dans Numpy.


Lors de l'utilisation de données du monde réel, il est fréquent de rencontrer des valeurs manquantes ou invalides. Ces données peuvent entre autres provenir d’erreurs de saisie ou d’absences d'informations.

Il arrive également que l’on souhaite porter un regard analytique sur un échantillon de données.

La gestion de ces données est importante pour effectuer des analyses fiables. Dans cet article, nous allons comprendre l’intérêt des tableaux masqués dans NumPy.


Qu’est-ce qu’un tableau masqué ?


Un tableau masqué est une structure de données. Elle permet de représenter un tableau NumPy en associant à chaque élément qui le compose une valeur booléenne. Ainsi si l'élément est valide le tableau affichera « True » sinon il affichera « False ».

Autrement dit un tableau masqué est un tableau NumPy qui est une couche de masquage pour gérer les données manquantes ou hors périmètre d’analyse.

Voyons un exemple simple pour mieux comprendre :

On constate dans l’exemple précédent, dans le tableau « ma_x1 » la création de deux sous-tableaux : « data » qui sont les données de « x1 » et « mask » qui associe chaque valeur de « data » à une valeur booléenne.


On a pris ici l’exemple d’un tableau avec des valeurs manquantes, mais nous aurions pu par exemple masquer toutes les valeurs inférieures à 6.



Opérations sur les tableaux masqués.


Une fois les éléments masqués il est tout à fait possible de réaliser des analyses classiques. Par exemple une moyenne :


Une somme :


Il est également possible de remplacer les valeurs souhaitées. Dans l’exemple ci-dessous, toutes les valeurs inférieures ou égales à 6 sont masquées et remplacées par 0.




Exemples divers de méthodes du module « ma » à connaitre :


La méthode « ma.masked_inside() » permet de masquer des valeurs sur un intervalle donné en argument.



La méthode « ma.masked_where() » associé à la méthode « logical_or() » permet de masquer des valeurs selon des conditions.


Le tableau masqué dans NumPy permet de gérer les données manquantes et de travailler sur des échantillons. Les outils statistiques classiques peuvent être utilisés. Les valeurs masquées peuvent être remplacées dans le tableau d’origine.


N’hésitez pas à vous rapprocher de nous si vous rencontrez des besoins de formations.







Kommentare


bottom of page