Manipulation et analyse de données
Au fil des années, nos enseignements deviennent de plus en plus liés à la science des données et se basent de plus en plus souvent sur le traitement de jeux de données et sur la façon dont on peut en tirer de l’information. Les carnets Jupyter peuvent être un bon support pour mener à bien ce type de tâche, de façon efficace, élégante et avancée.
Voici quelques possibilités de manipulation de données dans un carnet :
-
ranger les données dans des structures, les manipuler, les filtrer.
➔ Voir cet exemple de carnet Manipulations de données Python Pandas -
nettoyer un jeu de données afin de le rendre exploitable et ordonné.
➔ Voir cet exemple de carnet Nettoyage de données Python Pandas -
visualiser graphiquement les données.
➔ Voir cet exemple de carnet Représentation graphique de données.ipynb -
utiliser l’interactivité et la manipulation dynamique des données à l’intérieur des carnets.
➔ Voir le carnet interactif Cours Interactivite avec IPywidgets
Et quelques possibilités de transformation des données en information dans un carnet :
-
analyser des données via la statistique, l’algèbre linéaire, l’optimisation, l’analyse de Fourier …
-
apprendre à partir des données (machine learning, IA).
➔ Voir cet exemple de carnet K-moyennes Python ScikitLearn
L’ensemble des opérations listées ci-dessus peuvent être réalisées à l’aide de librairies préconçues et disponibles pour tous les langages présents sur le JupyterHub du Cnam. Pour d’autres exemples de notebooks incluant des applications très concrètes sur des jeux de données, voir ici.
Voici par exemple en Python, quelques paquetages-clés, à utiliser pour la science des données :
pandas
: manipulation de donnéesmatplotlib
,plotly
etseaborn
: visualisation des donnéesipywidgets
: affichage interactif et dynamique de donnéesnumpy
etscipy
: calculs/opérations sur les données (algèbre linéaire, optimisation, …)statsmodels
: calcul de statistiques descriptives, d’estimations et d’inférences pour modèles statistiquesscikit learn
: machine learningtensorflow
: création de réseaux de neurones
➔ l’utilisation de ces paquetages est illustrée à travers les carnets Jupyter donnés en démo ci-dessus.