Link

Manipulation et analyse de données

Au fil des années, nos enseignements deviennent de plus en plus liés à la science des données et se basent de plus en plus souvent sur le traitement de jeux de données et sur la façon dont on peut en tirer de l’information. Les carnets Jupyter peuvent être un bon support pour mener à bien ce type de tâche, de façon efficace, élégante et avancée.

Voici quelques possibilités de manipulation de données dans un carnet :

Et quelques possibilités de transformation des données en information dans un carnet :

  • analyser des données via la statistique, l’algèbre linéaire, l’optimisation, l’analyse de Fourier …

  • apprendre à partir des données (machine learning, IA).
    ➔ Voir cet exemple de carnet K-moyennes Python ScikitLearn

L’ensemble des opérations listées ci-dessus peuvent être réalisées à l’aide de librairies préconçues et disponibles pour tous les langages présents sur le JupyterHub du Cnam. Pour d’autres exemples de notebooks incluant des applications très concrètes sur des jeux de données, voir ici.

Voici par exemple en Python, quelques paquetages-clés, à utiliser pour la science des données :

  • pandas : manipulation de données
  • matplotlib, plotly et seaborn : visualisation des données
  • ipywidgets : affichage interactif et dynamique de données
  • numpy et scipy : calculs/opérations sur les données (algèbre linéaire, optimisation, …)
  • statsmodels : calcul de statistiques descriptives, d’estimations et d’inférences pour modèles statistiques
  • scikit learn : machine learning
  • tensorflow : création de réseaux de neurones

➔ l’utilisation de ces paquetages est illustrée à travers les carnets Jupyter donnés en démo ci-dessus.