Analyse de données

7KUTSN02

ECTS2SEMESTRES7
CMTDTPEITravail personnel
8h18h0h0h10h
Langues d'enseignementFrançais


Responsable(s)

Sandie FERRIGNO/Yannick TOUSSAINT

Mots clefsLogiciel R, régression linéaire, acp, afc, afcm, classification, analyse discriminante, données.
PrérequisBases de probabilités, statistique descriptive et statistique inférentielle (intervalles de confiance, tests).
Objectif pédagogique

A l’issue du module, les étudiants seront en mesure d'analyser des données multidimensionnelles à l'aide de méthodes statistiques adaptées et du logiciel statistique R.

Organisation et contenus

Objectifs pédagogiques
Dans les années 70-80, le développement des ordinateurs a conduit au stockage d'’informations dont la forme la plus classique était celle qui correspondait à des tableaux de données, généralement de grandes dimensions. Dans de nombreux domaines (géologie, météorologie, médecine, économie, marketing, contrôle de qualité, reconnaissance des formes...), l'’analyse de données a permis de tirer parti de cette information pour la synthétiser, pour servir de base à un processus de décision, ou plus généralement, pour appréhender d'’une certaine manière la nature des phénomènes sous-jacents aux données.
Depuis les années 90, la numérisation systématique de l'’information fait que les organismes, publics ou privés, accumulent des masses considérables d’informations stockées dans des bases de données numériques, amorphes et dynamiques, données faites de chiffres, de textes, d'’images, de sons. L'objectif pédagogique de ce module est donc de savoir appréhender ce genre de données, les analyser et les interpréter pour en permettre la compréhension.


Contenu - Programme
Le programme porte sur les principales méthodes de modélisation et d'’analyse de données  :

  • •Prise en main du logiciel R
  • Régression linéaire
  • Analyse en composantes principales
  • •Analyse des correspondances simples et multiples
  • •Classification automatique
  • •Analyse discriminante
  • Fouille de motifs
  • Règles d'association


Leur mise en oeœuvre pose à l’'utilisateur un certain nombre de questions dont les principales sont :

  • • Quels types de problèmes peut-on traiter ?
  • • Quelle méthode choisir ?
  • • Quelles données choisir ?
  • • Quels genres de résultats peut-on attendre ?
  • • Quelles en sont les limites ?
  • • Comment les mettre en œoeuvre ?

L'apprentissage de ces méthodes se fera au travers du logiciel statistique R.

Références

  • G. Saporta, Probabilités, analyse des données et statistique, Technip.
  • M. Tenenhaus, Statistique, Méthodes pour décrire, expliquer et prévoir, Dunod.
  • L. Lebart, A. Morineau et M. Piron, Statistique exploratoire multidimensionnelle, Dunod.
  • S. Tufféry, Data Mining et statistique décisionnelle, Technip.
  • F. Afonso, E. Diday et C. Toque, Data Science par analyse des données symboliques, Technip, 2018.

Compétences

Niveaux Description et verbes opérationnels
Connaître  Connaître les principes des méthodes de base en modélisation et analyse de données.
Comprendre Comprendre les différentes méthodologies statistiques de traitement des données et dans quel contexte les appliquer.
Appliquer  Savoir mettre en oeuvre les différentes méthodes statistique avec le logiciel R.
Analyser 

Savoir interpréter un résultat pour en vérifier la cohérence et tirer des conclusions sur un problème préalablement posé.

Synthétiser
Évaluer
Contributions aux Objectifs de Développement Durable des Nations Unies
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Modalités de contrôle des connaissances et compétences
Contrôle Continu
  •  
Examen écrit
  •  
Oral / Soutenance
  •  
Rapport / Projet
  •  
  • Aucune étiquette