Page tree

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.


GIMAS9AD

GIMAS9AD1 - Master

IMOI

IMSD - Mines Nancy

Analyse de données et Data Mining

Statistique en grande dimension

 

Crédits :

4

2 ECTS

Durée :

42

21 heures

Semestre : S9

Responsable(s) : 

Sandie FERRIGNO, Maître de Conférences, sandie.ferrigno@mines-nancy.univ

Anne Gegout-Petit, professeur   anne.gegout-petit@univ-lorraine.fr

 

Mots clés :

Analyse de données et

Data Mining, data science

Pré requis : 

Avoir des bases en SAS et en Probabilités et Statistique

Statistical test theory, standard tests, regression

Objectif général :

Principales méthodes d’analyse de données et du Data Mining

Programmes et contenus :

Objectifs pédagogiques
Dans les années 70-80, le développement des ordinateurs a conduit au stockage d'’informations dont la forme la plus classique était celle qui correspondait à des tableaux de données, généralement de grandes dimensions. Dans de nombreux domaines (géologie, météorologie, médecine, économie, marketing, contrôle de qualité, reconnaissance des formes...), l'’analyse de données a permis de tirer parti de cette information pour la synthétiser, pour servir de base à un processus de décision, ou plus généralement, pour appréhender d'’une certaine manière la nature des phénomènes sous-jacents aux données.
Depuis les années 90, la numérisation systématique de l'’information fait que les organismes, publics ou privés, accumulent des masses considérables d’informations stockées dans des bases de données numériques, amorphes et dynamiques, données faites de chiffres, de textes, d'’images, de sons, etc. Le Data Mining correspond à une "industrialisation" de l’'analyse de données pour permettre une exploitation réelle du capital d'’informations de l’'entreprise : «extraire le minerai précieux de la gangue des données».
Contenu - Programme
Le programme porte sur les principales méthodes d’analyse de données et du Data Mining :
• Analyse en composantes principales
• Analyse des correspondances
• Analyse discriminante
• Classifications automatiques
• Discrimination et classification neuronales
• Segmentation
Leur mise en oeœuvre pose à l’'utilisateur un certain nombre de questions dont les principales sont :
• Quels types de problèmes peut-on traiter ?
• Quelle méthode choisir ?
• Quelles données choisir ?
• Quels genres de résultats peut-on attendre ?
• Quelles en sont les limites ?
• Comment les mettre en œoeuvre ?
Un projet, réalisé en équipe, permettra à chaque élève, au-delà de l’'apprentissage des techniques, d'’apporter une réponse à ces questions et d'’apprendre à utiliser un environnement logiciel moderne d’'analyse de données (SAS et JMP).

Références
G. Saporta, Probabilités, analyse des données et statistique, Technip.
M. Tenenhaus, Statistique, Méthodes pour décrire, expliquer et prévoir, Dunod.
L. Lebart, A. Morineau et M. Piron, Statistique exploratoire multidimensionnelle, Dunod.
S. Tufféry, Data Mining et statistique décisionnelle, Technip.

Multiple testing issue, False Discovery Rate (FDR), usual method (Bonferroni, local FDR, Benjamini-Hochberg,..), case of correlated data

Penalised regression: LASSO, RIDGE, ELASTICNET

Decision trees and random forest, variable importance

Criteria of model selection: AIC, BIC, …

Criteria of goodness of it: RMSE, confusion table ROC curve

Variable selection: Cross validation, knockoffs, stability selection

Learning outcomes: Understand the need for a correction procedure in multiple testing, know how to choose and apply the usual methods in this case. Understand the need for penalization in the context of regression with a large number of variables and the associated optimization problem. 

Targeted competencies: To be able to recognize a high dimensional statistical problem and to choose and/or adapt the usual methods of inference to this framework.



Compétences : 

Niveaux

Description et verbes opérationnels

Connaître 

 

Comprendre 

 

Appliquer 

 

Analyser 

 

Synthétiser

 

Évaluer

 

Évaluations :

  •  Test écrit
  •  Contrôle continu
  •  Oral, soutenance
  •  Projet
  •  Rapport