ACP Analyse en Composantes Principales 05122020 Groupe TT

Description multidimensionnelle de données numériques Dans la plupart des applications, on travaille non pas

Les méthodes multifactorielles d'Analyse des Données Ø Ø Ø Ø ACP : Analyse en

Présentation générale de l'ACP L'étude séparée de chacune de ces variables donne quelques informations

Le principe d’ACP La mise en oeuvre mathématique de l'ACP peut être divisée en

Le principe d’ACP 1 - Préparer les données pour le traitement Les observations de

Le principe d’ACP Ø Le problème est que si on analyse directement la matrice

Le principe d’ACP 5. Matrice des composantes principales La matrice appelée matrice des composantes

ACP - Avantages Ø Simplicité mathématique : Sur le plan mathématique, l'ACP est donc

Projet Ø Le but du projet - Compresser une image noire blanche Ø Le

Projet - Réalisation 0 - Choix du format d'image : Ø Pour la raison

Projet - Réalisation 1 - Preparer les données pour algorithme ACP Comme on a

Projet - Réalisation Ø 2. Calculer la matrice des coefficients de corrélations des variables

Projet - Réalisation Ø Exemple : on reprend l’image dans l'exemple cidessous 05/12/2020 Groupe

Projet - Résultats Ø L'image en entrée 05/12/2020 Groupe TT 6 - Kiki. Team

Projet - Résultats En fonction de nombre de coefficient, on obtient les résultats suivants:

Projet - Résultats Pour 20 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 17

Projet - Résultats Pour 50 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 18

Projet - Résultats Pour 100 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 19

Slides: 19

Download presentation

ACP Analyse en Composantes Principales 05/12/2020 Groupe TT 6 - Kiki. Team 1

Description multidimensionnelle de données numériques Dans la plupart des applications, on travaille non pas avec une seule variable, mais avec un nombre de variable souvent élevé. L’étude séparée de chacune de ces variables n’est pas suffisante. ->Il faut donc analyser les données en tenant compte de leur caractère multidimensionnel 05/12/2020 Groupe TT 6 - Kiki. Team 2

Les méthodes multifactorielles d'Analyse des Données Ø Ø Ø Ø ACP : Analyse en Composantes Principales, pour les tableaux de variables quantitatives. AFTD : Analyse Factorielle d'un Tableau de Distances, pour les tableaux de distances. AFC : Analyse Factorielle des Correspondances, pour les tableaux de contingence. ACM : Analyse des Correspondances Multiples, pour les tableaux de variables qualitatives. STATIS : Structuration des Tableaux A Trois Indices de la Statistique AFM : Analyse Factorielle Multiple DACP : Double Analyse en Composante Principale La liste n'est pas exhaustive. 05/12/2020 Groupe TT 6 - Kiki. Team 3

Présentation générale de l'ACP L'étude séparée de chacune de ces variables donne quelques informations mais est insuffisante car elle laisse de côté les liaisons entre elles, ce qui est pourtant souvent ce que l'on veut étudier. C'est le rôle de la statistique multifactorielle, que d'analyser les données dans leur ensemble, en prenant en compte toutes les variables. L'Analyse en Composantes Principales est alors une bonne méthode pour étudier les données multidimensionnelles, lorsque toutes les variables observées sont de type numérique, de préférence dans les mêmes unités, et que l'on veut voir s’il y a des liens entre ces variables. 05/12/2020 Groupe TT 6 - Kiki. Team 4

Le principe d’ACP La mise en oeuvre mathématique de l'ACP peut être divisée en 6 étapes principales : Ø 1. Préparer les données pour le traitement Ø 2. Calculer la matrice des coefficients de corrélations des variables Ø 3. Extraire les valeurs et vecteurs propres de cette matrice Ø 4. Classer les vecteurs propres dans l'ordre décroissant des valeurs propres associées Ø 5. Calculer la matrice des composantes principales 05/12/2020 Groupe TT 6 - Kiki. Team 5

Le principe d’ACP 1 - Préparer les données pour le traitement Les observations de p variables sur n individus sont rassemblées dans uns matrice X à n lignes et p colonnes. 05/12/2020 Groupe TT 6 - Kiki. Team 6

Le principe d’ACP Ø Le problème est que si on analyse directement la matrice X, les résultats seraient faussés par les valeurs relatives des variables (Par exemple si les valeurs ont été mesurées dans des unités différentes). Préparer les données pour le traitement consiste donc à transformer le tableau de données pour réduire ces effets. Ø On peut alors travailler sur une version centrée-réduite Xcr de la matrice X. Ø Pour centrer la matrice X, on soustrait à chacune des valeurs la moyenne de sa variable. Pour réduire la matrice centrée, on divise chacune des valeurs par l'écart-type de sa variable. 05/12/2020 Groupe TT 6 - Kiki. Team 7

Le principe d’ACP 5. Matrice des composantes principales La matrice appelée matrice des composantes principales est celle qui contient les coordonnées des individus dans l'espace formé par les composantes principales. Soit CP la matrice des composantes principales. On a alors : CP = Xrc. u Ø 05/12/2020 Groupe TT 6 - Kiki. Team 8

ACP - Avantages Ø Simplicité mathématique : Sur le plan mathématique, l'ACP est donc une méthode simple à mettre en oeuvre. Les seuls véritables outils mathématiques utilisés dans l'ACP sont le calcul des valeurs/vecteurs propres d'une matrice, et les changements de base. Ø Simplicité des résultats : Grâce aux graphiques qu'elle fournit, l‘ACP permet d'appréhender une grande partie de ses résultats d'un simple coup d'oeil. Ø Puissance : L'ACP a beau être simple. Elle offre, en quelques opérations seulement, un résumé et une vue complète des relations existant entre les variables quantitatives d'une population d'étude. Ø Flexibilité : L'ACP est une méthode très souple, puisqu'elle s'applique sur un ensemble de données de contenu et de taille quelconques. 05/12/2020 Groupe TT 6 - Kiki. Team 9

Projet Ø Le but du projet - Compresser une image noire blanche Ø Le programme prend en entrée une image et à la sortie on obtiendra un certain nombre des coefficients qui présentent les niveaux de gris les plus importants dans l'image. 05/12/2020 Groupe TT 6 - Kiki. Team 10

Projet - Réalisation 0 - Choix du format d'image : Ø Pour la raison de la simplicité de lecture et écriture d'une image, on choisit le format pgm qui est représenté par un fichier texte. Ø Exemple: une image Pgm de taille 4 x 4 : P 2 Ø 4 4 255 125 156 100 80 16 150 255 20 154 123 120 20 125 123 255 80 05/12/2020 Groupe TT 6 - Kiki. Team 11

Projet - Réalisation 1 - Preparer les données pour algorithme ACP Comme on a vu dans la partie de principe d'ACP, ACP prend en entrée un tableau dont chaque ligne est un individu et chaque colonne est une variable. Dans notre cas, le tableau aura une seule ligne (cas on a une seule image en entrée) et les variables seront les niveau de gris, donc il y a 256 variables qui correspondent aux 256 niveaux de gris d'une image noire et blanche. La valeur de chaque variable est donc le nombre de fois que le niveau de gris apparaît dans l'image. 05/12/2020 Groupe TT 6 - Kiki. Team 12

Projet - Réalisation Ø 2. Calculer la matrice des coefficients de corrélations des variables Ø 3. Extraire les valeurs et vecteurs propres de cette matrice Ø 4. Classer les vecteurs propres dans l'ordre décroissant des valeurs propres associées Ø 5. Calculer la matrice des composantes principales 05/12/2020 Groupe TT 6 - Kiki. Team 13

Projet - Réalisation Ø Exemple : on reprend l’image dans l'exemple cidessous 05/12/2020 Groupe TT 6 - Kiki. Team 14

Projet - Résultats Ø L'image en entrée 05/12/2020 Groupe TT 6 - Kiki. Team 15

Projet - Résultats En fonction de nombre de coefficient, on obtient les résultats suivants: Pour 9 coefficients: Ø 05/12/2020 Groupe TT 6 - Kiki. Team 16

Projet - Résultats Pour 20 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 17

Projet - Résultats Pour 50 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 18

Projet - Résultats Pour 100 coefficients: 05/12/2020 Groupe TT 6 - Kiki. Team 19