Les attributs leurs types leurs valeurs Christelle Scharff
Les attributs, leurs types, leurs valeurs Christelle Scharff IFI Juin 2004
Attributs n n Un attribut a un type et des valeurs contraintes par ce type Le type d’un attribut peut être: n n Ordinal Nominal Intervalle Ratio
Attributs à valeurs nominales n n n Les valeurs sont des symboles (des noms) Exemple: n Les valeurs de Temps sont {Ensoleillé, Pluvieux, Neigeux, Gris} Aucune relation (ordre ou distance) entre les nominaux n’existe Seuls des tests d’égalité peuvent être exécutés Exemple de règle: n If Temps = Pluvieux Then Match = No
Attributs à valeurs ordinales n n Une notion d’ordre s’impose sur les ordinaux Mais il n’est pas possible de calculer directement des distances entre des valeurs ordinales Les opérations d’addition et de soustraction ne sont pas possibles Exemple: n n La température est décrite par les adjectifs {chaud, froid, moyen}, et chaud > moyen > froid Exemple de règle: n If température > froid Then match = Yes
Attributs de type intervalle n n n Les intervalles impliquent une notion d’ordre, et les valeurs sont mesurées dans des unités spécifiques et fixées La somme, la différence et le produit de 2 intervalles ne sont pas possibles (car le point zéro n’existe pas) Exemples: n n La température exprimée en degrés Celsius ou Fahrenheit L’attribut année
Attributs de type rapport (ratio) n n Toutes les opérations mathématiques sont autorisées sur les attributs de ce type Exemple: L’attribut distance n n n On peut comparer 2 distances On peut additionner 2 distances La distance entre un objet et lui-même est zéro
Les types des attributs en pratique n n En général: nominaux et ordinaux Les attributs nominaux sont aussi appelés attributs discrets n n Les attributs ordinaux sont aussi appelés attributs numériques n n Mais le terme “discret” implique une notion d’ordre Mais le terme “numérique” implique certaines opérations Cas particulier: Les attributs de type booléen
Transformation d’ordinaux en booléens n n Un attribut de type ordinal à n valeurs peut être transformé en n-1 attributs de type booléen Cette solution est plus appropriée que d’utiliser un attribut de type nominal
Les attributs numériques n n n Les numériques sont identifiés aux réels Les attributs numériques sont interprétés comme des ordinaux si les opérateurs de relation sont utilisés Les attributs numériques sont interprétés comme des rapports s’il est nécessaire de calculer des distances
Nominal versus Ordinal n n L’utilisation d’un ordinal peut permettre de simplifier les règles Exemple: n n Age prend les valeurs {Jeune, Adulte, gé} Si Age est un attribut nominal: n n If Age = Jeune Then Loisirs = Yes If Age = Adulte Then Loisirs = Yes If Age = gé Then Loisirs = No Si Age est un attribut ordinal: n n If Age <= Adulte Then Loisirs = Yes If Age = gé Then Loisirs = No
Valeurs manquantes n n Les données ne sont pas toujours collectées pour être fouillées Les valeurs sont manquantes parce que: inconnues, non nécessaires, non enregistrées… n n Exemples: Non-fonctionnement du matériel, mesure non possible, temps… Parfois, une valeur manquante doit être détectée et ajoutée, car elle signifie qu’il y a un problème dans les données n Exemple: Examen médical
Valeurs incohérentes n n n Les données ne sont pas toujours collectées pour être fouillées Les valeurs sont incohérentes parce que: des erreurs (délibérées ou non), des omissions, des duplications ont été introduites… Exemples: n n Erreurs typographiques dans les nominaux Erreurs de mesure…
WEKA: Le format ARFF Attributs numériques et nominaux
FDD et attributs n n Les algorithmes de FDD dépendent beaucoup des types des attributs Les valeurs manquantes et incohérentes doivent être détectées et traitées spécialement par les algorithmes
Réferences n I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann.
- Slides: 15