Reprsentation des connaissances Cours 2 Rseaux smantiques Systmes

  • Slides: 32
Download presentation
Représentation des connaissances Cours 2. Réseaux sémantiques Systèmes de représentation des connaissances Relations sémantiques

Représentation des connaissances Cours 2. Réseaux sémantiques Systèmes de représentation des connaissances Relations sémantiques Word. Net Parcours d'un réseau sémantique Levée d'ambiguïtés Cadres ou Frames

Ambiguïtés Quand un mot est ambigu, ses utilisations correspondent à des sens différents Luc

Ambiguïtés Quand un mot est ambigu, ses utilisations correspondent à des sens différents Luc a perdu la première manche La chemise a perdu sa manche gauche La pioche a perdu son manche Chaque utilisation correspond à un sens précis Vienne est la capitale de l'Autriche Vienne est près de Valence La Vienne fait partie de la région Poitou-Charentes La Vienne se jette dans la Loire Il faut absolument qu'il vienne

Synonymes C'est un gros avion C'est un gros achat Luc est trop gros C'est

Synonymes C'est un gros avion C'est un gros achat Luc est trop gros C'est un grand avion C'est un grand achat Luc est trop grand Critère Possibilité de remplacer un mot par l'autre dans au moins un contexte sans "trop" changer le sens

Granularité Les étiquettes lexicales (catégorie grammaticale, genre, nombre) permettent déjà de distinguer 2 des

Granularité Les étiquettes lexicales (catégorie grammaticale, genre, nombre) permettent déjà de distinguer 2 des 3 sens Luc a perdu la première manche N: fs La chemise a perdu sa manche gauche N: fs La pioche a perdu son manche N: ms mais cela ne distingue pas les 2 premiers qui sont pourtant très différents La granularité n'est pas suffisante

Réseau sémantique Comme un lexique mais - plusieurs entrées différentes pour un mot ambigu

Réseau sémantique Comme un lexique mais - plusieurs entrées différentes pour un mot ambigu - une seule entrée pour plusieurs synonymes Exemples d'entrées 1. couillon - gogo - naïf - pigeon 2. bar - loup de mer - perche de mer 3. bar - bistro - brasserie - café - estaminet Une entrée = un ensemble de synonymes (noeud du réseau)

Systèmes de représentation des connaissances Méthodes symboliques On représente les concepts et propositions par

Systèmes de représentation des connaissances Méthodes symboliques On représente les concepts et propositions par des symboles formels : prédicats, formules, noeuds du réseau. . . On manipule les symboles pour produire des résultats sous la forme de nouveaux symboles Les symboles forment un système de représentation des connaissances Méthodes non symboliques On utilise les symboles uniquement pour l'entrée et la sortie des programmes de résolution de problèmes Les programmes eux-mêmes utilisent des statistiques, des probabilités, des réseaux de neurones, des algorithmes génétiques. . .

Systèmes de représentation des connaissances Les connaissances et le logiciel de raisonnement Les langages

Systèmes de représentation des connaissances Les connaissances et le logiciel de raisonnement Les langages Prolog et Lisp permettent de mélanger la représentation des connaissances dans le logiciel Représentation des connaissances Experts du domaine Explicite Déclaratif Logiciel de raisonnement Développeurs Ce sont des métiers différents : mieux vaut séparer

Systèmes de représentation des connaissances Éditer Ajouter, supprimer, modifier des éléments Tester Cohérence, non-régression

Systèmes de représentation des connaissances Éditer Ajouter, supprimer, modifier des éléments Tester Cohérence, non-régression Consulter Quelles sont les propositions compatibles avec les connaissances ? Une proposition donnée est-elle compatible ?

Réseau sémantique Origine Réflexion sur la mémoire associative humaine, le langage Noeuds Les concepts

Réseau sémantique Origine Réflexion sur la mémoire associative humaine, le langage Noeuds Les concepts : plusieurs noeuds différents pour un mot ambigu, un seul noeud pour plusieurs synonymes Exemples de noeuds 1. couillon - gogo - naïf - pigeon 2. bar - loup de mer - perche de mer 3. bar - bistro - brasserie - café - estaminet

Réseau sémantique Arcs Relations entre concepts Exemples d'arcs humain, personne Luc a aime cheveux,

Réseau sémantique Arcs Relations entre concepts Exemples d'arcs humain, personne Luc a aime cheveux, tifs, chevelure Marie

Relations sémantiques Relations permettant des classifications X est une sorte de Y bar -

Relations sémantiques Relations permettant des classifications X est une sorte de Y bar - loup de mer - perche de mer poisson - poiscaille animal - bête X Y Z Y est une sorte de X bar - bistro - brasserie - café - estaminet bar à vins X Y

Relations sémantiques Relations permettant des classifications X est un Y Luc personne - humain

Relations sémantiques Relations permettant des classifications X est un Y Luc personne - humain X est un Y Tour Eiffel monument X Y

Relations sémantiques X est une partie de Y mets - plat repas Y est

Relations sémantiques X est une partie de Y mets - plat repas Y est une partie de X poiscaille - poisson écaille nageoire ligne latérale ouïe

Relations sémantiques contraire gagnant - vainqueur perdant

Relations sémantiques contraire gagnant - vainqueur perdant

Réseau sémantique Classification humain, personne Héritage de propriétés sorte de homme, mec, gars sorte

Réseau sémantique Classification humain, personne Héritage de propriétés sorte de homme, mec, gars sorte de femme, nana est un Luc a cheveux, tifs, chevelure est un aime Marie

Word. Net Célèbre réseau sémantique Noeuds : « synsets » 1. couillon - gogo

Word. Net Célèbre réseau sémantique Noeuds : « synsets » 1. couillon - gogo - naïf - pigeon 2. bar - loup de mer - perche de mer 3. bar - bistro - brasserie - café - estaminet Une entrée = un ensemble de synonymes (synset) Membres d'un synset - lemmes et non formes fléchies - mots et non tokens (loup de mer : mot composé) Définitions informelles Any of various mostly cold-blooded aquatic vertebrates usually having scales and breathing through gills

Word. Net Anglais Version 3. 0 : 120 000 synsets Miller, 1995 - Fellbaum,

Word. Net Anglais Version 3. 0 : 120 000 synsets Miller, 1995 - Fellbaum, 1998 Le réseau sémantique le plus utilisé au monde Développement à partir de 1985 - Première version 1991 4 sous-réseaux : noms, verbes, adjectifs, adverbes La granularité de Word. Net est beaucoup plus fine, parfois trop Ex. : 4 sens pour tribe "tribu"

Word. Net Principales relations entre synsets sorte de est un partie membre similaire V/V

Word. Net Principales relations entre synsets sorte de est un partie membre similaire V/V N/N N/N A/A exhale/breathe; inhale/breathe cat/feline Eiffel Tower/tower France/European Union dying/moribund

Word. Net Principales relations entre lemmes contraire appartenance dérivé A/A good/bad A/N academic/academia Adv/A

Word. Net Principales relations entre lemmes contraire appartenance dérivé A/A good/bad A/N academic/academia Adv/A boastfully/boastful N/V killing/kill A/N dark/darkness

Hyperonymes Le synset de breathe est un hyperonyme de ceux de exhale et inhale

Hyperonymes Le synset de breathe est un hyperonyme de ceux de exhale et inhale Le synset de feline est un hyperonyme de celui de cat Un synset a souvent un seul synset hyperonyme, mais peut en avoir plusieurs Exemple eat "manger" a deux hyperonymes : eat "prendre un repas" (contestable) et consume/ingest/take in/take/have Le synset de cat est un hyponyme de celui de feline

Hyperonymes timepiece/timekeeper/horologe atomic clock watch/ticker ammonia clock sandglass sundial caesium clock alarm clock/alarm hourglass

Hyperonymes timepiece/timekeeper/horologe atomic clock watch/ticker ammonia clock sandglass sundial caesium clock alarm clock/alarm hourglass egg timer chronograph. . . timer . . . stopwatch/stopo watch parking meter

Coordonnés d'un synset : les synsets qui ont un même hyperonyme Coordonnés de watch/ticker

Coordonnés d'un synset : les synsets qui ont un même hyperonyme Coordonnés de watch/ticker atomic clock sandglass sundial timer Les coordonnés d'un synset ne sont pas directement accessibles par les fonctions NLTK d'accès à Word. Net Recher les hyperonymes puis les hyponymes

Autres Word. Nets Euro. Word. Net Français (23 000 synsets), anglais, néerlandais, italien, espagnol,

Autres Word. Nets Euro. Word. Net Français (23 000 synsets), anglais, néerlandais, italien, espagnol, allemand, tchèque, estonien Liens entre langues et avec l'anglais Balka. Net Tchèque, roumain, grec, turc, bulgare, serbe Ontologies Réseaux sémantiques plus structurés Les noeuds ne sont pas forcément des synsets, ex. Alcoholic. Beverage Contiennent des connaissances formalisées, ex. toute boisson est un liquide, tout ce quelqu'un boit est une boisson. . .

Parcours d'un réseau sémantique Entrée : un synset Sorties : des ensembles de lemmes

Parcours d'un réseau sémantique Entrée : un synset Sorties : des ensembles de lemmes "associés" au synset d'entrée synset. assoc(1) = les hyponymes de synset. assoc(2) = les hyperonymes de synset. assoc(3) = les coordonnés de synset. assoc(4) = les hyponymes des éléments de synset. assoc(3) pour i de 1 à 4 synset. assoc. Lemmas(i) = union des éléments de synset. assoc(i)

Exemple Entrée : sandglass synset. assoc(1) = egg timer, hourglass synset. assoc(2) = timepiece/timekeeper/horologe

Exemple Entrée : sandglass synset. assoc(1) = egg timer, hourglass synset. assoc(2) = timepiece/timekeeper/horologe synset. assoc(3) = atomic clock, sundial, timer, watch/ticker synset. assoc(4) = ammonia clock, caesium clock, alarm clock/alarm, chronograph, parking meter, stopwatch/stopo watch. . . synset. assoc. Lemmas(1) = egg timer, hourglass synset. assoc. Lemmas(2) = timepiece, timekeeper, horologe synset. assoc. Lemmas(3) = atomic clock, sundial, timer, watch, ticker synset. assoc. Lemmas(4) = ammonia clock, caesium clock, alarm, chronograph, parking meter, stopwatch, stopo watch. . .

Levée d'ambiguïtés Pour chaque mot ambigu, pour chaque occurrence, déterminer le sens précis Objectifs

Levée d'ambiguïtés Pour chaque mot ambigu, pour chaque occurrence, déterminer le sens précis Objectifs Recherche d'informations, traduction. . . Le sens précis sera représenté par un synset Hypothèse Beaucoup de voisins d'un mot sont des hyponymes, des hyperonymes ou des coordonnés Méthode Pour chaque synset contenant le mot ambigu, compter les hyponymes, hyperonymes et coordonnés dans le voisinage

Cooccurrence du premier ordre Deux mots sont cooccurrents du premier ordre s'ils sont souvent

Cooccurrence du premier ordre Deux mots sont cooccurrents du premier ordre s'ils sont souvent voisins Exemple : vendre/produit Cooccurrence du second ordre Deux mots sont cooccurrents du second ordre s'ils ont souvent les mêmes voisins Exemple : vendre/acheter Voisins communs : produit, prix, fournisseur, client. . .

Cooccurrence du premier ordre On utilise un corpus de référence qui peut être lemmatisé

Cooccurrence du premier ordre On utilise un corpus de référence qui peut être lemmatisé Deux mots m 1 et m 2 On calcule nb_occ(m 1), nb_occ(m 2) nb_occ(m 1, m 2) : nombre d'occurrences de m 1 et m 2 dans le même paragraphe ou dans le même document ou à une distance inférieure à un seuil (5 à 10 tokens) 2. nb_occ(m 1, m 2)/(nb_occ(m 1) + nb_occ(m 2)) valeur comprise entre 0 et 1 Plus m 1 et m 2 apparaissent souvent ensemble, plus cette valeur se rapproche de 1

Cooccurrence du second ordre On utilise un corpus de référence qui peut être lemmatisé

Cooccurrence du second ordre On utilise un corpus de référence qui peut être lemmatisé Deux mots m 1 et m 2 On calcule voisins(m 1) et voisins(m 2), sacs de mots Critères : - paragraphe ou distance - différents de m 1 ou m 2 - catégorie nom ou pertinence D/d(m) On calcule la similarité entre les deux vecteurs (cosinus de l'angle) Plus m 1 et m 2 apparaissent avec les mêmes voisins, plus cette valeur est élevée

Levée d'ambiguïtés avec Word. Net Entrée : un texte étiqueté et lemmatisé ; Word.

Levée d'ambiguïtés avec Word. Net Entrée : un texte étiqueté et lemmatisé ; Word. Net ; un corpus de référence Sortie : pour chaque mot ambigu du texte, un synset pour chaque mot du texte si mot appartient à plusieurs synsets sélectionner des voisins v de mot dans le texte (critères : - paragraphe ou distance - différents de mot - catégorie nom ou pertinence D/d(v)) pour chaque synset. assoc = union synset. assoc(i) pour i de 1 à 4 synset. score = nombre de v dans synset. assoc mot. synset = le synset dont synset. score est maximal

Cadres ou Frames Origine Marvin Minsky, années 1970 Un cadre représente un concept Il

Cadres ou Frames Origine Marvin Minsky, années 1970 Un cadre représente un concept Il a un nom et des attributs ou propriétés Chaque attribut est décrit par un nom et des paires facette/valeur Luc (est-un (valeur personne)) (s'appelle (valeur Luc)) (fils-de (valeur Jean))

Cadres ou Frames Un cadre représente une personne ou un concept concret ou abstrait

Cadres ou Frames Un cadre représente une personne ou un concept concret ou abstrait Facettes valeur, défaut types : doit-être, possibilité, liste-de, intervalle. . . attachements procéduraux : si-besoin, si-ajout, si-modif, sisupprime Personne (âge (doit-être entier) (si-besoin (compter. . . ))) Planète (a-atmosphère (doit-être booléen) (défaut faux))