La smantique des connecteurs de lanalyse manuelle lanalyse

  • Slides: 64
Download presentation
La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus Liesbeth Degand

La sémantique des connecteurs: de l’analyse manuelle à l’analyse automatisée de corpus Liesbeth Degand FNRS/Université catholique de Louvain Sémantique et Corpus, Toulouse, juin 2004 1

Relations causales et connecteurs • Son prochain objectif: le record du monde d'apnée statique

Relations causales et connecteurs • Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997) Sémantique et Corpus, Toulouse, juin 2004 2

Relations causales et connecteurs • Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa.

Relations causales et connecteurs • Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004 3

Relations causales et connecteurs (…) je crois que ça s'appelle en français mais excusez-moi

Relations causales et connecteurs (…) je crois que ça s'appelle en français mais excusez-moi parce que je vais peutêtre (…) estropier le mot hein / un goupillon là (Valibel) Sémantique et Corpus, Toulouse, juin 2004 4

Relations causales et connecteurs • Ce transfert de souveraineté est génial , parce que

Relations causales et connecteurs • Ce transfert de souveraineté est génial , parce que je vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004 5

Relations causales et connecteurs • A l' occasion de leurs retrouvailles , les deux

Relations causales et connecteurs • A l' occasion de leurs retrouvailles , les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, car il n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient , évidemment , voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997) Sémantique et Corpus, Toulouse, juin 2004 6

L’échelle d’Implication du Locuteur • Conceptualisation scalaire des connecteurs en termes d’implication du locuteur.

L’échelle d’Implication du Locuteur • Conceptualisation scalaire des connecteurs en termes d’implication du locuteur. Les connecteurs sont ordonnés sur une échelle allant d’un implication minimale (relation objective) à une implication maximale (relation subjective). • Id. L fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale) Sémantique et Corpus, Toulouse, juin 2004 7

L’échelle d’Implication du Locuteur Speaker Involvement increases with the degree to which both the

L’échelle d’Implication du Locuteur Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001) NVC VC Cep NCEp Sémantique et Corpus, Toulouse, juin 2004 CSA 8

Détermination du niveau d’Id. L • Degré d’iconicité de la relation causale • Présence

Détermination du niveau d’Id. L • Degré d’iconicité de la relation causale • Présence d’un protagoniste conscient dans la situation causale • Caractère plus ou moins implicite du protagoniste • Distance par rapport au locuteur et au temps présent Sémantique et Corpus, Toulouse, juin 2004 9

Connecteurs et Implication du Locuteur • Tout connecteur encode un certain niveau d’Id. L

Connecteurs et Implication du Locuteur • Tout connecteur encode un certain niveau d’Id. L qu’il contribue à l’interprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, l’usage du connecteur est inapproprié, ou il impose une nouvelle interprétation. Sémantique et Corpus, Toulouse, juin 2004 10

Connecteurs et Implication du Locuteur • J’étais pressé, monsieur l’agent, c’est pourquoi j’ai pris

Connecteurs et Implication du Locuteur • J’étais pressé, monsieur l’agent, c’est pourquoi j’ai pris le sens interdit. • J’étais pressé, monsieur l’agent, donc j’ai pris le sens interdit. Sémantique et Corpus, Toulouse, juin 2004 11

Connecteurs, Id. L et corpus • Connecteurs causaux en néerlandais et en français ØNéerlandais:

Connecteurs, Id. L et corpus • Connecteurs causaux en néerlandais et en français ØNéerlandais: daardoor, daarom, dus, omdat, want, aangezien ØFrançais: de ce fait, c’est pourquoi, dès lors, donc, parce que, car, puisque Sémantique et Corpus, Toulouse, juin 2004 12

Connecteurs, Id. L et corpus • Analyse manuelle de 50 occurrences de chacun des

Connecteurs, Id. L et corpus • Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN). • Deux juges • Codage linguistique des marqueurs d’Idl – – – – Type de relation Modalité de S 1 et S 2 Présence d’un protagoniste conscient Expression linguistique du protagoniste Continuïté du protagoniste entre S 1 et S 2 Temps verbal Sémantique et Corpus, Toulouse, juin 2004 … 13

Codage linguistique (…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait

Codage linguistique (…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…) 7 14 08 5 2 9 1 3 6 3 1 11 11 1 6 Corpus: Le Soir 1997 Connecteur: parce que Fragment: #08 Modalité S 1: Action Modalité S 2: Opinion Type de relation: volitif Réalisation du pp en S 1: explicite Réalisation du pp en S 2: implicite … Sémantique et Corpus, Toulouse, juin 2004 14

Difficultés • Choix des catégories et des traits sémantiques – Combien de catégories? Théorie(s)

Difficultés • Choix des catégories et des traits sémantiques – Combien de catégories? Théorie(s) et hypothèses – Combien de traits sémantiques? Ni trop, ni trop peu… Sémantique et Corpus, Toulouse, juin 2004 15

Difficultés • Accord inter-juges? ! – Détermination de la modalité Scène 2 : suite

Difficultés • Accord inter-juges? ! – Détermination de la modalité Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule. S 1 = fait, expérience ou action? Sémantique et Corpus, Toulouse, juin 2004 16

Difficultés • Accord inter-juges? ! – Détermination de la relation causale Si j' accepte

Difficultés • Accord inter-juges? ! – Détermination de la relation causale Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs , c' est parce que le formidable travail qui a été fait ne peut rester oublié. Relation volitive ou épistémique? Sémantique et Corpus, Toulouse, juin 2004 17

Difficultés • Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S 1

Difficultés • Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S 1 et S 2 & Modification du connecteur – C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences. – C' est parfois difficile parce qu' il y a ce côté tridimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur. Sémantique et Corpus, Toulouse, juin 2004 18

Difficultés • Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S 1

Difficultés • Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S 1 et S 2 & Modification du connecteur – C' est donc surtout parce qu' il estime qu' il convient sur ces sujets délicats d' éviter la précipitation dans la généralisation (P), que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q). – C' est parfois difficile (Q) parce qu' il y a ce côté tridimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P). Sémantique et Corpus, Toulouse, juin 2004 19

Solutions … • Opérationaliser!!! – Explicitation du processus interprétatif • Au moins deux juges

Solutions … • Opérationaliser!!! – Explicitation du processus interprétatif • Au moins deux juges • Taille des échantillons (min. 50? ) Sémantique et Corpus, Toulouse, juin 2004 20

var 4 modalité S 1 1 = fait Description d’un état ou d’un événement

var 4 modalité S 1 1 = fait Description d’un état ou d’un événement localisable dans le temps (attribution possible de Vd. V ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il n’y a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit. Ex. … Papraphrase: “C’est un fait que …” + spécification de temps et lieu Sémantique et Corpus, Toulouse, juin 2004 21

var 4 modalité S 1 3 = Expérience Il y a un conceptualiseur, qui

var 4 modalité S 1 3 = Expérience Il y a un conceptualiseur, qui est non-agentif. L’expérience est localisable dans le temps, Vd. V possible. Il s’agit d’événéments individuels, vrais à un moment donné. Différent d’un fait par la présence d’un conceptualiseur, ou une autre forme de représentation mentale. Ex. … Paraphrase: “je me souviens que …”, “j’ai appris/découvert que… » Sémantique et Corpus, Toulouse, juin 2004 22

Connecteurs causaux et Id. L • Le potentiel expressif de chacun des connecteurs causaux

Connecteurs causaux et Id. L • Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur l’échelle. • Les connecteurs les plus fréquents doivent diverger significativement sur l’échelle. • L’échelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones qu’ils occupent. Sémantique et Corpus, Toulouse, juin 2004 23

Contiguïté relationnelle (NL) Sémantique et Corpus, Toulouse, juin 2004 24

Contiguïté relationnelle (NL) Sémantique et Corpus, Toulouse, juin 2004 24

Contiguïté relationnelle (FR) Sémantique et Corpus, Toulouse, juin 2004 25

Contiguïté relationnelle (FR) Sémantique et Corpus, Toulouse, juin 2004 25

Divergences d’Id. L • Français: Øparce que < car < puisque Øde ce fait

Divergences d’Id. L • Français: Øparce que < car < puisque Øde ce fait < c’est pourquoi < donc/dès lors • Néerlandais: Øomdat < want/aangezien Ødaardoor < daarom < dus Sémantique et Corpus, Toulouse, juin 2004 26

Distance entre protagoniste et locuteur: donc/dès lors Sémantique et Corpus, Toulouse, juin 2004 27

Distance entre protagoniste et locuteur: donc/dès lors Sémantique et Corpus, Toulouse, juin 2004 27

Expression linguistique du protagoniste: donc/dès lors Sémantique et Corpus, Toulouse, juin 2004 28

Expression linguistique du protagoniste: donc/dès lors Sémantique et Corpus, Toulouse, juin 2004 28

Echelle d’Id. L contrastive • Français: Øparce que < car < puisque Øde ce

Echelle d’Id. L contrastive • Français: Øparce que < car < puisque Øde ce fait < c’est pourquoi < dès lors <donc • Néerlandais: Øomdat < aangezien < want Ødaardoor < daarom < dus Sémantique et Corpus, Toulouse, juin 2004 29

Premières conclusions • L'Id. L peut rendre compte de la variété d'usage des connecteurs

Premières conclusions • L'Id. L peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent. • L'Id. L peut mettre au jour des divergences très fines entre connecteurs. • L'Id. L permet de contraster des "équivalents" dans des langues différentes. Sémantique et Corpus, Toulouse, juin 2004 30

Vers une analyse automatisée… Yves Bestgen, FNRS/UCL Wilbert Spooren, VU Amsterdam Sémantique et Corpus,

Vers une analyse automatisée… Yves Bestgen, FNRS/UCL Wilbert Spooren, VU Amsterdam Sémantique et Corpus, Toulouse, juin 2004 31

Connecteurs et Analyses de Corpus • Approches classiques: – analyses manuelles d'échantillons relativement restreints

Connecteurs et Analyses de Corpus • Approches classiques: – analyses manuelles d'échantillons relativement restreints (25 -50) – analyst-dependent • Vers une approche automatisée – vastes corpus – analyst-independent Sémantique et Corpus, Toulouse, juin 2004 32

Connecteurs causaux en NL et FR • Aangezien, omdat, want, doordat • Puisque, parce

Connecteurs causaux en NL et FR • Aangezien, omdat, want, doordat • Puisque, parce que, car • Hypothèses linguistiques doordat < omdat < aangezien < want parce que < car < puisque • Techniques TAL • identification et extraction du matériel linguistique pertinent • analyse du matériel linguistique en fonction des hypothèses Sémantique et Corpus, Toulouse, juin 2004 33

Matériel (NL) • Corpus presse écrite néerlandaise de +/- 30 millions de mots •

Matériel (NL) • Corpus presse écrite néerlandaise de +/- 30 millions de mots • POS-taggé & lemmatisé • Essai sur 6 premiers mois – exclusion des rubriques à faible contenu sémantique • Données: 16. 5 millions de mots Sémantique et Corpus, Toulouse, juin 2004 34

Techniques d'extraction d'information sémantique Analyse sémantique latente ET Analyse de contenu thématique Sémantique et

Techniques d'extraction d'information sémantique Analyse sémantique latente ET Analyse de contenu thématique Sémantique et Corpus, Toulouse, juin 2004 35

Analyse sémantique latente Technique statistique permettant de calculer la proximité sémantique de deux mots

Analyse sémantique latente Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire. Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires. Sémantique et Corpus, Toulouse, juin 2004 36

Analyse sémantique latente • Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel).

Analyse sémantique latente • Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel). • La signification d'un mot est représentée par un vecteur à N dimensions. • Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent. Sémantique et Corpus, Toulouse, juin 2004 37

Cos. = 0 Cos. > 0 Cos. = 1 singe – lettre ordinateur –

Cos. = 0 Cos. > 0 Cos. = 1 singe – lettre ordinateur – mémoire policier - gendarme Sémantique et Corpus, Toulouse, juin 2004 38

Analyse sémantique latente Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.

Analyse sémantique latente Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i. e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat. Sémantique et Corpus, Toulouse, juin 2004 39

Analyse de contenu thématique • Technique d'analyse de contenu permettant de déterminer si un

Analyse de contenu thématique • Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000) • Le concept X est plus fréquent dans les segments A que dans les segments B Sémantique et Corpus, Toulouse, juin 2004 40

Analyse de contenu thématique: première étape • Construction du dictionnaire Concept Entrées lexicales Pronom

Analyse de contenu thématique: première étape • Construction du dictionnaire Concept Entrées lexicales Pronom personnel Verbes d'opinion je, tu, il , elle, nous, vous, ils … croire, penser, estimer, sembler … rouge, bleu, vert, jaune, violet. . Termes de couleurs • Identification des segments, p. ex. avec want, omdat, doordat, aangezien … Sémantique et Corpus, Toulouse, juin 2004 41

Analyse de contenu thématique: seconde étape • Construction d'une matrice avec les segments contenant

Analyse de contenu thématique: seconde étape • Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z want doordat concept X 312 954 102 concept Y 112 89 56 concept Z 230 115 465 Sémantique et Corpus, Toulouse, juin 2004 aangezien 42

Fréquence des connecteurs dans le corpus Connective aangezien doordat omdat want Raw frequency Relative

Fréquence des connecteurs dans le corpus Connective aangezien doordat omdat want Raw frequency Relative frequency (per million words) 248 826 7689 5621 Sémantique et Corpus, Toulouse, juin 2004 30 101 938 686 43

Préalable: Analyse « syntaxique » • Identification des segments de <cause> et de <conséquence>

Préalable: Analyse « syntaxique » • Identification des segments de <cause> et de <conséquence> dans les phrases • Règles heuristiques pour distinguer: – Conn. Antécédent: Puisque c’est ainsi, je reviendrai mardi. – Conn. Médial 1: Je suis venue parce que tu me l’avais demandé. – Conn. Médian 2: Je reviendrai mardi. Car c’était délicieux. Sémantique et Corpus, Toulouse, juin 2004 44

Analyse syntaxique: difficultés • Hiérarchisation des règles par défaut et règles « prioritaires »

Analyse syntaxique: difficultés • Hiérarchisation des règles par défaut et règles « prioritaires » • Détermination des frontières des segments • Taille minimale des segments pour une analyse sémantique Pour le français c’est en cours, pour le néerlandais c’est fait! Sémantique et Corpus, Toulouse, juin 2004 45

Analyse automatique du niveau d’Id. L (analyse sémantique) • Les connecteurs diffèrent les uns

Analyse automatique du niveau d’Id. L (analyse sémantique) • Les connecteurs diffèrent les uns des autres par le niveau d’Id. L qu’ils encodent – doordat: niveau d'Id. L bas (non-volitif, objectif, factuel) – want: niveau d'Idl élevé (épistémiqueinteractionnel, subjectif, opinion-argument) – omdat & aangezien: position intermédiaire (volitif, épistémique) Sémantique et Corpus, Toulouse, juin 2004 46

Dictionnaire de subjectivité Concepts Entrées lexicales fait Exister, cellule, économie, décéder, procédure, événement …

Dictionnaire de subjectivité Concepts Entrées lexicales fait Exister, cellule, économie, décéder, procédure, événement … Aider, fabriquer, choisir, appeler, annoncer, écrire, battre, diriger, … Croire, estimer, probablement, horrible, très, exceptionnel, magnifique, … action opinion Sémantique et Corpus, Toulouse, juin 2004 47

Id. L (modalité de S 1): Hypothèse • Les segments de <conséquence> liés par

Id. L (modalité de S 1): Hypothèse • Les segments de <conséquence> liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots d’action et d’opinion, et ceux liés par aangezien et want contiennent des mots d’opinion. Sémantique et Corpus, Toulouse, juin 2004 48

Id. L: Résultats • L’analyse automatique confirme les analyses de corpus manuelles: doordat cooccure

Id. L: Résultats • L’analyse automatique confirme les analyses de corpus manuelles: doordat cooccure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments d’action et want et aangezien plus avec des segments d’opinion. Sémantique et Corpus, Toulouse, juin 2004 49

Id. L et pronoms personnels • Les pronoms personnels font référence à un protagoniste

Id. L et pronoms personnels • Les pronoms personnels font référence à un protagoniste conscient dans l’événement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003) Sémantique et Corpus, Toulouse, juin 2004 50

Pronoms personnels: Hypothèses • Les connecteurs subjectifs (à Id. L élevé) devraient survenir plus

Pronoms personnels: Hypothèses • Les connecteurs subjectifs (à Id. L élevé) devraient survenir plus avec des pronoms personnels que les connecteurs objectifs (à Id. L basse). • Les connecteurs subjectifs devraient être plus fréquents avec des pronoms personnels à la 1ère personne et les connecteurs objectifs plus fréquents avec des pronoms à la troisième personne. Sémantique et Corpus, Toulouse, juin 2004 51

Pronoms personnels: analyse de contenu thématique • Dictionnaire pour le concept « pronom personnel

Pronoms personnels: analyse de contenu thématique • Dictionnaire pour le concept « pronom personnel » – Entrées lexicales: ik, jij, je, hij, ze, u, wij, we, jullie. Sémantique et Corpus, Toulouse, juin 2004 52

Pronoms personnels: Résultats • La première hypothèse se vérifie: doordat < aangezien < omdat

Pronoms personnels: Résultats • La première hypothèse se vérifie: doordat < aangezien < omdat < want Sémantique et Corpus, Toulouse, juin 2004 53

Pronoms personnels: Résultats • Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont

Pronoms personnels: Résultats • Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont plus fréquents avec des pronoms personnels à la troisième personne, mais la proportion de segments liés par want contenant des pronoms à la première personne est plus élevée. • Want est le connecteur le plus subjectif, les autres connecteurs se retrouvent dans la partie plus objective de l’échelle. Sémantique et Corpus, Toulouse, juin 2004 54

Rupture de perspective (LSA) • La perspectivisation rend compte du fait qu’un texte peut

Rupture de perspective (LSA) • La perspectivisation rend compte du fait qu’un texte peut être polyphonique. Elle joue un rôle dans les divergences de sens entre want (rupture de perspective) et omdat (pas de rupture) • Aucune confirmation empirique univoque Sémantique et Corpus, Toulouse, juin 2004 55

Rupture de perspective (LSA) • Conception de la rupture de perspective comme une rupture

Rupture de perspective (LSA) • Conception de la rupture de perspective comme une rupture dans la cohésion sémantique des segments liés par les connecteurs. • Une rupture de perspective devrait impliquer une diminution de la cohésion sémantique entre les segments connectés. Sémantique et Corpus, Toulouse, juin 2004 56

Rupture de perspective: Hypothèse 1 • Le cosinus entre Q & P liés par

Rupture de perspective: Hypothèse 1 • Le cosinus entre Q & P liés par des connecteurs monophoniques (omdat) sera plus élevé que le cosinus entre Q & P liés par des connecteurs polyphoniques (want). Q conn-mono P vs. Cosinus > Q conn-poly P Cosinus Sémantique et Corpus, Toulouse, juin 2004 57

Rupture de perspective: Hypothèse 2 • Le cosinus entre la phrase précédente et la

Rupture de perspective: Hypothèse 2 • Le cosinus entre la phrase précédente et la phrase suivante sera plus élévé pour les connecteurs monophoniques que pour les connecteurs polyphoniques. PRIOR Q mono P NEXT vs. PRIOR Q poly P NEXT Cosinus > Sémantique et Corpus, Toulouse, juin 2004 Cosinus 58

Rupture de perspective: Résultats LSA • Les deux hypothèses se vérifient – Les segments

Rupture de perspective: Résultats LSA • Les deux hypothèses se vérifient – Les segments reliés par omdat (monophonique) sont sémantiquement plus proches que les segments reliés par want (polyphonique). – Le connecteur omdat va de pair avec une continuité topicale entre la phrase précédente et la phrase suivante, ceci est moins le cas pour want. Sémantique et Corpus, Toulouse, juin 2004 59

Rupture de perspective: Confirmation par ACT • Construction d’un dictionnaire d’ «Indicateurs de perspective

Rupture de perspective: Confirmation par ACT • Construction d’un dictionnaire d’ «Indicateurs de perspective » (adverbes d’attitude, « intensifieurs » , « évaluateurs » , …) sur base d’un thésaurus. Sémantique et Corpus, Toulouse, juin 2004 60

Rupture de perspective: Hypothèse ACT • Si les segments causaux sont reliés par want,

Rupture de perspective: Hypothèse ACT • Si les segments causaux sont reliés par want, les segment Q contient des indicateurs de perspective, P n’en contiendra pas. Les segments reliés par omdat, doordat, aangezien ne présentent pas une telle rupture (perspective uniforme ou absence de perspective). • L’hypothèse est vérifiée… Sémantique et Corpus, Toulouse, juin 2004 61

Conclusions • L’analyse sémantique latente et l’analyse de contenu thématique sont des techniques permettant

Conclusions • L’analyse sémantique latente et l’analyse de contenu thématique sont des techniques permettant l’étude automatisée des facteurs linguistiques déterminant le sens et l’usage des connecteurs. • Une analyse automatisée n’a des sens que si l’on dispose d’hypothèses linguistiques solides (avec premiers résultats « manuels » ). Sémantique et Corpus, Toulouse, juin 2004 62

Conclusions • Usage de VASTES corpus • Confirmation « automatique » des résultats manuels

Conclusions • Usage de VASTES corpus • Confirmation « automatique » des résultats manuels • Complémentarité entre analyses qualitatives et quantitatives, avec « quantification » du « qualitatif » . • Objectivation du processus interprétatif. Sémantique et Corpus, Toulouse, juin 2004 63

Travaux futurs • Automatisation (? ) de l’analyse syntaxique préalable (identification des segments P&Q)

Travaux futurs • Automatisation (? ) de l’analyse syntaxique préalable (identification des segments P&Q) • Extension de l’analyse afin d ’identifier les différents environnements discursifs de différents connecteurs causaux (en néerlandais et en français), dans des genres différents. • Etude de séquences implicites et sous-spécifiées. Sémantique et Corpus, Toulouse, juin 2004 64