Un atelier Rbrul au colloque Les franais dici
Un atelier Rbrul au colloque Les français d’ici Naomi. Nagy@utoronto. ca Salle 0617, Pavillon Marcel A. Desautels, l’Université de Saint-Boniface, Winnipeg le 8 juin 2016
PRÉPARATION Avant l’atelier, les participants doivent • installer le logiciel R sur leur ordinateur. • Il faudra l’accès à l’internet pendant l’atelier pour installer et utiliser Rbrul. • L’emploi d’un logiciel tableur, comme Excel, sera aussi utile pendant l’atelier. 8 juin 2016 Atelier Rbrul / LFDI 2
Il faut les fichiers (dans Dropbox) 1. Des renseignements détaillés pour installer le logiciel R et commencer avec Rbrul = (le fichier Rbrul pour les nuls_Tamminga. docx) 2. Une traduction des menus Rbrul 3. Des ensembles de données que nous utiliserons pendant l’atelier: – Labov (r) NYC – Grimm (subjonctif) Hawkesbury – Colantoni & Steele (ʁ) Toronto 4. Un glossaire créé par Anne-José Villeneuve 8 juin 2016 Atelier Rbrul / LFDI 3
PLAN POUR L’ATELIER 1. Bilan: Que fait Goldvarb? 2. Discussion: Avantages et désavantages de Rbrul et de Goldvarb 3. Que fait le paquet (ou logiciel) Rbrul? 4. Que faites-vous pour employer Rbrul? 5. Exercices pratiques pour démarrer Rbrul, analyser quelques données, et, s’il y a du temps, créer des graphiques 6. Assistance dans l’exploration de vos propres données (ou les données fournies) 8 juin 2016 Atelier Rbrul / LFDI 4
Bilan: Que fait Goldvarb? • • • Faire des analyses multivariées pour comprendre les effets de plusieurs contraintes (discrètes) internes ou externes (lx, sociale, stylistique) sur une variable dépendante binaire. Calculer la distribution de chaque variante de la variable dépendante dans chaque contexte (variable indépendante). Calculer le poids relatif du facteur, ou la probabilité d’occurrence dans chaque contexte, dans une analyse de régression multiple La signification est calculée pour comparer les modèles mais pas pour les contraintes individuelles – p dans les analyses ascendantes/descendantes – log de vraisemblance pour comparison entre modèles Pour Windows ou Mac Les données doivent être organisées dans un format particulier. 8 juin 2016 Atelier Rbrul / LFDI 5
Rbrul: output 1 le b a i r Va dante pen indé $Magasin fixed logodds tokens r/r+0 uncentered weight Saks 0. 849 177 0. 475 0. 695 Macy's 0. 428 336 0. 372 0. 599 Klein's -1. 277 216 0. 097 0. 214 Variable Indépendante (ici, avec 3 variantes) 8 juin 2016 # d’occurences dans ce contexte (chaque magasin) Niveau d’emploi dans ces données (comme %) dans ce contexte (Magasin) Atelier Rbrul / LFDI Probabilité d’emploi (d’après CE modèle) dans chaque contexte (Magasin) Valeurs du poids relatif entre 0 à 1 6
Rbrul results 8 juin 2016 Atelier Rbrul / LFDI 7
Rbrul: output (le reste du modèle) … Trying store… $store fixed logodds tokens 1/1+0 uncentered weight Saks 0. 849 177 0. 475 0. 695 Macy's 0. 428 336 0. 372 0. 599 Klein's -1. 277 216 0. 097 0. 214 $misc deviance df intercept mean uncentered input prob 826. 233 3 -0. 951 0. 316 0. 284 Run 1 (above) with null + store better than null … p = 1. 08 e-18 Trying emphasis… $emphasis fixed logodds tokens 1/1+0 uncentered weight emphatic 0. 115 271 0. 347 0. 536 normal -0. 115 458 0. 297 0. 479 … deviance df intercept mean uncentered input prob 907. 011 2 -0. 747 0. 316 0. 315 Run 2 (above) with null + emphasis better than null with p = 8 juin 2016 0. 162… Atelier Rbrul / LFDI 8
Comment lire une analyse multivariée 1. Quels facteurs sont statistiquement significatifs? 2. Quelle est la contribution relative des facteurs linguistiques sélectionnés? 3. Quel est le groupe le plus important (l’écart le plus grand)? le moins important (l’écart le plus petit)? 4. Quel est l'ordre (de plus à moins) des facteurs au sein d’une contrainte linguistique? 5. Est-ce que cet ordre reflète la direction prédite par l'une ou l'autre des hypothèses à tester? 8 juin 2016 Atelier Rbrul / LFDI 9
8 juin 2016 Atelier Rbrul / LFDI 10
Les maths derrière l’analyse Grm. Cat & #Syll Résolution d'équations simultanées: x+y=5 x*y=6 x*x=4 Facteur Verb Adjective Noun %. 77. 51. 43 2 3 4 . 69. 44 Blue White Managerial . 74. 60. 59 Verb & 2 = Adj & 2 = Noun& 2 = . 73. 63 . 61 Verb & 3 = Adj & 3 = Noun & 3 = … . 63. 50 . 46 Verb & 2 & Blue = Verb & 2 & White = Verb & 3 & Blue = Verb & 3 & White = … Adj & 2 & Blue = Adj & 2 & White = Adj & 3 & Blue = Adj & 3 & White = … . 73. 69. 67. 62 Explication (en anglais) http: //www. iprh. illinois. edu/resources/videos/ (À voir: Nagy, à ~6 min. , ) . . 11
Comparaison: • Avantages et désavantages de Rbrul (contre Goldvarb) 8 juin 2016 Atelier Rbrul / LFDI 12
Atouts théoriques • Possibilité d’inclure des variables continues (dépendantes et indépendantes). – p. ex. : Age, Formant d’une voyelle • Possibilité d’inclure des effets aléatoires (random effects) – Pour résoudre un problème grave : le logiciel Gold. Varb surestime l’importance des effets (Johnson 2009: 359) = identifie un effet faux comme un effet vrai (appelé une Erreur de Type I). . . – Le taux d'erreur de type I de Rbrul reste proche de la valeur théorique de 0, 05 dans de nombreuses situations où Gold. Varb le dépasse vivement. – Toutefois, ce comportement plus conservateur a un compromis: dans certaines situations, Rbrul est plus susceptible que Gold. Varb de faire une erreur de type II en omettant d'identifier un effet vrai. (ibid. 365) 8 juin 2016 Atelier Rbrul / LFDI 13
Contexte pour une erreur de Type I (traduit de Brezina & Meyerhoff 2014) Moyenne pour F: 28 Moyenne pour M: 20 8 juin 2016 Atelier Rbrul / LFDI 14
Plusieurs moyens de comparer les modèles pour en choisir le meilleur • Vous voyez les niveaux de signification pour chaque variable indépendante dans une analyse simple (1 -niveau) • Vous pouvez ajuster le seuil de signification pour les cas de plusieurs contraintes – correction Bonferroni 8 juin 2016 Atelier Rbrul / LFDI 15
Atouts pour la manipulation des données • Les variantes/niveaux peuvent avoir des noms compréhensibles (et longs). Vous voyez aussi les noms des variables/contraintes. • Chaque exemple peut être accompagné par le mot et/ou la phrase où il se trouve dans la conversation. – Emploi d’un logiciel comme ELAN pour transcrire et encoder les données – Pas de signes diacritiques, pas d’espaces, malheureusement • Le fichier d’input à un format plutôt normal. Vous pouvez aussi l’utiliser avec d’autres logiciels (et dans Excel). • Plus facile de recoder et de créer des variables d’interaction. • Notification de multicollinearité (variance inflation factor, p. ex. « vif > 2. 5 » ) • Plus facile de travailler avec les données où il y a des knockouts (Johnson 2009: 363) 8 juin 2016 Atelier Rbrul / LFDI 16
Goldvarb: Les données: (r. Sn 4 (r. Sn. F (0 Sn. F (r. Ke 4 (0 Ke 4 (r. Ke 4 8 juin 2016 Atelier Rbrul / LFDI 17
ELAN Excel: les données au tableau Variante Per- Type de Début Phrase sonne syntagme … refl. 3 clitique 2 clitique 3 Traduction this boy principal 10: 59. si kwatra si goes+refl. by e 5 fata la m bicycle. bitʃiklɛt principal 11: 05. tə va apre a la You goafter the bus e 8 koriər and the clause 11: 14. e la la peɡorə k sheep that it relative 2 i ʎɛstə anda went behind dəri … 8 juin 2016 Atelier Rbrul / LFDI 18
Atouts dans l’output • Les tableaux sont plus complets. • Rbrul vous donne plus de statistiques pour comprendre la signification et le fit du modèle. • Le format des tableaux est plus compréhensibles et plus proches de ce qu’il faut publier. • Les modèles et les formats ressemblent et à l’output de Goldvarb et aux formats normaux pour d’autres champs de recherche (avec lesquels nous devons communiquer). • En plus, ça nous donne l’accès à plusieurs ressources pour comprendre et manipuler nos données. 8 juin 2016 Atelier Rbrul / LFDI 19
Goldvarb: Les résultats 1: Group r 0 Total % ------------------- 1 (2) r 0 S N 84 93 177 24. 3 % 47. 5 52. 5 M N 125 211 336 46. 1 % 37. 2 62. 8 K N 21 195 216 29. 6 % 9. 7 90. 3 Total N 230 499 729 % 31. 6 68. 4 ------------------- 2 (3) r 0 n N 136 322 458 62. 8 % 29. 7 70. 3 e N 94 177 271 37. 2 % 34. 7 65. 3 Total N 230 499 729. . . % 31. 6 68. 4 8 juin 2016 Atelier Rbrul / LFDI 20
Goldvarb: Les résultats 2: Run # 10, 6 cells: Convergence at Iteration 6 Input 0. 275 Group # 1 -- S: 0. 706, M: 0. 602, K: 0. 204 Group # 3 -- 4: 0. 385, F: 0. 626 Log likelihood = -396. 501 Significance = 0. 070 8 juin 2016 Atelier Rbrul / LFDI 21
Rbrul results 8 juin 2016 Atelier Rbrul / LFDI 22
ELAN: Les occurences codifiées 8 juin 2016 Atelier Rbrul / LFDI 23
ELAN Excel: les données au tableau Début Phrase Traduction … Variante Personne Type de syntagme 3 principale 3 clause relative this boy 10: 59. 5 si kwatra si refl. goes+refl. by fata la m bicycle. bitʃiklɛt 11: 05. 8 i vɛn apre a la he comes after clitique the bus koriər and the 11: 14. 2 e la la peɡorə k clitique sheep that it i ʎɛstə anda went behind dəri a vari ble nda nte nda ante end épe ind #2 dép Atelier Rbrul / LFDI épe ind #1 ble 8 juin 2016 able a vari … 24
Rbrul results 2 8 juin 2016 Atelier Rbrul / LFDI 25
Une forte raison contre le Rbrul • Il existe presque un demi-siècle de publications et d’analyses faites avec Goldvarb. • Donc si on veut comparer… 8 juin 2016 Atelier Rbrul / LFDI 26
Vocabulaire utile response variable vs. dependent variable réponse vs. variable dépendante predictor/factor & levels vs. (independent) factor group and factors prédicteur / facteur et ses niveaux vs. groupe de facteurs (indépendants) et ses facteurs external/social vs. internal/linguistic & stylistic externe / social(e) vs. interne / linguistique et stylistique log odds vs. factor weights probabilité logarithmique (Rbrul) vs. poids relatif (Goldvarb et Rbrul) 8 juin 2016 Atelier Rbrul / LFDI 27
Que fait le paquet (ou logiciel) Rbrul? • Rbrul est un paquet utilisé par R, un «logiciel statistique libre d’accès et gratuit, avec un environnement extensible par l'utilisateur [. . . ]utilisé de plus en plus par des linguistes» (Baayen 2008 cité dans Johnson 2009: 360). • "Un programme de règles variables évalue les effets de plusieurs facteurs à la fois sur un « choix » binaire (ou continu) linguistique - la présence ou l'absence d'un élément, ou tout phénomène traité comme une alternance entre deux variantes. Les facteurs peuvent être internes (linguistique): tels que phonologique ou environnement syntaxique, ou externe (social), par exemple, sexe ou de classe sociale du locuteur. Le programme identifie les facteurs qui affectent de manière significative la variable de réponse d'intérêt, dans quelle direction, et à quel degré. » (Johnson 2009: 359) • = Régression logistique multiple 8 juin 2016 Atelier Rbrul / LFDI 28
Par exemple, • «Étant donné un ensemble d'observations de (ing) à travers les styles, Gold. Varb reviendrait à une moyenne ajustée représentant la probabilité globale de [n] dans les données, et une autre probabilité, appelée un poids de facteur, pour chaque facteur de style. » (Johnson 2009 : 360) 8 juin 2016 Atelier Rbrul / LFDI 29
Les modèles mixtes • « … font une distinction entre deux types de facteurs qui peuvent influencer une réponse. Les effets fixes sont des facteurs avec un assez petit nombre de niveaux possibles, par exemple, homme / femme ou voyelle / consonne / pause. Ces facteurs sont habituellement l'objet d'intérêts direct, et leurs niveaux seraient réplicables dans une autre étude. Les facteurs tirés d'une population plus grande, tels que les locuteurs dans une étude, sont appelés les effets aléatoires. Ils ne sont normalement pas réplicables - deux études du même phénomène linguistique pourraient impliquer toutes les deux des hommes et des femmes, mais sans doute pas les mêmes individus. Pour les effets aléatoires, la représentation de la variation dans la population est plus importante que de connaître les valeurs exactes des effets individuels (bien qu’ils sont aussi estimés) » (Johnson 2009: 364 -5). 8 juin 2016 Atelier Rbrul / LFDI 30
Exercices pratiques • démarrer Rbrul ØDocument de Tamminga • analyser quelques données ØLabov (r) NYC ØGrimm (subjonctif) Hawksbury • créer des graphiques 8 juin 2016 Atelier Rbrul / LFDI 31
Graphique qui correspond au tableaucroisé pour Labov (r) (dans le document de Tamminga) 8 juin 2016 Atelier Rbrul / LFDI 32
ANALYSE du (Subjonctif) factor $Sexe masculin feminin $Classe_sociale moyen-inferieur ouvriere logodds tokens n 0. 072 80 -0. 072 94 Subj. / Subj. +Autre (% Subjonctif) 0. 888 0. 851 Centered factor weight 0. 518 0. 482 0. 912 0. 084 -0. 997 62 64 48 0. 952 0. 891 0. 729 0. 713 0. 521 0. 270 $Niveau_de_restriction semi-restreint 0. 084 non-restreint -0. 084 49 125 0. 918 0. 848 0. 521 0. 479 8 juin 2016 Atelier Rbrul / LFDI 33
ANALYSE du (Subjonctif), suite $misc. 1 n 174 df 5 overall intercept proportion 2. 071 0. 868 $misc. 2 log. likelihood -62. 049 AIC 134. 098 AICc 134. 455 8 juin 2016 Atelier Rbrul / LFDI Dxy 0. 441 centered input prob 0. 888 R 2 0. 156 34
Une interaction découverte Valeur d’application: Subjonctif Données: Grimm (2015) 8 juin 2016 Atelier Rbrul / LFDI 35
Assistance dans l’exploration de vos propres données Ø ou les données fournies par Colantoni & Steele (ʁ) NB: Pas de signes diacritiques dans vos données (et pas d’espaces)! « If you get an error saying 'invalid multibyte string', it means foreign characters are in your data: accents, diacritics, digraphs, or even worse! Get rid of them! » 8 juin 2016 Atelier Rbrul / LFDI 36
Bibliographie et ressources utiles Brezina, Vaclav & Miriam Meyerhoff. 2014. Significant or random? A critical review of sociolinguistic generalisations based on large corpora. International Journal of Corpus Linguistics. Colantoni, Laura & Jeffrey Steele. 2007. Acquiring /ʁ/ in context. Studies in Second Language Acquisition 29(03), 381 -406. Grimm, D. Rick. 2013. Grammatical variation and change in spoken Ontario French: The subjunctive mood and the expression of future temporal reference. Thèse de doctorat, Université York. Johnson, Daniel Ezra. 2009. Getting off the Goldvarb standard. Language & Linguistic Compass 3. 1: 359 -383 Labov, William. 1972. Sociolinguistic Patterns. Ch. 4. Philadelphia: Université de Pennsylvanie. Tamminga, Meredith. 2011. Getting started with Rbrul for the completely clueless: A basic illustrated guide to the quantitative analysis of categorical linguistic variables. http: //www. meredithtamminga. com/documents/Getting_started_with_Rbrul. pd f. (Version traduite en Dropbox. ) Villeneuve, Anne-José. 2013. Glossaire pour l’étude de la sociolinguistique 8 juin 2016 Atelier Rbrul / LFDI 37 variationniste. https: //goo. gl/X 8 s. B 2 n.
- Slides: 37