Du mauvais usage des chiffres un chiffre ne

  • Slides: 41
Download presentation
Du mauvais usage des chiffres "un chiffre ne ment pas !" "les chiffres, on

Du mauvais usage des chiffres "un chiffre ne ment pas !" "les chiffres, on leur fait dire ce qu'on veut !" "10% des femmes sont haut fonctionnaires" "la croissance est en chute libre" "la majorité des accidentés portaient la ceinture: preuve que c'est dangereux !" "5 moutons et 6 chèvres à bord: quel est l'age du capitaine ? " "24 canettes dans un pack de bière, 24 h dans une journée: qu'en conclure ? " Fabrice NEYRET

1. Sondages connaître une réalité sur une population: • recensement tous 9 ans. (NB:

1. Sondages connaître une réalité sur une population: • recensement tous 9 ans. (NB: pas 100. 00% fiable). Ex: élections • sondage sur population représentative panel (besoin recensement précédent) / aléatoire / volontaire sondage de rue / par téléphone / par Internet • parfois, ambigu: – soirées électorales: sonda. intentions / sonda. sortie urnes / dépouil. partiel / résultat – recensements: Désormais: ts les ans, mais sondage sur 8% !

 Sondages • sondage standard: (1000 personnes) – 95% de chance que juste a

Sondages • sondage standard: (1000 personnes) – 95% de chance que juste a +- 3. 1% 95% de chances qu'entre 47 et 53% des français. . . • Commentaires scores a 1% d'écart, résultats a virgule, "frémissement de tendance", "signes". . . – danger: sondages à tiroirs (sous catégories) "jeunes filles d'origine immigrée qui ont voté PC au 1 er tour" N << 1000 ! Si 3 personnes: juste à +- 57%

Sondages • Biais de sélection: - d’après pratiquants, roulette russe pas mortelle ! -

Sondages • Biais de sélection: - d’après pratiquants, roulette russe pas mortelle ! - d’après explorateurs de grottes, aucun dragon - d’après fans conduites a risques, on surestime dangers panel / aléatoire / volontaire sondage de rue / par téléphone / par Internet Qui on rate, sous-représente. Corrélations cachées ? - « avez-vous Internet ? » « vote nouvelles 7 merveilles » correl représentativité - standard de vie, opinion, … correl maladie/lieu (lignes HT – habitat – sociologie…) def "foyer/famille" pas SDF, étudiant, célib, retraité • Fiabilité questions - Fiabilité réponses - Questions inductive ? Fermée ? (liste de mots) - Mots très connus (racisme) / incompris (populisme) - Menteurs ? pas que technique numérique !

2. hasard, répartitions naturelles • « au hasard » : veut rien dire !

2. hasard, répartitions naturelles • « au hasard » : veut rien dire ! - dispositif. - distrib: Bernouilli, binomiale, uniforme, normale (Gauss), log. N, exponentielle, Poisson, a disque. . . - déviation autour d'une variable pas aléatoire - variables aléatoires corrélées: taille/poids • du hasard, y’en a toujours. non-sens: eau totalement pure, 0 radioactivité, sites parfaitement alignés, . . .

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en

hasard, répartitions naturelles • perception du hasard: - loi des séries (répartition "désordonnée" en x ou t) - pile ou face de tête équi / biais d'alternance (Sheldrake 94) - indep, proba conditionnelle pas tenir compte du passé… sauf dans le futur. (c/ sagesse, intuition) fait ≠ proba : danger "chanceux", "c'était très improbable". . . a posteriori. 2 anniv même j / 23 pers: p>50%. que moi: 6%

hasard, répartitions naturelles • hypothèse implicite: indep, pas corrélation – martingales, pyramides, ancêtres: obligé

hasard, répartitions naturelles • hypothèse implicite: indep, pas corrélation – martingales, pyramides, ancêtres: obligé ! • ancêtres XVeme: 30 générations -> 1 G / pop 16 M ! • chaînes: 108=100 M – cofacteurs HT EDF - habitat , antenne - HLM • corrélation - causalité • • dictons (opératoires) voiture Honda / cancer femmes pas d'oranges / mortalité personnes âgées V 13 en février ET mars !!! 1/3 accidentés avaient pas leur ceinture morts en dormant dans lit >> mort en dormant au volant en avion, j'emporte ma bombe • 3 cas = épidémie ? si sur-représenté ET stats > hasard. épidémio, dbl aveugle, correl cachées.

hasard, répartitions naturelles • répartitions préférées nombres (7, 3, …), positions • répartitions naturelles

hasard, répartitions naturelles • répartitions préférées nombres (7, 3, …), positions • répartitions naturelles échelles ouvertes: loi de Benford 1 2 3 4 5 6 7 8 9 p: 30. 1 17. 6 12. 5 9. 7 7. 9 6. 7 5. 8 5. 1 4. 6 : 30. 1 47. 7 60. 2 69. 9 77. 8 84. 5 90. 3 95. 4 100 • sens du nombre - vu vs entendu - couleur (synesthésie)

hasard, répartitions naturelles • "val typique", "français moyen", "au milieu" - [Bush] "plus de

hasard, répartitions naturelles • "val typique", "français moyen", "au milieu" - [Bush] "plus de millionnaires: le pays s'enrichi" - salaire moyen augmente: qu'en conclure ? • moyenne, médiane, ecart type, inter-déciles D 9/D 1 salaire moy: 1905€ méd(D 5): 1484 € inter-déciles: 3. • structure: D 9/D 5, D 5/D 1, spectre, "strobiloïde" • comparaisons: danger ! • temps rattrapage: 30 ans 350 ans • pauvreté: def relative (50% salaire med) • moyenne ya toujours un pire ! pas forcement interpréter

3. Pourcentages (données brutes nombre synthétique) cacher un x en + . . .

3. Pourcentages (données brutes nombre synthétique) cacher un x en + . . . et l'oublier ! %, "point" : pour comm, pas pour compter ! +1 % = x 1. 01 +10% = x 1. 1 +n% = x (1+n/100) +1%+1% = 2% +10% = 21% +10%-10% = -1% inv(+10%) = inv(*1. 1) = /1. 1 = x 0. 91 = -9% peut additionner petits %, mais pas les gros. 1%+1%+1%+. . . +1% = 22% peut additionner petits %, mais pas trop.

Pourcentages • danger prédictions: "à ce rythme, dans 35 ans il y aura…" -

Pourcentages • danger prédictions: "à ce rythme, dans 35 ans il y aura…" - petite err sur taux (12% vs 10%) grosse diff (100%) - Hypothèse (arbitraire) taux stable "il y aurait…, sous l'hypothèse que…" • augmentation absolue ou relative (%) ? "budget de la culture aug. en absolu / Il baisse en relatif " augmentation régulière: en abs ou en % ? doubler taux = ?

Pourcentages • comparer ce qui est comparable: "guerre en Irak: 200 M américains pour,

Pourcentages • comparer ce qui est comparable: "guerre en Irak: 200 M américains pour, et juste 191 pays contre" temps travail / j: agric: 8 h 19 citadin: 3 h 32 [le Monde] (H 18 - 64 vs H+F 18 - 65 et+) on peut comparer ou ajouter % que si même unité. mais pas suffisant : danger si pas même dénominateur (= référence) "+10% pour Culture, +20% pour Anciens Combattants, +1% Edu Nat: quelle augment. de budget total ? " Les catégories n'ont pas le même poids ! =pop =den

Pourcentages – 1 veuf pour 4 veuves. % hommes = ? – chocolat =

Pourcentages – 1 veuf pour 4 veuves. % hommes = ? – chocolat = 50% cacao + 50% sucre. hausse de 50% , 10%. Hausse totale ? – arnaque Ebay, malgré note sur transactions – taux redoubl 50% quelle chance passer ? bien faire attention à la référence !

Pourcentages – 1 veuf pour 4 veuves. % hommes = ? – chocolat =

Pourcentages – 1 veuf pour 4 veuves. % hommes = ? – chocolat = 50% cacao + 50% sucre. hausse de 50% , 10%. Hausse totale ? – arnaque Ebay, malgré note sur transactions – taux redoubl 50% quelle chance passer ? bien faire attention à la référence !

Pourcentages • effet petits nombres – 2/20 4/20 = +100% 12/20 16/20 = +30%

Pourcentages • effet petits nombres – 2/20 4/20 = +100% 12/20 16/20 = +30% – ex: stats non représentatives (sous-catég) – bourse: bonne affaire = taux, pas volumes ! – [Balladur] hausse de 40% de l'offre d'emploi (pas des emplois ! offre << demande)

Pourcentages • asymétries (simple) - [pub FT] 30% - cher, c'est 30% de temps

Pourcentages • asymétries (simple) - [pub FT] 30% - cher, c'est 30% de temps en + - 45% cancer en – si trait. = 82% cancers en + sinon • asymétries (complexe) - 52% femmes cadres ont conjoint cadre 25% hommes cadres ont conjointe cadre [le Monde] référentiel ! qf(1%) ≠ qh(1%) si ref ≠, sait pas si q(50%) > q(25%) - 33% de femmes cadres ?

Pourcentages • asymétries simple: - [pub FT] 30% - cher, c'est 30% de temps

Pourcentages • asymétries simple: - [pub FT] 30% - cher, c'est 30% de temps en + - 45% cancer en – si trait = 82% cancers en + sinon • asymétries complexe: - 52% femmes cadres ont conjoint cadre 25% hommes cadres ont conjointe cadre [le Monde] référentiel ! qf(1%) ≠ qh(1%) si ref ≠, sait pas si q(50%) > q(25%) - 33% de femmes cadres ?

Pourcentages inversions tragiques pb: en français on peut permuter adjectifs sans risque - 1/3

Pourcentages inversions tragiques pb: en français on peut permuter adjectifs sans risque - 1/3 des hommes sont hystériques (1/3 des hyst sont h) - 62% des f sont chom longue durée (62% des chom LD sont f) - femmes repr 83% des t partiels, et les h 3% (14% restants = ? ) - [le Monde] hausse budget aide sociale: +30% pour l’insertion (30% aug tot va là, mais y repr peut-être 1%. ex: aug=100€) pb pas chiffre initial, mais titre: impression de sens cas très fréquent. Problèmes : - si plausible, ou si pas d’idée, impossible détecter. - sens implicite. Dur détecter ambiguïté ou erreur. - on abouti à interprétation/causalité "étayée" exiger/cher sources. Quelle référence?

Pourcentages • autres exemples inversion fausse concl – 99. 9% héroïnomanes commencé par le

Pourcentages • autres exemples inversion fausse concl – 99. 9% héroïnomanes commencé par le hash (mais 2% fumeurs hash passeront à l'héro) – hashish associé à accidents de la route – 2/3 accidentés avaient ceinture dangereux ! – accidentés morts en dormant << morts au lit sens que si sur-représenté par rapport pop ! (cf tout paras. tel portable, jeune, sexe. . . modes!) Accidentologie (moto, sports, …), épidémio – nombre prisonniers doublé en 10 ans +violences (nombre? gravité? plaintes? élucidations? sévérité? ) NB: durée peine pour délit type a doublée – + occup hotel: + vacanciers, ou + longtemps ?

Pourcentages • comparer pourcentages: méfiance ! sous-classes, tranches: effets de structure – suicide policiers:

Pourcentages • comparer pourcentages: méfiance ! sous-classes, tranches: effets de structure – suicide policiers: 0. 5‰ (pop: 0. 22‰) 2. 3 x + H 25 -60, or suicide: 72% sont H, max 25 -44, pas enfants – univ: 40% enfants cadres, 13% enfants ouvriers (3 x -) chance enfant ouvrier aller en fac ? effets temporels – GE: 1950: 29% ouvriers. 2000: 9% conclusion ? – lycée: 1948: 8% 1964: 28% 1980: 38% élan démoc brisé – effet base: out/in, ou out/pop ? (boites à Bac, GE)

Pourcentages • effets de structure: faux paradoxes – possible: salaires tt categ aug, salaire

Pourcentages • effets de structure: faux paradoxes – possible: salaires tt categ aug, salaire moy baisse – possible ts salaires indiv aug, salaire moy baisse – impôts cadres: aug même quand taux imp baisse – salaires instits H > F ts ages, mais moy H < moy F – salaires fonctionnaires (pas OS, agric, peu OQ) danger des tranches si pop de ref change (2 séries, ou 2 époques) chômages des jeunes 18 -29: actifs 18 -24 << 24 -29 poids très différents -> interdit add ou moy % ! exiger/cher sources. Quelle référence?

Pourcentages • effets de durée - effet mémoire: parité vs grade (PDG= G. Ecole

Pourcentages • effets de durée - effet mémoire: parité vs grade (PDG= G. Ecole 70 !) - def fécondité: vraiment <2 ? pb mesure instantanée sur habitudes qui changent ! • autres effets de structure def mal posée - mortalité canicule / pollution: pic… puis creux ! bc morts ? zéro morts nets ? j de vie. compta: val vie, coût mort vs blessé, santé pub, sécurité routière, assurances (val ≠ !)

Pourcentages • comparer évol pourcentages (hors effets structure) - N annonces "baisse par rapport

Pourcentages • comparer évol pourcentages (hors effets structure) - N annonces "baisse par rapport sondage précédent" - par rapport dernière fois: si mauvais, devient bon ! (sondages, bac, chômage, petits nombres…) - morts sur route "+prudents, effet gendarme, relâche" (plusieurs facteurs ! synch mois/WE, météo été, météo hiver) si on compare par dpt: effet petits nombres + évol + faut un max - choix base 100 (année ref) ref = nbr chômeurs de l'année 0: sur longue durée, pop aug ! idem: budgets, type d'études, loisirs, équipement maison, info, …

Pourcentages • façons d'améliorer un pourcentage % = N/D aug N ou diminuer D

Pourcentages • façons d'améliorer un pourcentage % = N/D aug N ou diminuer D (boites à Bac, finance)

Pourcentages • % de %: évolution de taux très a la mode ! évol

Pourcentages • % de %: évolution de taux très a la mode ! évol croissance, déficit, puis… tout ! - "croissance conso /chômage est en chute libre" - "forte décrue des aug d'impôts /du déficit sécu" - évol taux réussite au bac selon lycées: 0% pour 10 lycées RA qu'en conclure ? - 65% 77% reçus : - + "12 points " hausse de 18% du taux de reçus (indep pop) aug de 7% de la pop de reçus (a pop cst) nbr réel de reçus peut avoir baissé (si pop) journaliste s'est peut-être mélangée dans ses calcs/stats mesure peut-être douteuse (petits nombres) important de voir les données brutes !

Pourcentages % de %: toutes les mefiances precedentes au carré ! - croissance "régulière"

Pourcentages % de %: toutes les mefiances precedentes au carré ! - croissance "régulière" = ? - doubler = ? - [le Monde]: "aug des H seuls 2 x + rapide que F seules" en nombre ? en % ? pas même base ! peut-être rapport inverse.

4. Présentation et interprétation – barre = objet, camemberts ellipses… – fausses causalités: si

4. Présentation et interprétation – barre = objet, camemberts ellipses… – fausses causalités: si inverse, si ignore si surreprésentation, on interprète n'importe comment. – retouches: NSP, abst, indécis, refus ( O+N < 100) Attention aux renormalisations ! • légendes axes, graduation mode bourse: diagonale, pas 0, h variable, . . . 3. 13 M - [TF 1 95]: chômage -0. 5% 3. 1 M 1950 1995 2015

 Présentation et interprétation • titre, légendes: quoi mesuré ? souvent chiffre ok, interprétation

Présentation et interprétation • titre, légendes: quoi mesuré ? souvent chiffre ok, interprétation bad. – [B. Pivot]: "baisse de la lecture !" pour dicos et livres d'art - en chiffre d'affaire – "99% français ont compte en banque / voiture" qui on mesure, compte 2 x, qui on loupe ? – def "foyer/famille" pas SDF, étudiant, célib, retrait difficile conv stat foyer en stat pop que faire enfants ? que veut on mesurer ? – "barrage aux femmes: cf femmes maires (/cadre)" ref pas pop femmes, mais femmes conseil municip – [Balladur]: aug 40% offre d'emploi (pas des emplois)

 Présentation et interprétation • définir grandeurs rigoureusement – revenu, monnaie, capital, richesse, chômage,

Présentation et interprétation • définir grandeurs rigoureusement – revenu, monnaie, capital, richesse, chômage, travail ("officiel", BIT), taxation (gvt, sécu, priv), pauvreté, développement (PIB, coût vie, Mc. Do), causes mortalité, classement universités, … – danger compar internationales ou temporelles: def différentes, def relatives (pauvreté) – comment mesurer lecture ? nbr de livre ? (édités ? imprimés ? acheté ? lu ? ) nbr de pages/signes ? kg ? qualité ? prix (CA) ? – comment mesurer "quantités de vie"? (biodiv, respect) nbr individus ds espèce ? sous-espèce? biomasse? prorata durée vie ? sens de "compter espèces" ? – [L'Oreal]: "37% de soyance en +", / brillance…

 5. économie, impots – 920 k. F=50% 120 k. F=20% "7. 5 x

5. économie, impots – 920 k. F=50% 120 k. F=20% "7. 5 x + riche 2. 5 x + impôts" • mythes des tranches, du taux d'imposition – effet "sauter de tranche" [Lamassoure 97] "simplif" – taux moyen, taux marginal – 50% paient IR – interdeciles salaires: 3. patrimoine: ~70 important: def "revenu", def seuils – TVA >> IR (TVA: 46%+TIPP: 6% IR: 19% IS: 16%, CSG > IR) – qui paie TVA ? (structure dépenses) – "charges sociales" cotisations, salaire différé • paradoxes – possible impôts et recettes / – possible impôts / et croissance / – Fr: travaille peu, peu d'actifs, mais productivité ++

 5. économie, impots – 920 k. F=50% 120 k. F=20% "7. 5 x

5. économie, impots – 920 k. F=50% 120 k. F=20% "7. 5 x + riche 2. 5 x + impôts" • mythes des tranches, du taux d'imposition – effet "sauter de tranche" [Lamassoure 97] "simplif" – taux moyen, taux marginal – 50% paient IR – interdeciles salaires: 3. patrimoine: ~70 important: def "revenu", def seuils – TVA >> IR (TVA: 46%+TIPP: 6% IR: 19% IS: 16%, CSG > IR) – qui paie TVA ? (structure dépenses) – "charges sociales" cotisations, salaire différé • paradoxes – possible impôts et recettes / – possible impôts / et croissance / – Fr: travaille peu, peu d'actifs, mais productivité ++

6. math électorales "un Homme une voix" • legislatives ref = pop ou territoire

6. math électorales "un Homme une voix" • legislatives ref = pop ou territoire ? (US, Eu) pop par territoire – recens 82 1 hab Lozère > 5. 5 habs Val-d’Oise – découpage indisp mais suspect (gerrymandering) – majo par circons. 10% dans 100% dpt vs 100% dans 10% dpt – proportionnelle: repr idées, mais pas territoire • scrutins majoritaires (ex: prez) prez: "le préféré" vs scrutin a 2 tours. PB: - R 1, B: 62|38 R 2, B: 58|42 R 1, R 2: 55|45 R 1, R 2, B: 32|28|40 B gagne! - R 1 donné gagnant, vote R 2 pour "aiguiller" - instable: fluct sondages, stratégie, idem si si revotait - alt 1: gagnant en cp toutes paires. pb: peu cycles ! - alt 2: classer, noter. "democ" ≠ "telle règle", "changer" ≠ "magouille".

7. Conclusion zététique chiffre = illusion objectivité, précision. Mais pas que technique: qui a

7. Conclusion zététique chiffre = illusion objectivité, précision. Mais pas que technique: qui a sondé ? comment ? il existe toujours modèle, hypothèses, mesure (cible? mesurée comment? ), questions posées, échantillonnage, synthèse %, présentation (titre, ech, graph), interprétation pas "les français pensent que" ou "telle valeur sera tant en telle année" mais "d'après un sondage/une estim, les français penseraient/auraient…"

Conclusion zététique Problèmes: - mélange peur et admiration pour chiffres (journ. et pop) -

Conclusion zététique Problèmes: - mélange peur et admiration pour chiffres (journ. et pop) - chiffres pas fait pour convaincre mais frapper usage opportuniste des stats - alibi: chiffre "objectif" plutôt qu'assumer un choix (tout en disant refuser politique comptable) - tentative maladroite de rationaliser c/ émotif: émotion = tout résumer par 1 cas 1 er scénario montré devient représentatif ( ISF: agric île de Ré, violence: papy Voine, peuple martyr: enfant mort, 1 ours maigre, 1 cyclone, maladie orpheline, 1 bébé à sauver, ils vivent de l'alloc des 10 enfants, on dits & rumeurs, préjugés. . . )

Conclusion zététique manip ou err, faut esprit critique ! on (journ+pol+pop) gobe chiffres sans

Conclusion zététique manip ou err, faut esprit critique ! on (journ+pol+pop) gobe chiffres sans recul. Zet: on passe bc trop vite au discours, raisonnement trop peu de temps sur évaluer mesure, protoc, preuve chiffre fait pour être lu plutôt qu'entendu (recul) un chiffre/tableau ça se soupèse et se renifle ! Doute cher l'étiquette commentaire et chiffre déduits souvent moisis, aller à la source.

8. Biblio "plus vite que son nombre" (Sylviane Gasquet, SEUIL) association Pénombre Données Sociales

8. Biblio "plus vite que son nombre" (Sylviane Gasquet, SEUIL) association Pénombre Données Sociales (INSEE), Eurostats, CERC Comptes de la nation (comptabilité nationale)