Statistique AJ Valleron 10 Mai 2006 statistiques statizein

• statistiques – « statizein » (grec) – « statisticus » (bas latin)

La variabilité • Un concept clé: – « tous les hommes sont différents »

La variabilité, et ses niveaux • Entre populations • Entre individus • Intra individus

Le raisonnement probabiliste: la recherche de la cause • causalité n’est pas déterminisme. –

Le raisonnement probabiliste: l’exemple du diagnostic • La fièvre (>39°) permet de diagnostiquer la

Le raisonnement probabiliste: l’exemple du traitement • Le vaccin contre la grippe est efficace:

Probabilités et Statistique • Le calcul des probabilités (déductif) – modéliser la variabilité –

Les sondages (politiques) – Pas tirés au sort – Quota, etc. . – C’est

Les problèmes à une variable Estimer la proportion de. . . dans la population

Les problèmes à deux variables Estimer la corrélation entre deux variables dans une population

Le projet minimal de Statistique • Un échantillon, un questionnaire, une analyse, les conclusions,

La causalité Différences entre corrélation et cause Analyse des arguments de causalité (et de

Les critères de causalité de Bradford Hill • • • Force de l’association Relation

La comparaison de deux échantillons • La question est : que peut-on conclure pour

L’évaluation Un traitement est-il efficace? • • • nécessité de définir un groupe témoin

Le cas des très petites probabilités • « le risque zéro » – Observer

L’échantillon représentatif: la clé de la statistique • Représentatif = tiré au sort. •

La « bonne » taille d’un échantillon • Échantillon de quoi? • Bonne taille

Slides: 19

Download presentation

Statistique A-J Valleron 10 Mai 2006

• statistiques – « statizein » (grec) – « statisticus » (bas latin) – « statista » (italien) – « statistik » (allemand) • Statistique – Statistique descriptive – Statistique inférentielle 10 Mai 2006

La variabilité • Un concept clé: – « tous les hommes sont différents » – « la théorie de l’évolution » • Un objet d’étude en soi: – Savoir mesurer la variabilité – Établir des cartes de la variabilité • Un guide pour découvrir: – La variabilité, mesure de l’espace à découvrir. – Identifier des sous populations 10 Mai 2006

La variabilité, et ses niveaux • Entre populations • Entre individus • Intra individus • (et aussi, l’erreur de mesure) 10 Mai 2006

Le raisonnement probabiliste: la recherche de la cause • causalité n’est pas déterminisme. – Le tabac cause le cancer des bronches – Affirmation compatible avec : • Tous les fumeurs n’ont pas le cancer • Tous les cancéreux des bronches n’ont pas fumé – Risque attribuable à un facteur : • Le risque de cancer des bronches attribuable au tabac est de 80% 10 Mai 2006

Le raisonnement probabiliste: l’exemple du diagnostic • La fièvre (>39°) permet de diagnostiquer la grippe. Mais… – Sensibilité ~ 65% 65 porteurs du virus sur 100 ont une fièvre >39+ – Spécificité ~ 80% (en période épidémique) 80 consultants non infectés sur 100 ont une fièvre <39° 10 Mai 2006

Le raisonnement probabiliste: l’exemple du traitement • Le vaccin contre la grippe est efficace: – Sur 100 jeunes adultes exposés, il évitera ~30 grippes Efficacité vaccinale ~ 30%. (dépend de la population, de l’année, …) 10 Mai 2006

Probabilités et Statistique • Le calcul des probabilités (déductif) – modéliser la variabilité – Calculer la chance/ le risque d’un événement connaissant les lois de probabilité • La statistique (inférentielle) – Le mot clé : l’échantillon (pris dans une population de référence). – La méthode : l’inférence (comment trouver la loi qui s’applique dans la population à partir des informations recueillies sur l’échantillon? ) 10 Mai 2006

Les sondages (politiques) – Pas tirés au sort – Quota, etc. . – C’est l’échantillon tiré au sort qui permet la meilleure précision. 10 Mai 2006

Les problèmes à une variable Estimer la proportion de. . . dans la population des … • Difficultés: – Définir la population – Réaliser un échantillon représentatif (tirage au sort) dans cette population – Donner une « fourchette » pour l’estimation. ( fourchette pour 50% sur n = 900 : 46, 7% à 53, 3%) 10 Mai 2006

Les problèmes à deux variables Estimer la corrélation entre deux variables dans une population • Difficultés: – la définition de la population est moins critique – Distinguer entre deux problèmes différents: • Savoir si les deux variables sont corrélées • Mesurer la force de la liaison entre les deux variables 10 Mai 2006

Le projet minimal de Statistique • Un échantillon, un questionnaire, une analyse, les conclusions, le rapport • Remarques – Échantillon de quelle population de référence? – Toujours préférer les projets à 2 échantillons qui permettent de COMPARER. – travailler sur la qualité du questionnaire (intelligibilité, reproductibilité, …) 10 Mai 2006

La causalité Différences entre corrélation et cause Analyse des arguments de causalité (et de non causalité) rendant compte d’un réseau de corrélations. faiblesses de l’observation (en médecine, en sciences humaines, . . ). force théorique de l’expérimentation ; limitations pratiques, culturelles, éthiques à certaines expérimentations. 10 Mai 2006

Les critères de causalité de Bradford Hill • • • Force de l’association Relation dose-effet Plausibilité biologique Répétabilité temporalité • • Spécificité Possibilité de vérification expérimentale Cohérence Analogie 10 Mai 2006

La comparaison de deux échantillons • La question est : que peut-on conclure pour les populations d’où viennent ces échantillons – Tests statistiques difficiles. Simulations sur ordinateur? – Mais examen des (non) superpositions des « fourchettes » possible. Permet une initiation au raisonnement de l’inférence. 10 Mai 2006

L’évaluation Un traitement est-il efficace? • • • nécessité de définir un groupe témoin répartition des malades par tirage au sort « double aveugle » Que retenir? • l’évaluation est nécessairement comparative. • il faut faire les bonnes comparaisons. 10 Mai 2006

Le cas des très petites probabilités • « le risque zéro » – Observer 0 événements sur un échantillon ne signifie pas qu’il y a 0 évenement dans la population – Mais on peut donner une valeur maximale à la fourchette. (exemple : on n’a vu aucun accident sur N=1000 événements sportifs : la valeur maximale du risque est de 3/N = 3%0 ) • Expérimentation avec TICE? 10 Mai 2006

L’échantillon représentatif: la clé de la statistique • Représentatif = tiré au sort. • La représentativité est définie par le mode de constitution de l’échantillon, non par le résultat. • La constitution d’un échantillon de qualité – Les difficultés pratiques – Comment éviter les biais? – Quelle taille d’échantillon? • Beaucoup de sujets, une mesure imprécise par sujet? • Peu de sujets, beaucoup de mesures par sujet? 10 Mai 2006

La « bonne » taille d’un échantillon • Échantillon de quoi? • Bonne taille pour répondre à quelle question? • La Statistique est faite pour tirer les meilleurs conclusions possibles à partir du plus petit échantillon possible. 10 Mai 2006