Statistiques Introduction Ensemble des mthodes et procds partir
Statistiques Introduction Ensemble des méthodes et procédés à partir desquelles on recueille, organise, résume et analyse des données, et qui permettent d’en tirer des conclusions et de prendre des décision judicieuses. Statistiques descriptives Statistiques inductives 1
Définitions Statistique descriptive C’est la phase analytique qui consiste à réduire les données à un nombre limité de paramètres caractéristiques susceptibles de décrire la série statistique. Statistique inductive C’est une phase qui permet de déduire des résultats obtenus sur un échantillon afin de prendre des conclusions relatives à l’ensemble de la population entière. 2
Quelques terminologies de la statistique Population (univers): Tout ensemble étudié en statistique s’appelle population. Les éléments sont appelés individus. Échantillon: C’est un sous- ensemble d’une population. Effectif : ( ni ) L’effectif est associé à une variable: c’est le nombre de fois que cette variable se répète. Fréquence: ( fi ) Le rapport entre l’effectif et le nombre d’effectif total. Modalité: La valeur prise par une variable X. 3
Quelques terminologies de la statistique Variable: Elle est définie comme étant une quantité ou caractéristique qui peut varier d’un individu à un autre. Ex: taille, poids, nationalité… Variable quantitative: Variable qualitative: Elle prend des valeurs numériques et peut être discrète ou continue Elle ne prend ni valeur numérique et ni un ordre naturel (ex: profession) 4
Les premiers traitement de l’information C’est la phase initiale où il s’agit de rassembler des données, de les regrouper et les présentés sous forme de : - Tableaux Ou - Graphiques Le tableau établit la correspondance entre deux séries de nombres, l’une est constituée par les valeurs de la variable étudiée ( Modalités ), l’autre par les effectifs correspondants ( ou d’autres : fréquences, …. ) Exemples: 5
Les premiers traitement de l’information Exemple 1: Dosage du phosphore par polarographie à tension sinusoïdale surimposé: : La mesure de la hauteur d’un pic de réduction d’une solution phosphomolybdique étalon donne les résultats suivants: 60, 59, 58, 56, 57, 60, 59, 59, 58, 59, 61, 60, 61 60, 58, 59, 60, 59, 57, 60, 61, 59, 56, 58. Exemple 2: On effectue l’analyse du sang de 20 personnes qui ont manipulé un gaz toxique. La mesure du taux de leucocytes ( globules blanc), par mm 3, donne les résultats suivants : 3600 5100 6100 4600 5100 4800 3200 4700 5600 6900 5300 6100 3900 4200 3400 6300 5400 6200 3700 6
Les premiers traitement de l’information Exemple 3: L’équipe de contrôle de qualité d’une maison d’alimentation doit vérifier le poids d’un produit devant être vendu en format de 20 g. Pour ce faire, on pèse le contenu de 75 pots de ce produit, sélectionnés au hasard. On obtient la distribution suivante : -Cette distribution est-elle celle d’une population ou celle d’un échantillon? - Quelle est le caractère étudié? Identifier le type. - Compléter le tableau. Poids (en g) 19 20 21 22 23 24 Nbre de pots 1 7 31 24 11 1 Exemple 4: On veut étudier la longueur des tiges d’acier d’un certaine production. Pour cela on a extrait un lot dont les résultats sont donnés dans le tableau ci-dessous. Faire une étude descriptive. L(en mm) Nbre de tiges 115 -125 125 -135 135 -145 145 -155 155 -165 165 -175 175 -185 3 5 9 12 5 4 2 7
Présentations graphiques Diagramme en bâtons (variable discrète): Lorsque la variable est discrète, on utilise le diagramme en bâtons, tel que les modalités sont portées sur l’axe des abscisses et les fréquences (ou effectifs) sur l’axe des ordonnées. Si l’on joint les sommets des bâtons, on obtient le polygone des fréquences Histogramme (variable continue): Histogramme est formé de bandes rectangulaires ayant la largeur de chaque classe et dont la hauteur est proportionnelle à l’effectif de la classe considérée. Le polygone des effectifs (fréquences) s’obtient en joignant les divers points (ci, ni) Diagramme circulaire (variable qualitative): i = fi*360° 8
Calcul des éléments caractéristiques d’une série statistique C’est une phase analytique qui consiste à réduire les données à un nombre limité de paramètres caractéristiques. Paramètres de position (moyenne, médiane…) Permettre de se rendre compte sur l’ordre de grandeur de l’ensemble des observations et de localiser la zone des fréquences maximale Paramètres de dispersion (écart type, variance…) Préciser le degré de dispersion des différentes observations autour d’une valeur centrale. 9
Paramètres de position Mode: La valeur de la variable correspondant à l’effectif le plus grand. Lorsqu’il s’agit de la classe on dit classe modale. Médiane: la valeur de la variable statistique qui partage la population en deux effectifs égaux. Deux méthodes sont à considérer selon qu’il s’agit de variable statistiques discrètes ou continues. Variable discrète- variable continue 10
Paramètres de position Variable discrète Représentation graphique point d’intersection des courbes cumulées f n/2 Me Variable continue On cherche la classe médiane 11
Paramètres de position Les moyennes: i) La moyenne arithmétique: ii) Soit une variable X xi, xn x 1, x 2………………, iii) On appelle moyenne arithmétique le rapport: ii) x = 1/n∑ ni xi La moyenne géométrique: iii) Lorsqu’une variable croit suivant une progression géométrique. iv) x 1 = x 0*r v) x 2 = x 1*r vi) g = x 0 r n/2 vii) xn = xn-1*r 12
Paramètres de position iii) Moyenne harmonique: iv) Soit x 1/xn) (x 1……… xn) (1/x 1, 1/x 2………. , iv) Moyenne quadratique: v) x ( x 1, x 2………xn) (x 21, x 22…………, x 2 n) 13
Paramètres de dispersion Les paramètres de position sont insuffisants pour caractériser complètement une série Ex : m 1= m 2 de deux séries différentes la répartition ≠ Dev. xi – X Paramètres de dispersion Ecart |xi - X| Etendue Xmax – xmin ………… 14
Paramètres de dispersion Etendue : W = X max – X min Ecart moyen arithmétique: C’est la moyenne arithmétique des écarts / à la X (MA) E = 1/n ∑ ni |xi - X| Variance V : C’est la moyenne arithmétique des carrées des écarts / X (MA) Écart- type : L’écart type (ou écart quadratique moyen = rms) est la √V = √V 15
Paramètres de dispersion Covariance: Cov(X, Y) = 1/n ∑ (xi – X) (yi – Y) Coefficient de variation CV : CV = s/X *100 - CV donne une très bonne idée sur le degré d’homogénéité d’une distribution statistique ( CV < 15%). - Comparaison de deux distribution. 16
Ajustement linéaire & corrélation Cas générale: L’ajustement du nuage obtenu consiste à déterminer une fonction de liaison entre X & Y. y = ax + b ou y = a ebx 17
Ajustement linéaire & corrélation y= a log x + b 18
Ajustement linéaire & corrélation Y= a/x+ b 19
Ajustement linéaire & corrélation D’une manière générale, l’ajustement consiste à recher une fonction f(x) dont la graphe se rapproche le plus possible des points du digramme. On a toujours: yi = f(xi) + εi = yi- f(xi) La méthode d’ajustement consiste à déterminer les paramètres de f(x) qui minimisent ces écarts. ∑ | εi| ou bien C’est la méthode des moindres carrées 20
Ajustement linéaire & corrélation Droite de régression: il s’agit de déterminer a et b pour soit minimale. La droite de régression passe par le point (x, y) 21
Ajustement linéaire & corrélation Cœfficient de corrélation: Le coefficient de corrélation permet de mesurer la précision de l’ajustement Cas extrêmes: r= -1 il y’a relation linéaire parfaite y=ax+b avec a<0 r= 1 il y’a relation linéaire parfaite y=ax+b avce a>0 r≠ 0 il n’existe aucune relation linéaire entre X&Y 22
Loi normale (loi de Laplace- Gauss) Cette loi occupe une place privilégiée en calcul statistique. Soit X une variable aléatoire continue. On dit que X suit une loi normale (ou loi de Laplace- Gauss) si la densité de probabilité est : f (x) = (1/ √ 2π). e-1/2 ((x- m)/ )2 Tracer f(x): m • définit la largeur à mi-hauteur de la courbe : • Plus est grand plus le max est faible et plus la courbe est large 23
Loi normale (loi de Laplace- Gauss) Calculer : Prob ( m – x 0 ≤ X ≤ m + x 0 ) l’aire de la courbe de Gauss comprise entre m- x 0 et m+ x 0 m – x 0 Changement de variable : m m + x 0 t = (x-m)/ ( voir démonstration ) La loi centrée réduite de paramètre m = 0 & = 1 24
Loi normale (loi de Laplace- Gauss) Utilisation de la table Prob (m – x 0 ≤ X ≤ m + x 0) = Prob (-t 0 ≤ T ≤ t 0) t 0. 01 0. 02 0. 06 0. 09 0. 0 0. 1 t = 1. 96 1. 9 0. 475 3. 8 3. 9 0 t 25
Loi normale (loi de Laplace- Gauss) Calculer : Prob (m – ≤ X ≤ m + ) Prob (m – 2 ≤ X ≤ m + 2 ) Prob (m – 3 ≤ X ≤ m + 3 ) 26
Loi Normale (Loi De Laplace- Gauss) Exemple: La taille des élèves d’une école suit une distribution N (150, 20). N= 1000 1. Qu’elle est le nombre d’élèves ayant une taille comprise entre 140 & 160 ? 2. Qu’elle est le nombre d’élèves ayant une taille comprise entre 140 & 170 ? 3. Qu’elle est le nombre d’élèves ayant une taille comprise entre 130 & 170 ? 4. Qu’elle est le nombre d’élèves ayant une taille supérieure à 170 ? 5. Qu’elle est le nombre d’élèves ayant une taille inférieure à 130 ? 6. Qu’elle est le nombre d’élèves ayant une taille inférieure à 175 ? 7. Qu’elle est le nombre d’élèves ayant une taille supérieure à 135 ? 27
Loi Binomiale Définition Soit une série de n épreuves successives et indépendantes ( épreuve de Bernoulli)dont l’issue de chaque épreuve est soit « succès » avec une probabilité p, soit « insuccès » avec une probabilité q= 1 -p, alors la probabilité d’avoir x succès en n épreuves est donnée par l’expression: B (n, p) Conditions d’application: • Les résultats de l’expérience ne comporte que 2 résultats possibles: succès ou insuccès • On répète l’expérience n fois • La probabilité de réalisation de l’événement succès est la même à chaque essai notée p. • Les essais sont indépendantes et non exhaustifs ( ou n/N ≤ 0. 10 ). 28
Loi Binomiale Propriétés: Les paramètres de la loi binomiale sont n et p ( n > 0 et 0 < p < 1) La moyenne et la variance sont: M = n p & σ² = n p(1 -p) Les valeurs tabulées: n 2 3 k 0 1 2 3 0. 10 0. 8100 0. 1800 0. 0100 0. 7290 0. 2430 0. 0270 0. 0010 0. 20 0. 6400 0. 3200 0. 0400 p 0. 30 0. 4900 0. 4200 0. 0900 0. 40 0. 3600 0. 4800 0. 1600 0. 50 0. 2500 0. 5000 0. 2500 29
Loi Binomiale La loi binomiale permet d’évaluer la probabilité de tirer x produits défectueux dans un échantillon de n produits provenant d’un lot important contenant p% de défectueux. Exemple: Soit un lot contenant une proportion de 10% de produits défectueux. On prélève un échantillon de 8 produits sans remise. Calculer la probabilité de tirer dans un échantillon: un ou zéro produit non- conforme au moins deux produits non- conformes Au plus un produit non- conforme 30
Loi de Poisson Définition: On dit qu’une variable aléatoire X suit une loi de poisson, si elle est successible de prendre toutes les valeurs entières 0, 1, 2, 3, …. . n…, la probabilité que X soit égale à k étant: Conditions d’application: La loi de poisson s’appelle encore la loi des petites probabilités. Elle est utilisée pour présenter des phénomènes rares: nombres d’accidents, nombre de défauts, de déchets…. Propriétés: La moyenne et la variance sont: E(X)= λ & σ²= λ 31
Loi de Poisson λ K 0. 1 0. 2 0. 3 0. 4 0 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 6 1. 7 1. 8 1. 9 2. 0 λ 1 2 k 3 λ k 0 1. 1 1. 2 1. 3 1. 4 Les valeurs tabulées: 1. 5 1 2 32
Loi de Poisson La loi de poisson est largement utilisée pour décrire les défauts compatibles par unité ( exemple, le nombre de ponts de soudure sur un circuit imprimé, pannes de machines, appels téléphoniques sur une ligne, arrivées de clients à comptoir……) Exemple 1: Supposons que les défauts “ pont de soudure“ sur un circuit imprimé soit distribué selon une loi de poisson avec un paramètre λ= 2. Calculer la probabilité qu’un circuit contienne un pont de soudure au moins. Exemple 2: Si la probabilité pour qu’un individu ait une mauvaise réaction d’un certain sérum est de 0. 001, déterminer la probabilité pour que sur 2000 individus : -3 - plus de 2 aient une réaction dangereuse. 33
Echantionnage & Estimation 34
Echantillonnage INTRODUCTION L’échantillonnage a pour objectif d’étudier le lien entre la distribution statistique d’une variable X dans une population P et les distributions de cette variable dans différents échantillons. Pop : N, M, ? Echantillons i : n, mi, i Echantillonage aléatoire = Les individus ont même Probabilité Exhaustif Non-exhaustif 35
Echantillonnage Distribution des moyennes d’échantillons Soit une Population P X N, M, : E(X) = M & = (X) soient tous les Echantillons i : n ( k échantillons ) 1 ( n, m 1, 1) 2 ( n, m 2, 2) i ( n, mi, i) L’ensemble : m (m 1, m 2, …, mi, …. . mk) constitue une série statistique d’effectif k appelée Distribution des Moyennes. k ( n, mk, k) 36
Echantillonnage Distribution des moyennes d’échantillons Pop : N, M, Non-Exhaustif E(X) = M Echantillons i : n, mi, i Exhaustif E(X) = M 37
Echantillonnage Distribution des fréquences d’échantillons 1 Soit une Population P N X 0 p = proportions d’éléments ayant X = 1 On désigne par tq : p+q=1 , q = proportions d’éléments ayant X = 0 0<p<1 & 0<q<1 La population P de taille est caractérisée par : E(X) = p =√ p*q 38
Echantillonnage Distribution des fréquences d’échantillons Soit une Population P X N, F, F : E(F) = p & F = √ p*q soient tous les Echantillons i : n ( k échantillons ) 1 ( n, f 1, 1) 2 ( n, f 2, 2) i ( n, fi, i) L’ensemble : m (f 1, f 2, …, fi, …. . fk) constitue une série statistique d’effectif k appelée Distribution des Fréquences. k ( n, fk, k) 39
Echantillonnage Distribution des fréquences d’échantillons Pop : N, F, F Non-Exhaustif E(f) = p Echantillons i : n, fi, i Exhaustif E(f) = p 40
Echantillonnage Autres distributions d’échantillonnage On peut définir d’autres distributions pour toutes variables susceptibles d’être variable d’un échantillon à l’autre ( , Me, V, …. . ). Distributions N, M, t n < 30 ² Ajustement d’une distribution théorique et expérimentale 41
Echantillonnage Distribution t: Distribution X Loi normale N (M, ) N, M, soit un échantillon de taille n (n, mi, i) Ecart Réduit 42
Echantillonnage Distribution ² Pop : N, M, Echantillons i : n, mi, i La série ( ² 1, ² 2……, ²i…… ²n) constitue une distribution de ² 43
Estimation Introduction Si l’échantillonnage étudié les relations existants entre une population et tous les échantillons de même taille n, l’estimation vise à étudier la représentativité de la population par un échantillon. IL s’agit d’attribuer une valeur à un paramètre inconnu de la population à partir de la connaissance d’un échantillon extrait de cette population. Il y a deux types d’estimation : • Estimation ponctuelle : Attribuer une valeur unique • Estimation par intervalle de confiance ( IC ) : Donner un intervalle susceptible de recouvrir la valeur recherchée avec une probabilité donnée. 44
Estimation Ponctuelle Pop : N, M, ( M, sont inconnus ) Echantillons i : n, mi, i’ 1. Estimation Ponctuelle de la moyenne : M = E(X) = m 2. Estimation Ponctuelle d’ une variance : 3. Estimation ponctuelle d’une variance d’un échantillon ( s ) : 45
Estimation par Intervalle de confiance ( IC ) L’estimation par IC d’un paramètre consiste à calculer, à partir d’un estimateur choisi , un intervalle dans lequel il est vraisemblable que la valeur correspondante du paramètre s’y trouve. L’IC est défini par deux limites auxquelles est associée une certaine probabilité, fixée à l’avance et aussi élevée qu’on désire, de contenir la valeur vraie du paramètre inconnu : Prob ( LI ≤ ≤ LS ) = 1 - Avec (1 - ) = Probabilité associée à l’intervalle d’encadrer la vraie valeur /2 1 - /2 46
Estimation par Intervalle de confiance ( IC ) On peut écrire aussi : Prob ( - k ≤ ≤ + k ) = 1 - La quantité k dépend de la distribution d’échantillonnage spécifiée de l’estimateur et de la probabilité associée ( = risque d’erreur ) ( voir schéma ) Applications : • Estimation par IC d’une moyenne • Estimation par IC d’une proportion 47
Estimation par IC d’une moyenne Il y a 3 cas possibles : 1. Si est connu : Prob ( m - t m ≤ M ≤ m + t m ) = 1 - 2. 2. Si est inconnu et n 30 : Prob ( m - t m ≤ M ≤ m + t m ) = 1 - 3. 3. 4. Si est inconnu et n < 30 : Prob ( m - t m ≤ M ≤ m + t m ) = 1 - m est l’écart type de la distribution échantillonnage t valeur extrait de la table N(0, 1) 48
Estimation par IC d’une proportion Dans le cas de l’estimation d’une proportion on a seul cas car est connu et donné par : 2 = p*( 1 - p ) Alors IC est donné par : Prob ( m - t m ≤ M ≤ m + t m ) = 1 - Avec m est l’écart type de la distribution échantillonnage : 49
Estimation Remarques 1. Echantillonnage exhaustif : 2. Encadrement de la moyenne de échantillon: Prob ( M - t m ≤ M + t m ) = 1 - 3. Utilisation de la table de Student : 0. 9 0. 5 0. 4 0. 01 0. 001 1 2 3 1 - /2 -t /2 t 50
TESTS STATISTIQUES Objectifs Échantillonnage Estimation Tests statistiques - Homogénéité, Représentativité - Conformité, Validité, Comparaison 51
Définitions Déf 1: Hypothèse statistiques Une Hypothèse Statistique est un énoncé ( une affirmation ) concernant les caractéristiques ( valeurs des paramètres, forme de la distribution des observations ) d’une population. Déf 2: Test statistique Un test statistique ( ou test d’hypothèse ) est une démarche qui a pour but de fournir une règle de décision permettant, sur la base de résultats d’échantillon, de faire un choix entre deux hypothèses statistiques. 52
Hypothèses Nulle H 0 et Alternative H 1 Deux hypothèses sont envisageables : Hypothèse selon laquelle on fixe a priori un paramètre de la population à une valeur particulière s’appelle : Hypothèse Nulle H 0 N. B. N’importe quelle autre hypothèse qui diffère de l’hypothèse H 0 s’appelle Hypothèse Alternative H 1 C’est l’hypothèse H 0 qui est soumise au test et toute la démarche du test s’effectue en considérant cette hypothèse comme vraie. 53
Notion du Risques 1 er et 2ème espèce Test Statistique ? Hypothèse Nulle H 0 Accepter Rejeter Hypothèse Alternative H 1 L’expérimentateur fait face à un problème fondamental, celui de la variation associée avec tout travail expérimental. === Une certaine incertitude sera associée au jugement que nous allons porter; nous ne pouvons être totalement confiant que ce jugement soit exacte. Par contre, on peut limiter les risques d’erreurs et s’assurer de bien comprendre ces risques dans notre processus de décision. 54
Définir les Risques 1 er et 2ème espèce Risque du 1 er espèce ( ) : Risque du 2ème espèce ( b) : = Prob( rejeter H 0 / H 0 est vraie ) b = Prob( accepter H 0 / H 0 est fausse ) H 1 /2 H 0 1 - H 1 /2 M 0 Lorsqu’on prend une décision sur un problème donné, on aimerait bien minimiser les risques a et b. 55
Formulation des hypothèses et Types de Tests Pour formuler ces hypothèses, on se base sur le test sur une moyenne : H 0 : M = M 0 H 1: M ≠ M 0 H 1: M ≥ M 0 H 1: M ≤ M 0 Rej Ho Acc Ho Xc 1 M 0 Rej Ho Xc 2 Rej Ho Acc Ho M 0 Xc Rej Ho Xc Acc Ho M 0 Tests Unilatéral Tests Bilatéral M 0 = valeur Hypothétique 56
Elaboration d’un Test Statistique L’élaboration d’un test statistique peut comprendre les étapes suivantes : 1. Enoncer H 0 et H 1 2. Enoncer les Hypothèses de bases 3. Choisir le risque d’erreur ( seuil de signification ) 4. Spécifier la statistique sur la quelle portera le test 5. Définir la région critique 6. Résultats expérimentaux 7. Conséquences et Conclusions 57
Test sur une Moyenne - Voir les tables test 1 -6 -Applications : ( TD n° 4 ) Exemple 1: Une entreprise achète d’un fournisseur des câbles d’acier dont la résistance moyenne à la rupture doit être supérieure ou égale à 250 kg/cm². Entant que cette norme est respectée, l'entreprise est satisfaite du produit. Toutefois une résistance moyenne à la rupture inférieure à 250 kg/cm² est inadéquate pour l’entreprise. Lors de la réception d’un lot, on veut s’assurer de la qualité des câbles sur la base d’un échantillon. Formuler les hypothèses statistiques pertinentes. Exemple 2 : Dans un atelier mécanique, on vérifié le diamètre de tiges tournées sur un tour automatique. Le diamètre des tiges peut fluctuer selon le réglage du tour. 20 tiges prélevées au hasard, ont été mesurées avec un micromètre de précision. Les résultats sont présentés dans le tableau suivant ( en mm ) : m = 39. 96 s = 1. 22 Si le diamètre moyen des tiges doit être de 40 mm, doit-on envisager, selon les résultats de cet échantillon, de modifier le réglage du tour ? 58
Test sur une Proportion C’est la même démarche que dans le cas d’un test sur une moyenne M. En effet, on se propose de tester si une proportion p (M) dans une population présentant u n certain caractère qualitatif peut être considérée ou non égale à une valeur hypothétique p 0 (a). - Condition d’application : n p 5 & n(1 -p) 5 - Critère de test : qui suit la loi Normale N(0, 1) -Voir table test 19 -21 - Applications : ( Voir exemple ) 59
Test sur une Proportion Exemple : Une entreprise vient de recevoir un très grand nombre de tubes de verres. A la réception, on désire vérifier si ces tubes respectent les normes du département du contrôle de qualité. Un échantillon aléatoire de 100 tubes donne les résultats suivants : 12 défectueux 88 satisfaisants 1 - Si la norme imposée consiste à accepter un lot dont la proportion défectueuse n’excède pas 10%, quelle décision doit-on prendre ? 2 - Supposons que la proportion de défectueux est 0. 08. On veut déterminer la taille d’échantillon nécessaire pour assurer que p soit à l’intérieur de 0. 02 de p avec une probabilité de égale à 0. 95. 60
Test sur une Variance Objectif Quand et Comment Tout comme dans le cas de la moyenne, il est fréquent de faire un test sur une variance ( ) et de déterminer son IC avec un certain niveau de confiance. Toutefois, peut être en mesure d’effectuer un test sur une variance, il faut introduire une nouvelle loi de probabilité, soit la loi de 2 ( Khi-deux ). La loi de 2 ? 61
Test sur une Variance Comment est formée 2: ( voir cours Échantillonnage ) Propriétés : - 2 est une variable aléatoire continue positive - Densité de probabilité est complexe - Elle ne dépend que de ( ddl ) - L’allure de la courbe est asymétrique -Lorsque augmente la loi 2 la loi Normale 62
Test sur une Variance Valeur tabulées: ( Voir tableau ) Les valeurs de 2 dépendent de et . Elles sont données de façon que la probabilité de ² soit supérieure à une valeur fixée ² , est définie par : Prob( ² ² , ) = f( ²) 0. 9 0 ² , 0. 5 0. 4 0. 01 0. 001 1 (1 ) ² 2 3 63
Test sur une Variance Distribution d’échantillonnage de la variance d’échantillon On prélève au hasard un échantillon de taille n d’une population dont les éléments présentent un caractère mesurable, distribuée normalement de paramètre M et 2. On démontre que la quantité (n-1)s 2/ 2 suit une loi de 2 avec (n-1) ddl, où la variable s 2 est la variance d’échantillon. Test sur une variance : On procède de la même manière que dans le cas du test sur une moyenne à part que : Le Critère de test : La loi 2 Valeur Hypothétique Application : ( voir le tableau ) 64
Test sur une Variance Intervalle de confiance pour une variance 2 d’une population Normale : A partir d’un échantillon aléatoire de taille n d’une population Normale de variance inconnue 2, on définit, en prenant comme estimation ponctuelle de 2 la variance de l’échantillon s 2, un IC ayant un niveau de confiance 100(1 - )% de contenir la vrai valeur 2 comme suit : ≤ 2 ≤ ( voir démonstration ) 65
Test sur une Variance Applications : ( exemples 1&2) Exemple 1: La durée de vie d’un composant électronique est distribuée selon la loi N( M ; 2 = 2500). Dans un échantillon aléatoire de 16 composants prélevés de cette population, quelle est la probabilité pour que la variance de l’échantillon soit comprise entre 1210 et 4166 ? Exemple 2 : Une ville veut acheter une certaine quantité de lampes fluorescentes pour l’éclairage de son métro. La ville est seulement intéressé à une longue durée de vie des lampes mais aussi à une dispersion relativement faible. On décida que l’écart type de cette caractéristique ne devrait pas excéder 100 heures. Le laboratoire de la ville a vérifié 20 lampes d’un fournisseur local et a obtenu une variance s 2 = 12500 h 2. Est-ce que les lampes du fournisseur semblent excéder la variation permise ? ( utiliser α = 5% ) 66
Test sur deux Moyennes Soient deux populations 1 & 2 : 1 et 2 peuvent être connus ou inconnus Pop 1 : M 1 m 1 Pop 2 : M 2 - m 2 On veut comparer les moyennes M 1 et M 2 des deux populations 1 & 2. Cette comparaison basées sur les moyennes m 1 et m 2 de 2 séries de mesures, repose sur la connaissance de certaines caractéristiques des populations échantillonnées qui nous permet de déduire la distribution des fluctuations d’échantillonnage de la différences des moyennes ( m 1 -m 2). Cette distribution sera nécessaire pour élaborer la règle de décision du test. 67
Test sur deux Moyennes Pour caractériser complètement la distribution de la différence ( m 1 -m 2), il faut connaître : - La forme de distribution. - La moyenne. - L’écart type. 3 cas peuvent se présenter : - Populations Normales de variances connues. - Grands échantillons ( n 1 30 , n 2 30 ) et variances inconnues. . - Populations Normales de variances inconnues ( mais supposées égales 12 = 2 ) et l’un des échantillons ou les deux ayant une taille petite. 68
Test sur deux Moyennes Ca 1 : Populations Normales de variances connues. La distribution d’échantillonnage Pop 1 : M 1, 1 Pop 2 : M 2 , 2 présente les propriétés suivantes : -La distribution ( m 1 -m 2 ) est Normales m 1 m 2 -La moyenne : E(m 1 -m 2) = M 1 -M 2 -Ecart type : m 1 -m 2 = Le critère de test donné par : 69
Test sur deux Moyennes Ca 2 : Grands échantillons ( n 1 30 , n 2 30 ) et variances inconnues. La distribution d’échantillonnage Pop 1 : M 1, 1 Pop 2 : M 2 , 2 présente les propriétés suivantes : -La distribution ( m 1 -m 2 ) est Normales m 1 m 2 -La moyenne : E(m 1 -m 2) = M 1 -M 2 -Ecart type : m 1 -m 2 = Le critère de test donné par : 70
Test sur deux Moyennes Ca 3 : Populations Normales de variances inconnues ( mais supposées égales taille petite. La distribution d’échantillonnage présente les propriétés suivantes : -La distribution ( m 1 -m 2 ) est Normales Pop 1 : M 1, 1 m 1 Pop 2 : M 2 , 2 m 2 -La moyenne : E(m 1 -m 2) = M 1 -M 2 -Ecart type : m 1 -m 2 = Le critère de test donné par : 71
Test sur deux Moyennes Exemple : Un laboratoire indépendant a effectué, pour le compte d’une revue sur la protection du consommateur, un essai de durée de vie sur un type d’ampoules électriques d’usage courant ( 60 watts, 120 volts ) fabriquées par deux grandes entreprises concurrentielles, dans le secteur de produits d’éclairage. Les essais effectués dans les même conditions sur un échantillon de 40 ampoules provenant de chaque fabricant donnent les résultats suivants : F 1 : F 2 : n 1 = 40 n 2 = 40 X 1 = 1025 h X 2 = 1070 h s 1 = 120 h s 2 = 140 h La publicité affirme que ces ampoules ont une durée de vie moyenne de 1000 h. Est-ce que la revue peut affirmer, qu’en moyenne, les ampoules de F 1 ont une durée de vie inférieure à celles du F 2 ? 72
Test sur deux Proportions Nous traitons uniquement le cas où nous sommes en présence de grands échantillons Soient deux populations 1 & 2 : P 1 et P 2 sont Pop 1 : P 1 Pop 2 : P 2 p 1 p 2 inconnues La différence ( p 1 - p 2 ), estimateur de ( P 1 – P 2 ), est une variable aléatoire dont la distribution possède les propriétés suivantes : - la distribution ( p 1 - p 2 ) est approximativement Normales - La moyenne : E(p 1 -p 2) = P 1 -P 2 - l’écart type est : 73
Test sur deux Proportions Comme étant P 1 et P 2 sont inconnues, on estime l’écart type par : Alors le critère de test : 74
Test sur deux Proportions Pour effectuer un test sur l’égalité de 2 proportions, on procède comme précédemment , dans le cas de 2 moyennes. Sauf dans ce cas, nous utilisons, sous l’hypothèse : H 0 : P 1 = P 2 = p Où p est l’estimateur définie par : p = Alors l’écart type S s’écrit : Donc le critère de test : -Voir table test 22 -24 - Applications : ( Voir exemple ) 75
Test sur deux Proportions Exemple : Deux types de publicité sont envisagés par une entreprise pour lancer un nouveau produit (dédorant). Après avoir visionné les deux types de publicité mis au point par des spécialistes en communication, la direction émet l’hypothèse selon laquelle la publicité du type A sera efficace que celle du type B. Deux régions, considérées, comme marché test ( possédant sensiblement les mêmes caractéristiques de consommation ) sont choisies pour évaluer l’efficacité des deux types de publicité. La publicité de type A sera utilisée dans une région et celle de type B dans l’autre. Un sondage auprès de 125 individus ayant vu la publicité de type A indique 44 se sont procuré le dédorant alors que sur 100 ayant vu la publicité B, 32 se sont procuré le nouveau dédorant. Est-ce que les résultats de ce sondage permettent de confirmer, au seuil de significations = 5%, l’hypothèse émise par la direction? 76
Test sur deux Variances • La comparaison de deux populations Normales peut porter non seulement sur leur valeur centrale, leur moyenne, mais également sur leur dispersion. La caractéristique de dispersion la plus utilisée est la variance. • Rappelons qu’une des conditions d’application du test de Student , dans le cas de comparaison de deux moyennes, est que les échantillons proviennent de deux populations Normales de variances identiques : 12 = 22. Cette hypothèse peut être vérifiée à l’aide d’un test sur l’égalité de deux variance. Pour effectuer un tel test, il faut intervenir une nouvelle distribution d’échantillonnage soit celle du Quotient de deux variances dites Distribution F ou Distribution de Fischer-Snedecor. 77
Test sur deux Variances Distribution de Fischer 1924 Tabulée par Snedecor 1934 La distribution F possède les propriétés suivantes : • La quantité F est une variable aléatoire Continue : • Densité très complexe • F ≥ 0 • Dépend uniquement de 1 et 2 • Lorsque 1 et 2 augmente la distribution F ------> Distribution Normale 78
Test sur deux Variances Valeur tabulées de la distribution F ( Voir tableau ) Les valeurs de F dépendent de et 1 et 2. Elles sont données de façon que la probabilité de F soit supérieure à une valeur fixée F , 1, 2 est définie par : Prob( F F , ) = f(F) 1 2 (1 - ) Pour un donné 1 2 3 ∞ 1 2 3 0 F , 1, 2 F 79
Test sur deux Variances Relation Complémentaire Prob( F F , 1, 2 ) = Prob( F F 1 - , 2, 1 ) = 1 - f(F) F , 1, 2 0 F 1 - , 2, 1 = (1 - ) 1 F , 1, 2 (1 - ) F 0 ou F F 1 - , 2, 1 F , 1, 2 = 1 F 1 - , 2, 1 80
Test sur deux Variances Soient deux populations 1 & 2 : Pop 1 : M 1, 1 Pop 2 : M 2 , 2 m 1, s 1 m 2, s 2 On démontre que la quantité : Loi Fischer Le critère de test donc : (Voir tableau) Loi Fischer 81
Test sur deux Variances Exemple: Un laboratoire, firme d’expertises en contrôle de qualité de matériaux, a été demandé par une société de gérance de projets de construction pour évaluer la qualité d’un mélange bitumineux provenant de 2 usines. Il a été convenu d’effectuer une vérification par 115 cm 3 de béton et dévaluer la résistance à la compression, à l’âge de 3 jours, sur des cylindres standards. Les résultats de la résistance à la compression ( en kg/cm 2 ) pour les 2 usines se résume comme suit: U 1 : U 2 : n 1 = 25 n 2 = 25 m 1 = 90. 6 m 2 = 94. 4 s 1² = 65. 42 s 2² = 58. 24 1. Peut-on considérer comme vraisemblable, au seuil de = 0. 05, l’hypothèse selon laquelle la variabilité de la résistance à la compression du béton provenant de chaque usine est identique? On suppose que la résistance à la compression suit la loi normale. 2. Donner l’ IC à 5% du quotient des deux variances. 82
- Slides: 82