Induktive Statistik Statistische Struktur diskreter Fall Dabei sind
Induktive Statistik
Statistische Struktur (diskreter Fall) Dabei sind:
Schätzproblem Schätzer
Grundgesamtheit (mögliche Beobachtungen) Ω Beobachtung (Stichprobe) Schätzung Modell Θ
Grundgesamtheit (mögliche Beobachtungen) Ω Beobachtung (Stichprobe) Modell Θ Schätzung g E
Stichprobe (diskreter Fall)
Mathematischer Rahmen
Statistische Struktur diskret stetig
Maximum-Likelihood-Schätzer (diskreter Fall) Likelihood-Funktion M-L-Schätzer mit oder
Der Parameter ist die beste Erklärung für die Beobachtung
Likelihood-Funktion
Der Logharithmus ln x ist streng monoton wachsend
Beispiel Poisson-Verteilung Stichprobe vom Umfang n mit Poisson-verteilter Stich. Probenvariablen (Intensität: ) M-L-Schätzer für oder
Beispiel Bernoulli-Verteilung Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen (p: Wahrscheinlichkeit des Ereignisses) M-L-Schätzer für p wieder gegeben durch:
Maximum-Likelihood-Schätzer (stetiger Fall) Likelihood-Funktion M-L-Schätzer mit oder
Der Parameter ist die beste Erklärung für die Beobachtung
Beispiel Bernoulli-Verteilung Stichprobe vom Umfang n mit Bernoulli- verteilter Stichprobenvariablen (p: Wahrscheinlichkeit des Ereignisses) M-L-Schätzer für p wieder gegeben durch:
Normalverteilte Stichprobenvariable M-L-Schätzer Erwartungswert Hier spielt es keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt:
Normalverteilte Stichprobenvariable M-L-Schätzer Varianz bekannt
Normalverteilte Stichprobenvariable M-L-Schätzer Varianz unbekannt
Übersicht
Aufgabe 1
Erwartungstreue Schätzer Wenn der Parameter selbst geschätzt werden soll: Wenn ein allgemeines statistisches Problem vorliegt: Dabei bedeutet der Index , dass der Erwartungswert bzgl. des W. maßes zum Parameter genommen wird.
Schätzung des Erwartungswertes der Stichprobenvariablen X Statistisches Problem gegeben durch: Erwartungstreuer Schätzer:
Schätzung der Varianz der Stichprobenvariablen X Erwartungswert bekannt Statistisches Problem gegeben durch: Erwartungstreuer Schätzer:
Schätzung der Varianz der Stichprobenvariablen X Erwartungswert unbekannt Statistisches Problem gegeben durch: Erwartungstreuer Schätzer:
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für den Erwarungswert Hier spielt es wieder keine Rolle, ob die Varianz bekannt ist oder nicht. In jedem Fall gilt: ist erwartungstreu
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für die Varianz bekannt ist erwartungstreu
Normalverteilte Stichprobenvariable Erwartungstreuer Schätzer für die Varianz unbekannt ist erwartungstreu Kein M-L-Schätzer!!
Übersicht erwartungstreu nicht erwartungstreu
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit, eine Beobachtung zu machen, für die der wahre Parameter im zugehörigen Intervall liegt, größer oder gleich 1 -
Niveau Das Niveau wird „klein“ gewählt. (Wir nehmen in unseren Beispielen in den meisten Fällen = 0. 05 oder = 0. 1) Die Intervallbreite soll möglichst gering sein. Es gibt aber einen Zusammenhang zwischen der Breite der Konfidenzintervalle und dem Niveau: Niveau kleiner Intervall breiter
Konfidenzintervall für den Erwartungswert Varianz bekannt Annahme: Konfidenzintervalle: wobei
Die Gauß- oder Normalverteilung
Dichte Verteilungsfunktion
Erwartungswert Varianz
Approximative Konfidenzintervalle im Bernoulli-Fall I Konfidenzintervall zum Niveau
Approximative Konfidenzintervalle im Bernoulli-Fall II Vereinfachung für großes n (n 100)
Aufgabe 2
Die Student- oder t-Verteilung Hängt von Parameter n ab!
Die Student- oder t-Verteilung Wahrscheinlichkeitsdichte Die Konstante d ist dabei:
Die Chi-Quadrat-Verteilung Hängt ebenfalls von Parameter n ab!
Die Chi-Quadrat-Verteilung Wahrscheinlichkeitsdichte Die Konstante c ist dabei: : Gamma-Funktion
Mathematische Bedeutung der Chi-Quadrat-Verteilung Für n unabhängige Zufallsvariablen mit hat man:
Mathematische Bedeutung der t-Verteilung Für unabhängige Zufallsvariablen W und U mit hat man:
Konfidenzintervall für den Erwartungswert Varianz unbekannt Student-Verteilung (oder t-Verteilung)
Übersicht Konfidenzintervalle für den Erwartungswert
Aufgabe 3
Verwendung der Tafel für die Normalvertreilung
TESTS TESTS
Worum es geht Man möchte „testen“, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. In der Statistik kann man nie ganz sicher sein. Die „Irrtumswahrscheinlichkeit“ sollte wenigstens klein sein. Formulierung einer Hypothese Nullhypothese Beobachtung (Stichprobe) Vorgabe: „Irrtumswahrscheinlichkeit“ Entscheidung
TESTS Mathematischer Rahmen I Gegeben sind: Statistische Struktur Stetiger Fall Testproblem (Hypothese) Nullhypothese Niveau Diskreter Fall
TESTS Mathematischer Rahmen II Test gegeben durch: Ablehnungsbereich Teilmenge der Grundgesamtheit : Menge aller Beobachtungen , die zur Ablehnung der Hypothese führen
TESTS Mathematischer Rahmen III Beobachtung (Stichprobe) Oder Entweder Beobachtung liegt im Annahmebereich Beobachtung liegt im Ablehnungsbereich Hypothese annehmen! Hypothese ablehnen!
Fehler erster und zweiter Art
Entscheidung Realität Hypothese akzeptiert Hypothese wahr Hypothese abgelehnt r e l h Fe Hypothese falsch r e l h Fe t r A 2. t r A 1.
Niveau und Macht Niveau Obere Grenze für die Wahrscheinlichkeit, einen Fehler 1. Art zu begehen Macht in einem Punkt der Alternative Wahrscheinlichkeit, keinen Fehler 2. Art zu begehen, wenn der wahre Parameterwert in dem Punkt liegt
Test für den Erwartungswert Fall Normalverteilung Varianz bekannt
Test für den Erwartungswert Fall Normalverteilung Varianz unbekannt
Aufgabe 4
Aufgabe 5
Vergleich zweier unabhängiger Stichproben 1. Fall 2 unabhängige Stichproben mit Stichprobenvariablen X und Y Annahmen: X und Y normalverteilt Varianz von X = Varianz von Y Hypothese: Erwartungswert von X = Erwartungswert von Y
Vergleich zweier unabhängiger Stichproben 1. Fall Prüfgröße n: Umfang der Stichprobe 1 (Stichprobenvariable X) m: Umfang der Stichprobe 2 (Stichprobenvariable Y) Ablehnungsbereich bestimmt durch
Aufgabe 6
Vergleich zweier unabhängiger Stichproben 2. Fall 2 unabhängige Stichproben mit Stichprobenvariablen X und Y Annahmen: X und Y normalverteilt n und m groß (> 30), damit Approximation der Varianzen sinnvoll Hypothese: Erwartungswert von X = Erwartungswert von Y
Vergleich zweier unabhängiger Stichproben 2. Fall Ausgangspunkt Approximation Prüfgröße Ablehnungsbereich bestimmt durch
Aufgabe 7
Chi-Quadrat-Tests
Chi-Quadrat-Test auf Anpassung Hypothese Ablehnungsbereich
Fairer Würfel? Hypothese verwerfen!
Bakterielle Infektion durch Stämme I, III (siehe: Gelbrich) Vermutung Typ Prozentsatz I II III 30 50 20 I II III 30 32 18 Konkrete Stichprobe (80 Infektionen) Typ Anzahl
Mendelsche Gesetze Prozentsätze nach der Theorie rund gelb runzelig und gelb rund grün runzelig und grün 0. 5625 0. 1875 0. 0625
Beobachtete Häufigkeiten rund gelb runzelig und gelb rund grün runzelig und grün Summe 271 88 93 28 480
Krankmeldungen Wochentag Anzahl Krankmeldungen Mo Di Mi Do Fr 44 28 24 n 20 34 150
Aufgabe 8
Chi-Quadrat-Test auf Unabhängigkeit I
Chi-Quadrat-Test auf Unabhängigkeit II Hypothese Ablehnungsbereich
Chi-Quadrat-Test auf Unabhängigkeit III
Berufsstatus Vater - Sohn Y X 38
Sonntagsfrage (Fahrmeir/Künstler/Pigeot/Tutz) Die Ergebnisse der Sonntagsfrage: „Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahlen wären? “ sind für den Befragungszeitraum 11. 1. - 24. 1. 1995 in der folgenden Tabelle wiedergegeben:
Das Untersuchungsziel ist festzustellen, ob die voneinander abweichenden Häufigkeiten für Männer und Frauen rein zufällige Schwankungen Darstellen oder ob zwischen Geschlecht und Parteipräferenz ein Zusammenhang besteht. Nullhypothese: Zwischen Geschlecht und Parteipräferenz besteht kein Zusammenhang
Chi-Quadrat-Test auf Unabhängigkeit zum Niveau = 0. 05
Aufgabe 9
Chi-Quadrat-Test auf Homogenität Hypothese Ablehnungsbereich
Produktion zweier Betriebe
KREDITWÜRDIGKEIT (Fahrmeir/Künstler/Pigeot/Tutz) Eine Bank steht vor dem Problem, einen potentiellen Kreditnehmer einzuschätzen und den Kredit zu vergeben, oder ihn der Klasse der Problemfälle zuzuordnen und auf das Kreditgeschäft zu verzichten bzw. eine genauere Prüfung vorzunehmen. Gesucht wird ein Prädikator für die Kreditwürdigkeit. Hierzu werden 1000 Konsumentenkredite betrachtet. Für jeden Kunden aus dieser Stichprobe ist seine Kreditwürdigkeit X bekannt. Als weiteres Merkmal Y wird notiert, ob der Kunde ein laufendes Konto bei der Bank unterhält und, wenn ja, ob es „gut“ oder „mittel“ geführt wird.
Merkmal X: Kreditwürdigkeit Merkmal Y: Konto Wertungen kein Konto gut geführt mittel gut geführt
Chi-Quadrat-Test auf Homogenität zum Niveau = 0. 05 Nullhypothese: Verteilung auf die Kategorien des Merkmals „Konto“ ist für unproblematische Kreditnehmer und für Problemkunden gleich
Aufgabe 10
Aufgabe 11
Aufgabe 12
Übersicht Chi-Quadrat-Tests
Faustregeln Test auf Anpassung Test auf Unabhängigkeit Test auf Homogenität Chi-Quadrat-Tests
Kolmogorov-Smirnov-Test wird eingesetzt, wenn getestet werden soll, ob eine bestimmte stetige Verteilung vorliegt.
Durchführung Kolmogorov-Smirnov-Test I Berechnung Hypothese Abstände berechnen )
Durchführung Kolmogorov-Smirnov-Test II Arbeitstabelle Maximum der Werte der letzten beiden Spalten
Durchführung Kolmogorov-Smirnov-Test III Ablehnungsbereich Niveau 0. 05
Durchmesser von Schrauben
Durchmesser von Schrauben Arbeitstabelle
Durchmesser von Schrauben und nicht spezifiziert Arbeitstabelle
Einfache Varianzanalyse wird eingesetzt, wenn mehr als 2 unabhängige normalverteilte Stichproben verglichen werden sollen, deren Varianz als übereinstimmend angenommen werden kann.
Datenliste
Gewicht eines Werkstückes bei 3 Betrieben (in kg)
Mittelwerte der Klassen und Gesamtmittelwert
Mittelwert Betrieb 1 Gesamt. Mittelwert Mitttelwert Betrieb 2 Mittelwert Betrieb 3
F-Verteilung für verschiedene Freiheitsgrade m, n
Die F-Verteilung Wahrscheinlichkeitsdichte : Gamma-Funktion
Durchführung der einfachen Varianzanalyse I N: Gesamtumfang der Stichproben; r: Zahl der Betriebe Benötigte Daten: Mittelwerte und Varianzen der einzelnen Betriebe Gesamtmittelwert Berechnung von Q 1 : Maß für die Varianz innerhalb der einzelnen Betriebe 2 Q 2 : Maß 1 für die Varianz zwischen den Betrieben
Durchführung der einfachen Varianzanalyse II
Durchführung der einfachen Varianzanalyse III Berechnung von Bestimmung von Ablehnungsbereich
Viel Erfolg bei der Klausur!!!
- Slides: 112