Vorbereitung der Auswertung Building Competence Crossing Borders Prof

Vorbereitung der Auswertung Building Competence. Crossing Borders. Prof. Dr. Jürg Hari juerg. hari@zhaw. ch

Ziel für diesen Block 2

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien

“The road to hell is paved with good intentions and littered with sloppy analysis” 4

Von Daten zur Intelligenz: Daten kritisch befragen und optimistisch interpretieren Optimierung Business Power (ROI) Was geschieht am Besten ? Prediktive Modellierung Deskriptive Standard. Reporte Online. Modellierung Daten bereinigt Rohdaten Was wird geschehen ? Reporte Warum geschah es ? Was geschah ? Daten Information Wissen Intelligenz

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien

Nutzt es mehr Daten zu haben? Datensatz: 1. 00 6. 00 2. 00 3. 00 4. 00 3. 00 2. 00 3. 00 4. 00 5. 00 4. 00 6. 00 5. 00 7. 00 6. 00 4. 00 6. 00 3. 00 7. 00 3. 00 5. 00 8. 00 11. 00 14. 00 12. 00 4. 00 7. 00 5. 00 3. 00 7. 00 8. 00 9. 00 11. 00 14. 00 12. 00 9. 00 7. 00 13. 00 15. 00 18. 00 21. 00 22. 00 16. 00 14. 00 12. 00 15. 00 16. 00 7 Korrelation bei n=25: Korrelation bei n=50: => Korrelation bei grösserem n gleich Signifikanz ist aber deutlich höher

Nutzt es mehr Daten zu haben? Datensatz: 1. 00 6. 00 2. 00 3. 00 4. 00 3. 00 2. 00 3. 00 4. 00 5. 00 4. 00 6. 00 5. 00 7. 00 6. 00 4. 00 6. 00 3. 00 7. 00 3. 00 5. 00 8. 00 11. 00 14. 00 12. 00 8 4. 00 7. 00 5. 00 3. 00 7. 00 8. 00 9. 00 11. 00 14. 00 12. 00 9. 00 7. 00 13. 00 15. 00 18. 00 21. 00 22. 00 16. 00 14. 00 12. 00 15. 00 16. 00 Deskriptiv bei n=25: Deskriptiv bei n=100: => Mittelwerte bei grösserem n gleich, Std. Abw. sinkt leicht

Nutzt es mehr Daten zu haben? Datensatz: 1. 00 6. 00 2. 00 3. 00 4. 00 3. 00 2. 00 3. 00 4. 00 5. 00 4. 00 6. 00 5. 00 7. 00 6. 00 4. 00 6. 00 3. 00 7. 00 3. 00 5. 00 8. 00 11. 00 14. 00 12. 00 9 4. 00 7. 00 5. 00 3. 00 7. 00 8. 00 9. 00 11. 00 14. 00 12. 00 9. 00 7. 00 13. 00 15. 00 18. 00 21. 00 22. 00 16. 00 14. 00 12. 00 15. 00 16. 00 Korrelation bei n=25: Korrelation bei n=100: => Korrelation bei grösserem n gleich, Signifikanz ist aber deutlich höher

Wie viele Einheiten muss man untersuchen? - Zentral ist die Auswahl der Probanden - Zur Anzahl: Ø Ø n = 15 bis 20 bei qualitativen Erhebungen (Mayring, 2015) n = 60 bis 300, quantitativen Erhebungen (Pallant, 2010) n = 30 je Gruppe bei Experimenten (Huber, Meyer, & Lenzen, 2014) n = 1000 für repräsentative Erhebung (Kühn & Kreuzer, 2006) - Der Begriff Probanden ist gleichzusetzen mit Untersuchungseinheiten (könnten auch Aktien, Immobilien, Firmen-Niederlassungen, etc. sein). 10

‘Probanden’-Auswertung von Experimenten Argument für Anzahl und Rekrutierung von Probanden: (möglicher Text in einer Arbeit) «Dieses Experiment folgt der Logik der Theory Application (Calder, Phillips, & Tybout, 1981) und es wurden folglich möglichst homogene Probanden für das Experiment rekrutiert. Die Probanden wurden per Zufall einer der Experimentalbedingungen zugeteilt. Huber, Meyer, & Lenzen (2014: S 64) schlagen für Experimente ein n=30 pro Gruppe vor. Die 61 Probanden hatten ein Alter von x ± y Jahren und eine Geschlechtsverteilung von 30 männlich und 31 weiblich. Die Versuchsgruppen unterschieden sich weder altersmässig (t-Test, t=0. 9; p≥ 5%) noch in der Geschlechtsverteilung (Chi 2 = 2. 4; p≥ 5%)» 11

‘Probanden’-Auswertung von Umfragen Argument für Anzahl und Rekrutierung von Probanden: (möglicher Text in einer Arbeit) “Our data is from the 2010 consumer survey conducted by the Swiss Financial Market Supervisory Authority (Finma). The participants constitute a random sample of 1300 adults aged 18– 79, approximately representative of the Swiss population, with a participation rate of 45%. A chi-squared test showed that the demographics of the sample did not differ significantly from the geographic and demographic distribution of the general population. ” 12

Beschreibung der Stichprobe: Beispiel 1 - Deskriptive Statistiken zeigen - Unterschiede zwischen Untergruppen auf Signifikanz untersuchen - Im Beispiel unten zu verbessern: - Alter: Mean +/- Standard Error - Gibt es signifikante Unterschiede zwischen den Experimentalgruppen bezüglich Alter und Geschlecht? 13

Beschreibung der Stichprobe: Beispiel 2 Datenbereinigung: Wasserfall-Diagramm wäre evtl. noch besser Nur am Rande: Warum plötzlich wieder +1 ?

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien Die Weisheit des Tages: Statistik ist nicht alles, aber ohne Statistik ist alles nichts!

Resultate des Pre-Tests - Der Pre-Test muss rapportiert werden. Dies kann im Methodenbeschrieb (vorzuziehen) sein oder im Resultate-Teil - Hier ein Beispiel (die Details waren im Anhang zu finden): 16

Behandlung von „Fehlenden Werten“ Methode Eliminieren Ignorieren Imputieren paarweise implizit einfach merkmalsweise explizit multiple beobachtungsweise Decker, 2008

Software zur Auswertung von qualitativen Daten Siehe www. sagepub. com unter „Qualitative Software“

Auswertung von qualitativen Interviews - Zur Erinnerung: Experteninterviews, Leitfadeninterviews, etc. - Transkription im Grunde unerlässlich - Codierung ein MUSS - Hinweis in Gläser & Laudel, 2009 beachten! - Block «Qualitative Erhebungen»

Offene Fragen in Fragebogen auswerten - Codierung - Coding scheme - Von zwei Personen kodieren lassen - Problematische Interpretation: - Frage: „Was hat Ihnen am Sportgerät gefallen? “ • Gar nichts • Nichts spezielles • Nichts Peterson, 2000, S 33 ff

Multi-Item Scales: Beispiel «Trust in Salesperson» § Skala 1 bis 7; 7 Fragen (übersetzt) § Fragebogen: - Frage 1: This salesperson… 1 2 3 4 5 X 67 - Frage 2: This salesperson … 1 2 3 4 X 567 - Frage 3: We do not … 123 X 4567 - Frage 4: This salesperson … 1 2 3 X 4567 - Frage 5: This salesperson … 1 2 3 4 X 567 - Frage 6: The people … 1 2 3 4 5 X 67 - Frage 7: This salesperson … 1 2 3 X 4567 - Auswertung: - Messwert Frage 1 = 6 - Messwert «Trust» = (6+5+4+4+5+6+4)/7 = 4. 86 => Auswertung einzelnes Item: „Intervall“ in der Praxis akzeptiert, besser wäre „ordinal“ ABER: Widerspricht der Theorie, da Item Teil des Konstrukts => Konstrukt „Trust“ ist sicher intervallskaliert / ratio-skaliert

Kodierung von Daten unbedingt protokollieren! 22

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien Do not put your faith in what statistics say until you have carefully considered what they do not say. William W. Watt

Wie sehen die Daten aus? - Dateneingabe in alle System immer zeilenweise pro Fall; Spalten sind die Variablen aus der Erhebung - ‘reversed items’ umkodieren - Häufigkeiten, Min, Max, Mittelwert, Median - Testen auf Normalverteilung - Testen auf Varianzhomogenität 24

Spezialfall: Auswertung von Mehrfachantworten 25

Die Normalverteilung: Oft Standard (-annahme) Mc. Givern, 2006, S 286

Die Normalverteilung: Verteilung der Fälle Mc. Givern, 2006, S 288

Unprofessionelle Auswertung einer 5 er Skala: Richtig wäre? 28

In der Praxis der Datenauswertung gibt es drei zentrale Probleme, die für uns relevant sind 1. Daten sind nicht normalverteilt 2. Gruppen weisen keine homogene Varianz auf 3. Daten enthalten Ausreisser 29

1. Daten sind nicht normalverteilt - Drei Datensätze kreiert (per Zufallszahl): Mittelwert = 4 und St. Dev = 1 - NV = Original; Gerundet = Gerundet; Abgeschnitten: Nachkommastellen entfernt - NV ist normaltverteilt, die beiden anderen (hoch signifikant) nicht. => Pragmatisch gesehen: Die Daten sind alle normalverteilt Fazit: nicht-parametrische Verfahren anwenden; bei parametrischen die diagnostischen Statistiken anfordern 30

Realität: Schief und symmetrisch Mc. Givern, 2006, S 472

Praxisbeispiel: Grundsätzlich sind die Besucher zufrieden - Nur 7. 7% der befragten Gäste (42 Personen) finden es neutral oder schlechter - 7. 6 % (41 Personen) finden es „ausgezeichnet“ - Keine Unterschiede zwischen den Casinos

Was tun, wenn die Daten nicht normalverteilt sind? Üblicherweise ein grosses Problem! - «Pallant» S. 97 Wurzel ziehen Logarithmus nehmen Invertieren (=1/x) Die weiteren «Lösungen» zum Problem sind nur bedingt nützlich 33

2. Gruppen weisen keine homogene Varianz auf - Im guten Fall links unten => keine Sorgenfalten - Im schlechten Fall rechts => Diagnostik anfordern 34

3. Daten enthalten Ausreisser - Ausreisser sind fast am gefährlichsten! - Oftmals verwenden wir 5 er oder 7 er Skalen, dann tritt dies kaum je auf. - Vorsicht bei Daten wie ‘Umsatz letzten Monat’ oder ‘Anzahl Trainingsstunden’, etc. - Fazit: Meist kein Problem; bei Problem-Variablen (z. B. Umsatz) die diagnostischen Statistiken anfordern 35

Was sind ‘diagnostische Statistiken’ ? - Im Grunde relativ einfach: Wenn man eine Regression rechnet, dann sollte die Differenz von berechnet und beobachtet normalverteilt sein. - Es sollte keine systematische Abweichung geben 36

Noch zwei Punkte unter «Verschiedenes» - Achsen immer beschriften: - Dies ist keine Wertschöpfungskette; Zusatz: es wird nicht richtig, nur weil es aus einer Quelle stammt (kritisches Lesen!) 37

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien Data is a lot like humans: It is born. Matures. Gets married to other data, divorced. Gets old. One thing that it doesn't do is die. It has to be killed. Arthur Miller

Hypothesen zeigen Zusammenhänge io tit pe Re - n Anforderung an Hypothesen: Hypothese ist eine Aussage Enthält mindestens zwei Begriffe Verknüpft diese mit einem logischen Operator Ein Begriff deckt den anderen nicht ab Widerspruchsfrei Geltungsbedingungen definiert Begriffe operationalisierbar Falsifizierbar Basiert auf theoretischer Fundierung Anmerkung: Thesen sind Behauptungen

n itio et p Re Hypothesen testen (praxisnah) - Hypothese = Unter „ceteris paribus“-Bedingungen gibt es Unterschiede bezüglich eines Faktors Häufig als H 1, H 2, H 3, etc. bezeichnet - Nullhypothese = Null Unterschied Häufig als H 0 bezeichnet - Standardmässig wird immer die Nullhypothese getestet; In der Formulierung im Fliesstext wird aber immer von der Hypothese H 1, H 2, H 3 etc. geschrieben (H 0 weglassen) - Irrtumswahrscheinlichkeit: oft 5% Typen von Hypothesen vereinfacht: - Gruppenunterschiede: z. B. Intelligenz unterschiedlich zwischen Männern und Frauen - Zweiseitig: M und W unterschiedlich - Einseitig: M intelligenter als F - Zusammenhänge: A und B und C korrelieren - Kausalwirkung: Wenn A dann B

Hypothesen testen (korrekte Formulierung) io tit pe Re n - Vergleicht man etwa zwei Mittelwerte, so kann man zu diesem Zweck zwei Hypothesen formulieren: - Hypothese 0 (Nullhypothese): Die beiden Stichproben entstammen der gleichen Grundgesamtheit (d. h. der Mittelwertunterschied ist zufällig zustande gekommen). - Hypothese 1 (Alternativhypothese): Die beiden Stichproben entstammen verschiedenen Grundgesamtheiten (d. h. der Mittelwertunterschied ist nicht zufällig zustande gekommen). Die Prüfstatistik hat Verfahren entwickelt, die aus den gegebenen Stichprobenwerten bzw. den daraus resultierenden Kennwerten nach bestimmten Formeln so genannte Prüfgrössen berechnen. Diese Prüfgrössen folgen bestimmten theoretischen Verteilungen (t-Verteilung, F-Verteilung, χ²Verteilung u. a. ), welche die Berechnung der so genannten Irrtumswahrscheinlichkeit erlauben. Ø Hinweis: Im Fliesstext einer Arbeit Nullhypothese nicht erwähnen

Korrekte Formulierungen: Ein Beispiel io tit pe Re n - Hypothese aus der Theorie und den Gegebenheiten (Wirklichkeit, etc. ) hergeleitet: - Im Resultate-Teil die Hypothese angenommen:

Als Grundsatz: «Face the books» (Pallant, 2010) (1) 43

Als Grundsatz: «Face the books» (Pallant, 2010) (2) 44

Es gibt auch viele online Beratungsdienste - Uni Zürich: http: //www. methodenberatung. uzh. ch/index. html 45

Statistiken für ordinale und nominale Daten - Pearson‘s Korrelation eher nicht! Chi 2 -Test Kendall‘s Tau (ordinal) Goodman & Kruskal‘s lambda (nominal) Typische Auswertungen: - „In den 5 Altersgruppen sind Frauen in der obersten Altersgruppe übervertreten“ - „Männer gehen häufiger ins Casino als Frauen“ Lewis-Beck, 1995 Þ ACHTUNG: 4 er Skalen sind ordinale Daten Stadtler (1985); Peterson (2000)

Konkrete Fälle: Zwei Gruppen vergleichen => t-Test machen 47

Noch eine Sache, die verwirren kann - Sind es die gleichen Subjekte oder nicht? Ø Gleich: Angabe zu zwei Objekten (z. B. Spieltisch&Spielautomaten oder vorher&nachher) Auch «gleich» : Bei Ehepaar Mann/Frau oder Verkaufsgespräch Verkäufer/Kunde Ø Ungleich: Gruppe A und Gruppe B ODER: männlich / weiblich - Gleich: Within-Subject-Design (z. B. t-Test für verbundene Stichproben) - ACHTUNG: Wenn Varianzanalyse mit wiederholten Messungen, dann Finger weg und zum Telefon greifen (intern 7992) - Ungleich: Between-Subject-Design Am Beispiel von Folie vorher: - Between Subjects: Englischnote männlich vergleichen mit Englischnote weiblich => t-Test - Within Subjects: Englischnote und Deutschnote beim gleichen Subjekt => t-Test bei verbundenen Stichproben 48

Welche Herausforderungen stellen sich bei der Auswertung von diesen Daten? Frage 1. 1: Wie gefällt es Ihnen im Casino Zürichsee? Gar nicht gut Nicht so gut neutral Gut Sehr gut Ausgezeichnet - Deskriptive Statistiken: Mittelwert, Std. Abw. Min, Max, Median Achtung: Normalverteilung beachten, einseitig/zweiseitig bestimmen «Den Leuten gefällt es» => t-Test bei einer Stichprobe (s. nächste Folie) «Frauen gefällt es weniger gut als Männern» => t-Test bei zwei Stichproben 5 Altersgruppen: Hat die Altersgruppe einen Einfluss? => Einfaktorielle ANOVA (salopp: t-Test mit mehr als einer Gruppe) - «Leuten, gefällt es an Automatenspielen besser als an Tischspielen» => t-Test für verbundene Stichproben Bitte zwingend beachten: ü Richtige Formulierungen wählen: z. B. «Hypothese bestätigt» ü Wenn der Test nicht signifikant ist, dann ist der Unterschied eben zufällig !!! Also nicht: «Frauen gefällt es weniger gut als Männern, aber der Unterschied ist nicht signifikant» Sondern: «Frauen gefällt es gleich gut wie Männern. »

Konkrete Fälle: «Eine» Gruppe vergleichen Frage 1. 1: Wie gefällt es Ihnen im Casino Zürichsee? Gar nicht gut Nicht so gut neutral Gut Sehr gut Ausgezeichnet - «Den Leuten gefällt es» => t-Test bei einer Stichprobe - Hypothese: «Den Leuten gefällt es» heisst, dass sie systematisch von «neutral» abweichen. Neutral = 4 - Also: t-Test bei einer Stichprobe: Vergleich Mittelwert mit dem Wert 4. 50

Was kann man sonst noch auswerten? Frage 1. 1: Wie gefällt es Ihnen im Casino Zürichsee? Gar nicht gut Nicht so gut neutral Gut Sehr gut Ausgezeichnet - Es gibt einen Zusammenhang zwischen «gefallen» und «zufrieden» => Korrelation - Eine Einheit «zufrieden» verursacht x Einheiten «weiterempfehlen» => Einfache Regression - Gefallen-Skalen für: Casino insgesamt, Empfang, Bar, Spielbereich, Automatenspiele. Welche von diesen hat den grössten Einfluss auf «gesamt» ? => Multiple Regression (beta-Werte)

Konkrete Fälle: Experiment mit gross/klein - 2 Gruppen gross/klein: ü t-Test (=Mittelwerte vergleichen) - Testen, ob Gruppen ‘ceteris paribus’ (z. B. Geschlechtsverteilung) ü Chi 2 -Test 52

Konkrete Fälle: Experiment mit Model/Produkt - 2 Faktoren: Model und Produkt: ü 2 -way ANOVA Scan «Pallant» : S 110 - Testen, ob Gruppen ‘ceteris paribus’ (z. B. Geschlechtsverteilung) ü Chi 2 -Test 53

Weitere Auswertungen - Experimente: meist mit Varianzanalyse Beispiel: 2 Gruppen (Mann/Frau), zwei Behandlungen (viel/wenig; lustig/fade) => 2 fixe Faktoren, mit/ohne Interaktion Zusatz: Stetige Variablen (z. B. Trainingszeit) als Kovariate - Conjoint Analysen: Multiple Regression - Gruppen von ähnlichen Fällen identifizieren => Clusteranalyse - Gruppen von ähnlichen Variablen analysieren (z. B. Imageanalysen, Positioneriungsanalysen) => Faktoranalyse

Zusammenfassen der geplanten Tests in Form einer Tabelle (Beispiel aus einer Masterarbeit) 55

Zusammenfassen der Tests in Form einer Tabelle (1) 56

Zusammenfassen der Tests in Form einer Tabelle (2) 57

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien Science is organized common sense where many a beautiful theory was killed by an ugly fact. Thomas H Huxley

Repetition aus Teil ‘Seiler’: «Confounds and Controls» A B C 59

Repetition: Moderator / Mediator Analysis Anzahl Stunden „Lernen für Prüfung“ Prüfungsnote Motivation Siehe auch: Schurz S 151 Müller, 2007 Siehe dazu Scan «Pallant» : S 107 => Partial Correlation; Variante: Kovarianzanalyse Oder «Mediator, Moderator Analysis» -Plug-in SPSS (Preacher & Hayes, 2004)

Repetition: Moderator / Mediator Analysis Anzahl Stunden „Lernen für Prüfung“ Motivation Prüfungsnote Motivation Anzahl Stunden „Lernen für Prüfung“ Prüfungsnote Siehe dazu Scan «Pallant» : S 107 => Partial Correlation; Variante: Kovarianzanalyse Oder «Mediator, Moderator Analysis» -Plug-in SPSS (Preacher & Hayes, 2004)

Forschungsmethodik: Auswertung von Daten Programm im Block ‘Auswertung’: - Wie gross muss das n sein? Stichprobe beschreiben Datenaufbereitung: Pre-Test; Fehlende Werte; Kodierungen Deskriptive Statistik Wahl der statistischen Tests Moderatoren und Mediatoren Gütekriterien

Hauptgütekriterien - Objektivität: Ergebnisse sind unabhängig von Einflüssen der Untersucher oder Untersuchungssituation (Planung, Durchführung, Auswertung und Interpretation) - Reliabilität: Zuverlässigkeit / Messung in zu großem Ausmaß mit Messfehlern behaftet - Validität: Misst das gewünschte Merkmal. Das Verfahren ist tauglich für die Messung des Merkmals - Zu den Gütekriterien zählen nicht: Rigor, Relevance, Repräsentativität Siehe auch Berekoven et al. , 2006 p 88 ff und Kühn&Kreuzer, 2006 p 234 ff für weiterführende Details

Mögliche Sub-Kriterien und Methoden (1) - Objektivität: Muss unabhängig sein von … - Planung - Durchführung - Auswertung - Interpretation - Praxisbeispiel: Forschungsdatenbank P 3 des SNF - Praxisbeispiel: Datensätze, die veröffentlicht werden

Wie ist bezüglich Objektivität das SRF zu beurteilen?

Mögliche Sub-Kriterien und Methoden (2) - Reliabilität = Zuverlässigkeit der Messung - Zuverlässigkeit eines Messverfahrens kann wie folgt gezeigt werden (Reihenfolge weist auf zunehmende «Nützlichkeit» hin). Ø Ø Ø Paralleltest-Reliabilität Split-Half-Reliabilität Test-Retest-Reliabilität Interne Konsistenz (Crohnbachs Alpha) Interrater-Reliabilität (mittels Cohens Kappa für zwei Rater bzw. Fleiss’ Kappa für mehr als zwei Rater; Rater = ‘Beurteiler’)

Reliabilität in der Praxis: Speed Dating

Mögliche Sub-Kriterien und Methoden (3) - Validität: Tauglichkeit heisst folgendes: - Inhaltsvalidität - Konstruktvalidität - Kriteriumsvalidität - Statistische Validität - Interne Validität - Externe Validität - Prädiktive Validität

Validität in der Praxis: Wie warm ist es draussen? Meteo vom 28. 4. 16: Temperatur war -2 Was heisst das aber für die valide Messung? Schon nur die Entfernung zum Boden bringt enorme Unterschiede. Was ist nun die «richtige» Messung? 69

Nicht nur Menschen geben sich Namen. Große Tümmler (Tursiops truncatus) senden eigene Signaturpfiffe aus - individuelle, in früher Kindheit gelernte Folgen von Pfeiftönen. Treffen sich bislang unbekannte Gruppen von Tümmlern, so tauschen sie diese Signaturen intensiv aus, ganz wie bei einer Gruppe von Menschen, die sich einander vorstellen. Doch werden diese Namen später auch von anderen Tieren verwendet? Ja, einer neuen Studie zufolge nutzen Delfine die Signaturpfiffe wohl auch, um andere Delfine gezielt anzusprechen.

Sind die Gütekriterien relevant für die Praxis? Gütekriterien für das Thema «Prüfungen»

Schlussbemerkung zu den Gütekriterien - Beispiel WEMF: - Für WEMF gilt: Hauptgütekriterien - Für Auftraggeber gilt: «Rigor and Relevance» - Medizin als Beispiel verlangt zusätzlich die WZW Kriterien - Wirksamkeit - Zweckmässigkeit - Wirtschaftlichkeit Gemäss KVG, Art. 32.

Verfahren zur Prüfung von Reliabilität und Validität Reliabilität: - Crohnbach‘s Alpha - Inter-Rater Reliabilität Validität: - Bootstrapping 1 Holdout Verfahren [Split sampling]2 Leave-One-Out Verfahren 2 Literatur-Recherche Validität nach Atteslander (Kapitel 7. 2): - Expert validity (z. B. «Fachexperten» ) - Known groups (z. B. Alkoholiker) - Predictive validity (z. B. Implizite Tests) 1 Reimer 2007 2 Kuhlmann, 2007

Konkreter Fall: «Skalen» und Reliabilität (1) 74

Repetition «Skalen» und Reliabilität (2) Reliabilität; Achtung wegen reversed scores! 75

Beispiele Validität 76

Reliabilität: Ein negatives Beispiel => Steht dort so nicht, eher das Gegenteil 77

… und zum Schluss noch dies If you torture data sufficiently, it will confess to almost anything. Fred Menger