Probleme bei der Validierung von mittels IndividualebenenRatings gemessenen

Probleme bei der Validierung von mittels Individualebenen-Ratings gemessenen Clusterebenen-Konstrukten Die Potentiale von explorativer Zweiebenen. Faktorenanalyse und Zweiebenen-Kausalindikatoren— Modellen? Christoph Weber Jänner 2019, Linz

Ausgangslage • Clustermerkmale werden häufig auf Basis von Individualebenen. Ratings erfasst. • „Klassische Vorgehensweise“ im Rahmen von Mehrebenenmodellen bringt Probleme mit sich (u. a. geringe Reliabilität) • Mehrebenen-SEM-Ansatz zur Kontrolle von Sampling- und Messfehler (u. a. Lüdtke et al. , 2011; Marsh et al. , 2012; Morin et al. , 2013; Stapelton et al. , 2016) • Zwei weitere Probleme? Shared Cluster Construct (Stapelton et al. , 2016) η 1 b X 1 jb X 2 jb …. Xnjb X 1 ij X 2 ij X 1 ijw …. X nij X 2 ijw …. Xnijw Between (L 2) Manif. Messungen Xij = Xjb + Xijw Within (L 1)

Problem 1: Falsche Analyseebene § Faktorstruktur auf L 1 muss nicht der Faktorstruktur auf L 2 entsprechen (Marsh et al. , 2012) § Shared Cluster Constructs existieren per Definition nur auf L 2. § Bei der Skalenentwicklung wird jedoch häufig (vor allem bei EFA zur Itemselektion) die Mehrebenenstruktur vernachlässigt (z. B. Gebhart et al. , 2014; Hung et al. , 2015; Wettstein et al. , 2016). § L 1 -Variation (systematischer Messfehler) fließt in Modellschätzung ein. § Mögliche Folgen: Identifikation der „falschen Faktorstruktur“, Ausschluss von substanziellen Indikatoren, Einfluss auf Theoriebildung/Prüfung, … § Die Lösung: Zweiebenen-EFA (Muthén & Asparouhov, 2011)

Ein Beispiel § Daten – Projekt Themenorientierte Mathematik (1329 Schüler/innen, 75 Klassen, 5. Schulstufe) § Skala: Unterrichtsstörungen § Reliabilität der Items auf L 2 (ICC 2; Stapelton et al. , 2016) Items Unterrichtsstörungen ICC 2 Im Mathematikunterricht gibt es viele Störungen (z. B. Unterbrechungen oder Unruhe). 0. 74 Die Mathematiklehrer müssen oft eingreifen, um Aufmerksamkeit zu bekommen. 0. 68 Für die Mathematiklehrer ist es einfach, in der Klasse für Ruhe zu sorgen. Beim Wechseln von verschiedenen Arbeiten dauert es sehr lange, bis alle Schülerinnen und Schüler wieder bereit sind. 0. 35 Einige Schülerinnen oder Schüler schwätzen, während die Mathematiklehrer etwas erklären. 0. 69 Während des stillen Arbeitens schwätzen einige Schülerinnen oder Schüler. 0. 66 Einige Schülerinnen oder Schüler beschäftigen sich mit ganz anderen Dingen (z. B. Briefchen schr. . . 0. 75 Manche Schülerinnen oder Schüler hören den Mathematiklehrern nicht richtig zu. 0. 60 0. 51

L 1 -Ergebnisse: Nichtberücksichtigung der Mehrebenenstruktur Chi² df 1 Faktor 417, 28 20 2 Faktoren 71, 05 13 3 Faktoren 10, 32 7 Eigenwerte 3. 564 0. 971 Items Unterrichtsstörungen p 0 0 0, 17 0. 945 RMSEA 0, 122 0, 085 0, 019 CFI 0, 87 0, 98 0, 99 SRMR 0, 052 0, 021 0, 009 Im Mathematikunterricht gibt es viele Störungen (z. B. Unterbrechungen oder Unruhe). 0. 633* 0. 560* Die Mathematiklehrer müssen oft eingreifen, um Aufmerksamkeit zu bekommen. -0. 200* Für die Mathematiklehrer ist es einfach, in der Klasse für Ruhe zu sorgen. Beim Wechseln von verschiedenen Arbeiten dauert es sehr lange, bis alle Schülerinnen 0. 500* und Schüler wieder bereit sind. Einige Schülerinnen oder Schüler schwätzen, während die Mathematiklehrer etwas 0. 754* erklären. 0. 738* Während des stillen Arbeitens schwätzen einige Schülerinnen oder Schüler. Einige Schülerinnen oder Schüler beschäftigen sich mit ganz anderen Dingen (z. B. 0. 633* Briefchen schr. . . 0. 685* Manche Schülerinnen oder Schüler hören den Mathematiklehrern nicht richtig zu.

L 2 -Ergebnisse: Berücksichtigung der Mehrebenenstruktur Chi² 1 Faktor 53, 311 2 Faktoren 9. 126 Eigenwerte 5. 892 df 20 13 1. 075 p 0 0. 7634 RMSEA 0, 000 CFI 0, 99 1, 00 SRMR 0, 120 0, 048 λ Im Mathematikunterricht gibt es viele Störungen (z. B. Unterbrechungen oder Unruhe). 0. 958* Die Mathematiklehrer müssen oft eingreifen, um Aufmerksamkeit zu bekommen. 0. 931* Für die Mathematiklehrer ist es einfach, in der Klasse für Ruhe zu sorgen. Beim Wechseln von verschiedenen Arbeiten dauert es sehr lange, bis alle Schülerinnen und Schüler wieder bereit sind. Einige Schülerinnen oder Schüler schwätzen, während die Mathematiklehrer etwas erklären. -0. 984* Während des stillen Arbeitens schwätzen einige Schülerinnen oder Schüler. Einige Schülerinnen oder Schüler beschäftigen sich mit ganz anderen Dingen (z. B. Briefchen schr. . . 0. 917* Manche Schülerinnen oder Schüler hören den Mathematiklehrern nicht richtig zu. 0. 890* 0. 751* 0. 873* 0. 597*

Problem 2: Die „Natur von Indikatoren“ § Illustration am Beispiel „Kompetenzorientierung im Unterricht“. § Lenski, Richter und Pant (2015): Kompetenzorientierung im Unterricht aus der Perspektive von Lehrkräften und Schülerinnen und Schülern. Zeitschrift für Pädagogik 61(5), 712 -737 § Andere Beispiele „innere Differenzierung“, „kognitive Aktivierung“, „Learning Opportunities“, … § Annahmen und empirischer Zugang (Lenski et al. , 2015, 715 f): § KO wird als Merkmal auf Unterrichtsebene verstanden (vs. KO als Merkmal (Haltung) der Lehrkraft. § KO wird über das Vorkommen von Aktivitäten im Unterricht erfasst, die es den Schüler/innen ermöglichen Kompetenzen aufzubauen.

Beispiel: KO (Deutsch) – die Items § 4 Kompetenzbereiche (Sprechen/Zuhören, Lesen, Schreiben, Sprache und Sprachgebrauch), 67 Items Kompetenzbereich Bsp. Items Lesen Verschiedene Lesetechniken anwenden Texte strukturieren Texte szenisch umsetzen Textsorten unterscheiden Schreiben Texte verfassen Inhalte verkürzt wiedergeben Texte mithilfe neuer Medien verfassen Zeichensetzung üben Quelle: Lenski et al. (2015, S. 720, 732, 733). Anmerkung: Gefragt wird nach der Häufigkeit des Vorkommens der unterschiedlichen Aktivitäten in den letzten sechs Monaten (5 -stufige Skala von nie bis >10 Mal).

Beispiel: KO – die Analysen § EFA mit Lehrerangaben § Reduktion auf 24 Items (4 Faktoren) § CFA mit Schüler/innenangaben (1 Level)

Wo ist das Problem? Faktoranalytische Verfahren (EFA, CFA, bzw. auch IRTModelle) und Reliabilitätsmaßzahlen (Cronbachs Alpha, …) basieren auf der Annahme von Effektindikatoren. η x 1 x 2 … xn § η beeinflusst xn § Steigt η, steigen alle xn § Kovarianz der Indikatoren ist Folge der gemeinsamen Abhängigkeit von η u. a. Bollen und Bauldry (2011) § Ist die Annahme von Effektindikatoren plausibel?

Sind KO-Items Effektindikatoren der latenten Variable KO? Drei konzeptionelle Checks • Gedankenexperiment Nein (Bollen & Bauldry, 2011) § Führt eine Änderung der latenten Variable KO (Lesen) zur Änderung aller Indikatoren (z. B. versch. Lesetechniken anwenden, Texte strukturieren, Textsorten unterscheiden, …)? § KO-Aktivitäten werden von Lehrkräften gesetzt. Kann ein Merkmal auf Unterrichtsebene das Verhalten einer Lehrkraft beeinflussen? Lehrkraft Unterricht • Aktivität 1 (Lesetechniken) • Aktivität 2 … Schüler/innen

Sind KO-Items Effektindikatoren der latenten Variable KO? Drei konzeptionelle Checks (Bollen & Bauldry, 2011) § Essentielle Bedeutung/Austauschbarkeit der Indikatoren Nein § Effektindikatoren (mit gleicher Validität/Reliabilität) sind austauschbar. Ist „Textsorten unterscheiden“ durch die „Lesetechniken“ ersetzbar? § Erwartete Korrelation der Indikatoren Nein § Kann eine starke Korrelation der Häufigkeit von „Textsorten unterscheiden“ mit der Häufigkeit „Lesetechniken“ erwartet werden?

KO-Items als Kausalindikatoren (KI) der latenten Variable KO η x 1 x 2 … xn xn beeinflusst η § Gedankenexperiment: Führt eine häufigere Anwendung von versch. Lesetechniken zu mehr KO? JA steigt x 1, steigt η (alle anderen x müssen sich nicht ändern) § Bedeutung/Austauschbarkeit: Jeder einzelne Indikator (z. B. Anwendung von Lesetechniken) trägt zu KO bei und kann nicht (z. B. durch Textsorten unterscheiden) ersetzt werden. Korrelation der Indikatoren kann -, + oder 0 sein. § Erwartete Korrelation: „Lesetechniken“ und „Textsorten unterscheiden“ kann unabhängig von einander praktiziert werden. u. a. Bollen und Bauldry (2011) § Problem: Kausalindikatormodelle (wie dargestellt) sind nicht identifiziert

Schätzung von KI-Modellen (Bollen & Davis, 2009; Bollen, 2011) Schätzung als MIMIC-Modell x 1 x 2 η y 1 xn xn Messmodell … … y 2 Outcomes η x 2 xn+2 Messmodell xn+1

Beurteilung von KI-Modellen (Bollen & Davis, 2009; Bollen, 2011) § Beurteilung der Validität von KI analog zu Effektindikatoren (Bollen, 2011, S. 263) Validitätsprüfung Was wird geprüft Auf was wird geschaut? Konstruktdefinition Indikatoren Indikator bezieht sich auf Definition Modellfit Chi² und Fitindizes Hoher p-Wert und akzeptable Fitindizes Externale Validität Zusammenhang mit anderen Zusammenhänge konsistent latenten Variablen zur Theorie Unstand. und stand. Validitätskoeffizienten Eigenständig Validitätsvarianz Richtiges Vorzeichen, und statistische und praktische Signifikanz Inkrementelles R² ΔR²

Erweiterung auf zwei Ebenen: Causal Indicator Shared Cluster Construct η 1 b Erweiterungen zur Modelltestung § Beurteilung der Reliabilität Xnjb Y 2 jb (ICC 2; Stapelton et al. , 2016) X 1 jb X 2 jb …. Xnjb Y 1 jb X 1 ij X 2 ij …. X nij Y 1 ij Y 2 ij X 2 ijw …. Xnijw Y 1 ijw Y 2 ijw Within (L 1) saturiert X 1 ijw § Berechnung von „reinen“ L 2 -Fitindizes Manif. Messungen (CFI, RMSEA; Ryu & West, 2009) Between (L 2)

Ein Beispiel § Daten: TIMSS 2007, 8. Schulstufe, England (4025 Schüler/innen, 238 Klassen) § KO als „lernförderliche Aktivitäten“ Activities in Mathematic Lessons ICC 2 X 1 We write equations and functions to represent relationships 0, 062 0, 52 X 2 We memorize formulas and procedures 0, 075 0, 58 X 3 We explain our answers 0, 071 0, 56 X 4 We review our homework 0, 245 0, 84 X 5 We work problems on our own 0, 087 0, 6 4 -stufige Skala von 1 = every or almost every lesson bis 4 = never (für Analysen umkodiert)

Das spezifizierte Modell Leistungb KO SKb X 1 jb X 2 jb …. Xnjb Y 1 jb Y 2 jb X 1 ij X 2 ij …. X 5 ij Y 1 ij Y 2 ij Y 3 ij Manif. Messungen X 2 ijw …. Xnijw Y 1 ijw Y 2 ijw X 1 ijw SKw Leistungw Between (L 2) Within (L 1)

Problem der Multikollinearität bei KI (Bollen, 2011, S. 365), wird bei Zweiebenenmodellen noch verstärkt, weil die Korrelationen in der Regel auf L 2 stärker ausfallen. r(L 1) zwischen 0, 15 und 0, 48 r(L 2) zwischen 0, 4 und 0, 88 Ergebnisse Model 1 Est. (SE) Model 2 Est. (SE) / stand. Est. X 1 write equations and functions (γ 1) 1. 422 (1. 251) 1. 410* (0. 602) /. 32 X 2 memorize formulas (γ 2) 0. 456 (0. 939) - X 3 explain answers (γ 3) -0. 476 (0. 439) - X 4 review homework (γ 4) -0. 203 (0. 137) - X 5 work problems (γ 5) 2. 310 (0. 472) 2. 174*** (0. 450) /. 64 X² (df) 86, 59 (32); p<, 001 50, 33 (17); p<, 001 CFI 0, 978 0, 986 RMSEA 0, 084 0, 091 SRMRb , 054 , 044 Model Fit Effekte von KO auf Leistung (stand. β = , 96) und auf Selbstkonzept (stand. β = , 88) Bei Behandlung von Xn als Effektindikatoren: stand. β = , 93 bzw. , 85

Fazit § Die Annahme von Effektindikatoren zur Messung von Unterrichtsmerkmalen scheint nicht immer gerechtfertigt zu sein. § Klassische Zugänge (CFA, EFA, Cronbachs Alpha) sind nicht geeignet. § Substanzielle Indikatoren können verloren gehen. § Wird dennoch CFA/EFA zur Skalenentwicklung verwendet, stellt sich die Frage: „Was ist die latente Variable im Hintergrund, die Kovariation der Indikatoren bedingt? “ Ev. Haltungen usw… der Lehrkräfte. § KI-Modelle stellen eine (inhaltlich plausible) Alternative dar und können auf L 2 -Konstrukte (shared cluster constructs) erweitert werden.

Fazit ABER!!!!!!!!!!!! § Multikollinearitätsprobleme bei KI-Modellen (wird bei L 2 -Modellen verstärkt) § Aktuelle (heftige) Diskussionen um KI-Modelle § U. a. Schwerpunkte in Measurement: Interdisciplinary Research and Perspectives 2014(4) und 2016(3) § Diskussion der Kritikpunkte bei Bollen und Diamantopoulus (2015) • U. a. KI sind Ursachen, keine Indikatoren; KI induzieren multiple Dimensionen, … § Keine Wirkung des Ausschlusses von KI auf Koeffizienten des Strukturmodells (Aguirre-Uretta, Rönkkö & Marakas, 2016)

Fazit § Probleme bei Skalenentwicklung und Testung (West & Grimm, 2014). • • Da KI-Modelle ohne Outcomes bzw. ohne zusätzlichen Effektindikatoren nicht identifiziert sind, kann der KI-Teil des Modells nicht getrennt evaluiert werden. Item-Sampling: Repräsentative Samples von Effektindikatoren aus dem theoretischen Rahmen des Konstrukts ergeben äquivalente Skalen. Analog für KIModelle? Es bedarf einer „Vollerhebung“ der Kausalindikatoren, um das Konstrukt voll zu erfassen. Fehlt ein KI, verschiebt sich der True Score.

Fazit – Konzeptualisierung von Unterrichtsmerkmalen Wo ist die Ursache der latenten Variable verankert? Indikatoren Beispiele Einheit auf die sich das Konstrukt bezieht Neigung/Einstellung/Kompetenz der Lehrkraft (Trait? ? ) Effekt Classroom management, Innere Differenzierung, … Lehrkraft Verhalten der Lehrkraft, das aus einem breiten Verhaltensrepertoire gewählt wird? (State? ? ) Kausal Kompetenzorientierung, Lerngelegenheiten, … Unterricht Trait und State? ? Kausal und Effekt Innere Differenzierung Unterricht und Lehrkraft

VIELEN DANK FÜR DIE AUFMERKSAMKEIT

Fazit aus Rückmeldungen § Konzeptionelle Klärung schärfen – Unterrichtsmerkmal vs. Lehrkraftmerkmal. § Gedankenexperiment grafisch veranschaulichen.