Nutzen fr die psychologische Diagnostik aus der Interpretation

Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller

Gliederung 1. Theorie: Variabilität in psychologischen Eigenschaften 2. Daten: Test-Meta-Analyse-Projekt 3. Methode: Aspekte der

1. Personen Variabilität in psychologischen Eigenschaften Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus,

Das Schach-Beispiel (aus Müller, 2002) Schachspieler B 1: 2 A DPPD, 2003 Halle J.

Das Schach-Beispiel B A 1: 2 C 1: 2 1: 2 DPPD, 2003 Halle

Transfer zum Rasch Model (Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984;

Interpretation einer Rasch Skalen Einheit Differenz der Lösungswahrscheinlichkeiten DPPD, 2003 Halle J. M. Müller

True Rasch Variances als Maß für die Variabilität Konstante Differenz der Lsg-Wahrscheinlichk. Item b

True Rasch Variances als Maß für die Variabilität DPPD, 2003 Halle J. M. Müller

2. DATEN: Das TEST-META-ANALYSE-PROJEKT Anzahl psychologischer Dimensionen > 92 Anzahl abgeschlossener IRT-Analysen > 880

Mein Dank an… Die Testauthoren und Verlage für die Daten: und Studenten für die

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1. SOFTWARE (Winmira, Parscale, Bilog. MG, Bigsteps)

Interaktionen zwischen den Einflussgrößen SOFTWARE ROBUSTHEIT MESSFEHLER IRT-MODEL-FIT TRV SCHÄTZALGORITHMEN LINK-FUNKTIONEN BODEN-UND-DECKEN-EFFEKTE DPPD, 2003

Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz Liste von IRT-Software: 1. 2. 3.

Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz am Beispiel der Parscale- und Bilog.

Einfluss der verwendeten Software: Simulationsstudie TRS 0. 25 bis 4. 00 (. 25); N=1000;

Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983) Wir fassen eine Schätzung auf

Die Wahl des Reliabilitätsschätzer ist nicht unerheblich 0. 75. 5 Spearman Korrelation r =

Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps (ebenfalls in Bilog. MG)

Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) (Anmerkung:

Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität Simulationsstudie TRS

Konsequenz: Variationsreiche Eigenschaften sind , unter sonst gleichen Bedingungen‘ reliabler am Beispiel der EPQ-R(S)

Ohne Eingrenzung auf Skalen mit ca. 20 Items am Beispiel aller EPQ-R(S) Skalen: Deutsch,

Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV 2 TRV

Erklärung: Variierender Trennschärfen auf das TRV Lösungswahrscheinlichkeit β=1 Konstante Differenz β = 0. 5

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) 2.

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Mögliche Modelverletzungen: 1. Falsche Modellwahl (z. B. 1

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen Extraversion Neurotizismus

Einfluss von Model-Verletzungen am Q-Index am Beispiel der EPQ-R Extraversion Neurotizismus Psychotizismus Lügen Items

Einfluss von Model-Verletzungen Itemselektion nach Q-Index am Beispiel des EPQ-R Deutsch Extraversion ORV TRV

Voraussetzungen zur Interpretation von TRV am Beispiel des EPQ-R Deutsch Itemuntergrenze von 10 Extraversion

Voraussetzungen zur Interpretation von TRV Itemuntergrenze von 10 Ex Ne Deutsch Lü Ps Ex

Einfluss der Schätzalgorithmen: MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, hestimators, biweight

Einfluss der Schätzalgorithmen MLE vs. WML Mean 0. 01 Std Dev 0. 32 DPPD,

BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG DPPD, 2003 Halle J. M. Müller 40

BODEN-UND-DECKEN Effekte auf die SCHIEFE DPPD, 2003 Halle J. M. Müller 41

BODEN-UND-DECKEN Effekte auf die KURTOSIS DPPD, 2003 Halle J. M. Müller 42

Die Notwendigkeit eines Standards. . . 1. 2. 3. 4. 5. Der Messfehler =

4. Nutzen für die psychologische Diagnostik 1. Testkonstruktion 2. Testbeschreibung 3. Testanwendung 4. Neue

Nutzen für die psychologische Diagnostik Testkonstruktion a) Hohe Variabilität als Voraussetzung reliabler Messung b)

Inhaltsvalidität… … als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools

Variationsunterschiede am Beispiel des EPQ-R Deutsch (mit Winmira; vergleichbar mit Bigsteps) 0 1. 0

Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität am Beispiel des EPQ-R(S) Deutsch 0 0

EPQ-R(S) Inhaltsvalidität über Vergleiche der TRV ohne inhomogene Items (Q-Index) (mit Winmira) Spanisch 0

Konstruktvalidität Überprüfung theoretischer Zusammenhänge zwischen Konstrukten Problemstellung: Werden zwei Tests auf theoretische Zusammenhänge überprüft,

Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147) TRV 3

Testanwendung Verändertes diagnostisches Schlussfolgern RIS SPM Dichte Testwert SPM DSPM Testwert RIS Rasch Einheiten

Testanwendung Diagnostik von Interventionseffekten: Ein neues Effektmaß in Ergänzung zu Cohen‘s Maße der Effektstärke

Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne Dichte PP-Verteilung von 5 jährigen Kinder

Neue Forschungsfelder Persönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität? DI D II I,

Zusammenfassung 1. Interpretation der wahren Raschskalierten Personenparametervarianzen 2. Methodische Aspekte der Schätzung 3. Nutzen

Thank you for your attention. More Information you can find under: www. psychological-tests. de

A link to a previews presentation on the European Congress of Personality in Jena,

Bekannte Ansätze zur Überprüfung der Inhaltsvalidität: Psychometrische Ansätze 1. 2. 3. . by correlations.

Differences between the approaches Testing of relationsships is a strategy that leads to weak

Influences of BOTTOM-AND-CEILING effects on the TRV Bottom-effect Look for Skewness! Bottom-and-ceiling effect Look

Slides: 61

Download presentation

Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen DPPD-Halle, 2003; Müller, Tübingen

Gliederung 1. Theorie: Variabilität in psychologischen Eigenschaften 2. Daten: Test-Meta-Analyse-Projekt 3. Methode: Aspekte der Schätzung von Raschvarianzen 4. Anwendung: Anwendungsgebiete DPPD, 2003 Halle J. M. Müller 2

1. Personen Variabilität in psychologischen Eigenschaften Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen. Dichte Psychologische Dimension II Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten. DPPD, 2003 Halle J. M. Müller 3

Das Schach-Beispiel (aus Müller, 2002) Schachspieler B 1: 2 A DPPD, 2003 Halle J. M. Müller 1: 2 C 4

Das Schach-Beispiel B A 1: 2 C 1: 2 1: 2 DPPD, 2003 Halle J. M. Müller 5

Transfer zum Rasch Model (Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984; Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen. Person B p(B, b)=. 50 Aufgabe b p(A, b)=. 66 DPPD, 2003 Halle J. M. Müller Person A 6

Interpretation einer Rasch Skalen Einheit Differenz der Lösungswahrscheinlichkeiten DPPD, 2003 Halle J. M. Müller 7

True Rasch Variances als Maß für die Variabilität Konstante Differenz der Lsg-Wahrscheinlichk. Item b mit σ = 0 Item a mit σ = 1 Item c mit σ = 2 DPPD, 2003 Halle J. M. Müller 8

True Rasch Variances als Maß für die Variabilität DPPD, 2003 Halle J. M. Müller 9

2. DATEN: Das TEST-META-ANALYSE-PROJEKT Anzahl psychologischer Dimensionen > 92 Anzahl abgeschlossener IRT-Analysen > 880 Anzahl der Personumfänge 150 < n < 3700 Item-Response-Software Bilog. MG, Parscale, Winmira, Bigsteps SAS-Macros zum Auslesen der Programm-Codes und des Outputs für Bilog. MG, PARSCALE; Winmira und bigsteps DPPD, 2003 Halle J. M. Müller 10

Mein Dank an… Die Testauthoren und Verlage für die Daten: und Studenten für die Analysen: n Paul Barrett EPQ-R English § Tina Fechter n Willibald Ruch EPQ-R German § Magnus Pagendarm n Piotr Brzozowski EPQ-R Polish § Mildred Girndt n Anton Aluja EPQ-R Spanish § Susana Ruiz n Peter Borkenau NEO-FFI n Jochen Fahrenberg FPI-R n Peter Becker TIPI n Stephan Bulheller EPP n SWETS, SCHUHFRIED, HOGREFE § Daniel Kostatinov Foundation ‚Strukturfond der Universität Tübingen‘ Kap. 1415 …und weitere…. DPPD, 2003 Halle J. M. Müller 11

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1. SOFTWARE (Winmira, Parscale, Bilog. MG, Bigsteps) 2. MESSFEHLER 3. IRT-MODEL (1 PL, 2 PL, Partial Credit, Graded, . . . ) 4. MODEL-FIT/ROBUSTHEIT 5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc. ) 6. LINK-FUNKTIONEN (Logit, Normal-Ogive) 7. BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller 12

Interaktionen zwischen den Einflussgrößen SOFTWARE ROBUSTHEIT MESSFEHLER IRT-MODEL-FIT TRV SCHÄTZALGORITHMEN LINK-FUNKTIONEN BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller 13

Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz Liste von IRT-Software: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. A Fortran Program (Fischer & 12. WINSTEPS (Linacre & Wright, Scheiblechner, 1970); 1999); LOGISTIC (Wood, Wingersky & Lord, 1976); 13. BIGSTEPS (Linacre & Wright, 2003); BMD (Dixon & Brown, 1977); 14. WINMIRA (Davier, 1998); ECTA (Goodman & Fay, 1974); 15. BILOG-MG (Zimowski, BICAL (Wright & Mead, 1977); Muraki, Mislevy & Bock, 2003); DICOT (Masters, 1984); 16. PARSCALE (Muraki & Bock, MULTIRA (Carstensen & Rost, 1998); 2003); ICL (Hanson, 2002); 17. QUEST (Adams & Khoo, XCALIBRE (Luecht, Gierl & Ackermann, 2003); 1996) 18. Con. Quest (Wu, Adams & LATENT GOLD (Vermunt & Maqidson, Wilson, 1997) 2000); 19. TESTFACT (Wood, 2003) SAS-Macro (Christensen & Bjorner, 20. J. M. MULTILOG (Thissen, 2003) 15 DPPD, 2003 Halle Müller 2003)

Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz am Beispiel der Parscale- und Bilog. MG-Optionen PARSCALE >CALIB GRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER; >SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER; Auszug aus Parscale 4. 0 Help BILOGMG >CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list); Auszug aus BILOGMG 3. 0 Help DPPD, 2003 Halle J. M. Müller 16

Einfluss der verwendeten Software: Simulationsstudie TRS 0. 25 bis 4. 00 (. 25); N=1000; Items=20 geschätze TRS_est Bigsteps ca. 1 Rasch. Unit Winmira Bilog. MG Parscale Wahre TRS DPPD, 2003 Halle J. M. Müller 17

Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983) Wir fassen eine Schätzung auf als Die empirische Varianz ist dann (2) (1) Wir kennen das Verhältnis. . . (3) Wir korrigieren die ORV zur TRV (4) ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error. DPPD, Rasch Variance 2003 Halle J. M. Müller 19

Die Wahl des Reliabilitätsschätzer ist nicht unerheblich 0. 75. 5 Spearman Korrelation r = 0. 75 s. 0. 25 (N=466) 0. 0 Reliabilitäten der IRTSoftware 1. 0 Zusammenhang zweier Reliabilitätsschätzungen 0. 0 0. 25 . 52003 Halle 0. 75 DPPD, J. M. Müller Cronbachs 1. 0 Alpha 20

Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps (ebenfalls in Bilog. MG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003) Bigsteps Output SUMMARY OF 1500 MEASURED VPNS +------------------------+ | RAW MODEL | | SCORE COUNT MEASURE ERROR | |------------------------| | MEAN 34. 4 58. 8. 29 | ORS. 42 | S. D. 6. 9 3. 7. 55. 02 | | MAX. 53. 0 61. 0 2. 15. 62 | | MIN. 4. 0 13. 0 -1. 74. 28 | |------------------------| | REAL RMSE. 30 ADJ. SD. 46 VPN RELIABILITY. 70 | |MODEL RMSE. 29 ADJ. SD. 46 VPN RELIABILITY. 71 | +------------------------+ TRS DPPD, 2003 Halle J. M. Müller 21

Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0. 976) OPP Raw. S Rasch Varianzen Personen Zufällig Itemreduktion 2. 0 ORV 1. 5 TRV 1. 0 Erwartet 0. 5 Reliabilität 10 20 30 40 Anzahl an. Halle. Items DPPD, 2003 J. M. Müller 50 60 22

Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität Simulationsstudie TRS 0. 25 bis 4. 00 (. 25); N=1000; Items=20 0. 25 0. 75 1. 0 Reliabilität Winmira 0 1 4 9 16 TRV DPPD, 2003 Halle J. M. Müller 23

Konsequenz: Variationsreiche Eigenschaften sind , unter sonst gleichen Bedingungen‘ reliabler am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25) Software Reliabilität N=40, rspear=. 44, sign. 0 0 0. 25 . 5 0. 75 1. 0 Cronbach Reliabilität, N=40, rspear=. 71, sign. 0 1 2 TRV DPPD, 2003 Halle J. M. Müller 24

Ohne Eingrenzung auf Skalen mit ca. 20 Items am Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch 0. 75 . 5 0. 25 0 0 0 Software Reliabilität N=87, r=. 32, sign. 1. 0 Cronbach Reliabilität, N=87, r=. 60, sign. 1 2 3 0 1 2 3 TRV DPPD, 2003 Halle J. M. Müller 25

Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV 2 TRV 1 SE 1, 2 DPPD, 2003 Halle J. M. Müller 26

Erklärung: Variierender Trennschärfen auf das TRV Lösungswahrscheinlichkeit β=1 Konstante Differenz β = 0. 5 q q q B A C DPPD, 2003 Halle J. M. Müller 28

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1. SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) 2. MESSFEHLER 3. IRT-MODEL (1 PL, 2 PL, Partial Credit, Graded, . . . ) 4. MODEL-FIT/ROBUSTHEIT 5. SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc. ) 6. LINK-FUNKTIONEN (Logit, Normal-Ogive) 7. BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller 29

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Mögliche Modelverletzungen: 1. Falsche Modellwahl (z. B. 1 PL statt 2 PL) 2. Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer) 3. Antworttendenzen in Subgruppen (testbar über Mixed. Rasch-Modelle; Rost & Carstensen) 4. Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, Meth. Eval, Wien) 5. Inhomogene Personen (Person-Fit) 6. Inhomogene Items (Item-Fit) DPPD, 2003 Halle J. M. Müller 30

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen Extraversion Neurotizismus Psychotizismus Lügen Deutsch Spanisch Polnisch Englisch DPPD, 2003 Halle J. M. Müller 31

Einfluss von Model-Verletzungen am Q-Index am Beispiel der EPQ-R Extraversion Neurotizismus Psychotizismus Lügen Items Deutsch 9 12 23 8 5 32 6 5 22 102 3 2 12 48 6 13 21 90 12 3 2 12 1 0 12 Polnisch 1 13 23 6 8 14 5 6 32 Englisch 8 11 23 5 6 24 3 0 32 Spanisch 3 3 10 10 25 negativ positiv Q-Index DPPD, 2003 Halle J. M. Müller 4 3 21 100 32

Einfluss von Model-Verletzungen Itemselektion nach Q-Index am Beispiel des EPQ-R Deutsch Extraversion ORV TRV Cronbach-Korrektur TRV Software Korrektur Mittelwert Cronbachs Alpha Software Reliabilität Itemanzahl DPPD, 2003 Halle J. M. Müller 33

Voraussetzungen zur Interpretation von TRV am Beispiel des EPQ-R Deutsch Itemuntergrenze von 10 Extraversion Neurotizismus Lügen Psychotizismus DPPD, 2003 Halle J. M. Müller 34

Voraussetzungen zur Interpretation von TRV Itemuntergrenze von 10 Ex Ne Deutsch Lü Ps Ex Ne Spanisch Englisch Polnisch Lü Ps Lü DPPD, 2003 Halle J. M. Müller Ps 35

Einfluss der Schätzalgorithmen: MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, hestimators, biweight and jackknifed estimators/robustification Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in Con. Quest Simulationsstudien: Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983) DPPD, 2003 Halle J. M. Müller 37

Einfluss der Schätzalgorithmen MLE vs. WML Mean 0. 01 Std Dev 0. 32 DPPD, 2003 Halle J. M. Müller N 131 Pr > |t| 0. 696 38

BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG DPPD, 2003 Halle J. M. Müller 40

BODEN-UND-DECKEN Effekte auf die SCHIEFE DPPD, 2003 Halle J. M. Müller 41

BODEN-UND-DECKEN Effekte auf die KURTOSIS DPPD, 2003 Halle J. M. Müller 42

Die Notwendigkeit eines Standards. . . 1. 2. 3. 4. 5. Der Messfehler = 0 (TRV). Die Link-Funktion ist der Logit. Mindestens 10 Items. Der Schätzalgorithmus über direct Estimation. Die theoretische Verteilung ist normalverteilt? DPPD, 2003 Halle J. M. Müller 43

4. Nutzen für die psychologische Diagnostik 1. Testkonstruktion 2. Testbeschreibung 3. Testanwendung 4. Neue Forschungsfelder DPPD, 2003 Halle J. M. Müller 44

Nutzen für die psychologische Diagnostik Testkonstruktion a) Hohe Variabilität als Voraussetzung reliabler Messung b) Inhaltsvalidität c) Konstruktvalidität DPPD, 2003 Halle J. M. Müller 45

Inhaltsvalidität… … als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools (Fitzpatrick, 1983; Klauer, 1984). Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes DPPD, 2003 Halle J. M. Müller 46

Variationsunterschiede am Beispiel des EPQ-R Deutsch (mit Winmira; vergleichbar mit Bigsteps) 0 1. 0 2. 0 Deutsch Ex Lü Ne Ps Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996) DPPD, 2003 Halle J. M. Müller 47

Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität am Beispiel des EPQ-R(S) Deutsch 0 0 1. 0 2. 0 Spanisch Ex Lü Ne Ex Ps Englisch Lü Ne Ps ? 0 0 1. 0 2. 0 Polnisch Ex Lü Ne Ps Ex Lü DPPD, 2003 Halle J. M. Müller Ne Ps 48

EPQ-R(S) Inhaltsvalidität über Vergleiche der TRV ohne inhomogene Items (Q-Index) (mit Winmira) Spanisch 0 0 1 1 2 2 3 3 Deutsch Ex Lü Ne Ps Polnisch 0 0 1 1 2 2 3 3 Englisch Ex Lü Ne Ps Ex Lü DPPD, 2003 Halle J. M. Müller Ne Ps 49

Konstruktvalidität Überprüfung theoretischer Zusammenhänge zwischen Konstrukten Problemstellung: Werden zwei Tests auf theoretische Zusammenhänge überprüft, so werden hohe korrelative Zusammenhänge erwartet. Es besteht jedoch die Gefahr, dass Item-Überschneidungen (Westmeyer) stattdessen die Inhaltsvalidität prüfen. Da beide Instrumente Verschiedenes messen (sollen), kann dies über unterschiedliche Rasch Varianzen belegt werden (als notwendige, aber nicht hinreichende Voraussetzung von Unterschiedlichkeit). DPPD, 2003 Halle J. M. Müller 50

Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147) TRV 3 RIS 1 2 SPM Reliabilität 0 RIS Reliabilität 0 10 20 30 40 Anzahl an Items DPPD, 2003 Halle J. M. Müller 50 60 51

Testanwendung Verändertes diagnostisches Schlussfolgern RIS SPM Dichte Testwert SPM DSPM Testwert RIS Rasch Einheiten DRIS DPPD, 2003 Halle J. M. Müller 52

Testanwendung Diagnostik von Interventionseffekten: Ein neues Effektmaß in Ergänzung zu Cohen‘s Maße der Effektstärke Standardisierung notwendig Keine Standardisierung notwendig Effektmaß d von Cohen Effektmaß d. R Dichte SPM Zeitpunkt 1 d. RV SPM Zeitpunkt 2 Dichte RIS Zeitpunkt 1 Rasch Einheiten DPPD, 2003 Halle J. M. Müller d. RA RIS Zeitpunkt 2 Rasch Einheiten 53

Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne Dichte PP-Verteilung von 5 jährigen Kinder 6 Jahre 7 Jahre 8 Jahre Wachstum True Rasch Scores Testwert eines Kindes DPPD, 2003 Halle J. M. Müller 54

Neue Forschungsfelder Persönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität? DI D II I, III D III II, III DPPD, 2003 Halle J. M. Müller 55

Zusammenfassung 1. Interpretation der wahren Raschskalierten Personenparametervarianzen 2. Methodische Aspekte der Schätzung 3. Nutzen in der Diagnostik 4. Ausblick DPPD, 2003 Halle J. M. Müller 56

Thank you for your attention. More Information you can find under: www. psychological-tests. de Send me your data! DPPD, 2003 Halle J. M. Müller 57

A link to a previews presentation on the European Congress of Personality in Jena, 2002 DPPD, 2003 Halle J. M. Müller 58

Bekannte Ansätze zur Überprüfung der Inhaltsvalidität: Psychometrische Ansätze 1. 2. 3. . by correlations. . . by structural equivalence. . . by simple descriptives like • Variances in rasch-units DPPD, 2003 Halle J. M. Müller 59

Differences between the approaches Testing of relationsships is a strategy that leads to weak statistical testing (H 1 -hypothesis) Testing of equivalence (deviation ) is a strategy that leads to strong statistical testing (H 0 -hypothesis) DPPD, 2003 Halle J. M. Müller 60

Influences of BOTTOM-AND-CEILING effects on the TRV Bottom-effect Look for Skewness! Bottom-and-ceiling effect Look for Kurtosis! You find a skewness of magnitude 1 You see that this is caused by an cutting-point at 0. 5 A cutting-point at 0. 5 leads to an decreased variability of 70% DPPD, 2003 Halle J. M. Müller 61