Jos Antonio Prez Gil Dpto de Psicologa Experimental

José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de Sevilla. Procedimiento de construcción

Recordando. . . , la Psicometría es una disciplina implicada directamente en la medición

q. Evaluación del instrumento. § Análisis de la calidad de los ítems. § Estudio

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la

El examen de la calidad individual de cada uno de los elementos, ítems o

• Información descriptiva: Validez de los ítems de un tests (sistema de indicadores)

- No hay un coeficiente único que reporte datos sobre la validez de los

-De acuerdo con ello, es necesario dotar a los ítems o indicadores de distintas

-En general, los distintos tipos de validez, no son entidades distintas, sino que son

1. Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de

Osterlind (1989), propuso un índice que permite dar una valoración objetiva para ítem del

• Juicios del grado de adecuación entre cada ítem y el subdominio u

Información descriptiva: validez de los ítems: Emparejamiento de items y objetivo/s o dominio/s Rocio

Juicios razonables a través de ítems e indicadores. n Los juicios sobre la

- - Validez de contenido. (aquí se centra el emparejamiento de ítems y

EL JUICIO DE EXPERTOS. n Consiste en preguntar a personas expertas en el dominio

n Juicios del grado de adecuación entre cada ítem y el subdominio. n

*Emparejamiento de ítems y objetivo/s o dominio/s. A juicio de los jueces. En este

- La taxonomía de Bloom. (explicada en el Tema 3. )

PROTOCOLO: -Test analizado: Teoría Clásica de los test del tema 2 de la asignatura

PROTOCOLO: - Una vez realizado el análisis de items, hemos elaborado una propuesta inicial

Marcas de emparejamiento entre items y dominio (taxonomia de Bloom) Experto: __________________________________ Fecha:

La nota informativa pasada a los jueces constaba de una tabla explicativa en la

RESULTADOS: Tabla de asignación de items a dominios por los diferentes expertos CONOCIMIENTO COMPRENSIÓN

n Después del análisis de los expertos, los datos del primer juicio de los

Discusión: Los cambio más significativo en el Juicio de los expertos han sido en

Mencionar por último como algo significativo n que, u el ítem 4 ha

CONCLUSIÓN: n Sacando los resultados de los expertos y comparándolos con la Propuesta Inicial,

2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de

A titulo de ejemplo, podemos establecer que el concepto de Calidad Universitaria puede contemplarse

Un modo alternativo al planteamiento anterior, supone establecer el concepto de Calidad Universitaria desde

La calidad universitaria es función de indicadores observables que conforman el concepto “calidad”. Decimos

3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del

Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT,

Índice de dificultad (ID) Proporción de sujetos que responden correctamente al ítem. Es un

Índice de dificultad (con corrección del azar) Proporción de sujetos que responden correctamente al

• En general, un ítem en mejor cuanto mayor sea su varianza. •

Yela (1980) recomienda la siguiente distribución de items en el test: Categorías Centíl en

Comportamiento del ID de un ítem por niveles de habilidad de los sujetos

Índice de discriminación José Luis Rodríguez Ruiz José Antonio Pérez-Gil

Definición n El índice de discriminación se define como la correlación entre las puntuaciones

Índice de discriminación clásico (Croker y Algina, 1986) n No está basado en la

n Adopta valores comprendidos entre 1 y – 1. n La capacidad discriminativa del

Pc= Proporción de sujetos competentes en el test que aciertan el ítem. Pi= Proporción

n Ventajas e inconvenientes: u Con ítems de dificultad intermedia el ID es fácil

Tipos de correlaciones n El tipo de correlación varía según las características del ítem

Índice de discriminación basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación

n Cuatro tipos: u Correlación biserial- puntual. u Correlación biserial. u Correlación phi. u

Correlación biserial-puntual (ρbp ) n Para estimar el índice de discriminación cuando los ítems

μp= Medida en el test de los sujetos que aciertan el ítem. μx= Media

n Si se posee la correlación ítem-test sin descontar los efectos del ítem, puede

ρj(x-j)=correlación entre el ítem j y el test tras descontar el ítem (x-j). ρjx=

n Ventajas e inconvenientes: u Selecciona ítems con alta consistencia interna, es decir, serán

Correlación biserial (ρb ) n Se utiliza cuando una de las variables a correlacionar

σx= Desviación típica del test. μx= Media del test. μp= Media en el test

n Ventajas e inconvenientes: u Con índices de dificultad extrema está poco afectado por

Relación entre ρbp y ρb p= Proporción de sujetos que aciertan el ítem q=

Coeficiente phi (Φ) n Se usa si ambas variables (ítem y test) son dicotómicas.

n Ventajas e inconvenientes: u Fácil de calcular. u Restringido cuando las proporciones de

Correlación tetracórica (ρt) n Es útil cuando ambas variables están distribuidas normalmente y están

n Ventajas e inconvenientes: u Es el más utilizado para someter la matriz de

Ejemplo Examen tema 2, item 5. - Para elaborar la teoría clásica de los

Ejemplo Examen tema 2, todos los items ITEM 1 PROP 0. 800 RPBI 0.

Ejemplo Examen tema 2, todos los items ITEM 5 PROP 0. 900 RPBI 0.

Ejemplo Examen tema 2, todos los items ITEM 9 PROP 0. 900 RPBI 0.

Ejemplo Examen tema 2, todos los items ITEM 13 PROP 0. 550 RPBI 0.

Ejemplo Examen tema 2, todos los items ITEM 17 PROP 0. 725 RPBI 0.

Rasultados del test: tema 2, Examaen N PERSONS N ITEMS MEAN VARIANCE SD MINIMUM

Índice de Validez El índice de validez de un items está referido a su

Índice de validez clásico. donde: Ps es la proporción de sujetos del grupo superior

Índice de validez basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección

CALIDAD DE LOS ÍTEMS. ANÁLISIS DE DIITRACTORES. TABLAS DE FRECUENCIAS. José Álvaro Genero Picazo

1 - Análisis de la calidad métrica de los ítems 1 - Análisis de

1 -Análisis de la calidad métrica de los ítems. - La evaluación de la

2 -Análisis de distractores. a)¿Qué es un distractor? Se denominan distractores a las distintas

2 -Análisis de distractores. b) ¿En qué consiste el análisis de distractores? - En

2 -Análisis de distractores c) Condiciones para que un distractor sea eficaz 1. Son

2 -Análisis de distractores 3. Que el rendimiento medio en el test de los

2 -Análisis de distractores 4. Que discriminen entre los sujetos de media, baja y

2 -Análisis de distractores d) Tablas de frecuencias - Son ordenaciones en forma de

2 -Análisis de distractores A B C D E Nivel de superior 65 11

2 -Análisis de distractores En la tabla… - B no es un buen distractor

Bibliografía n n n María Isabel Barbero García; Enrique Vila Abad; Juan Carlos Suárez

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -El análisis de la calidad métrica del

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -No basta con la evaluación global de

INFORMACIÓN DESCRIPTIVA: -Hace referencia a la calidad técnica de los elementos. -Osterling (1989) recomienda

INFORMACIÓN ESTADÍSTICA: -Supone la estimación de parámetros para cada ítem, el análisis de distractores

INFORMACIÓN ESTADÍSTICA: +Parámetros para cada ítem: dificultad, discriminación, pseudoadivinación, homogeneidad, información y validez. +Análisis

ANÁLISIS DE DISTRACTORES: -Los distractores o alternativas incorrectas influyen en la calidad del ítem.

ANÁLISIS DE DISTRACTORES: -Si un distractor es seleccionado con frecuencia: +Ítem mal redactado o

ANÁLISIS DE DISTRACTORES: -¿Cómo se analizan? Haladyna (1994) propone tres vías para su análisis:

EL ÍNDICE DE HOMOGENEIDAD: -Nos informa del grado en que el ítem está midiendo

ÍNDICE DE HOMOGENEIDAD: +Mide el grado de consistencia interna que presentan los elementos internos

OBJETIVOS DEL ÍNDICE DE HOMOGENEIDAD: -Retener o no cada uno de los ítems distractores

CÁLCULO: -A través del coeficiente de correlación biserial puntual(Rbp): Se utiliza para conocer si

CÁLCULO: +Donde: μp: media en el test de los sujetos que aciertan el ítem.

CÁLCULO: +Indican la correlación entre acertar y la puntuación del resto del examen: -si

CÁLCULO: Examen tema 2, todos los items, ejemplo de los distractores DATOS: ITEM 1

CÁLCULO: ejemplo de los distractores del examen 2. n Ítems: Atendiendo a los valores

• Sesgo o Funcionamiento Diferencial de los ítems (FDI): examen del posible funcionamiento

En resumen, los principales criterios de bondad de una prueba y subsecuentemente de un

Slides: 123

Download presentation

José Antonio Pérez Gil Dpto. de Psicología Experimental. Universidad de Sevilla. Procedimiento de construcción de un instrumento de medida. Análisis de ítems IV

Recordando. . . , la Psicometría es una disciplina implicada directamente en la medición psicológica, con una doble vertiente: · teórica: supone la fundamentación teórica de la medida. · aplicada: supone la construcción, evaluación y aplicación de instrumentos de medida para evaluar o medir las características psicológicas de interés.

q. Evaluación del instrumento. § Análisis de la calidad de los ítems. § Estudio de la fiabilidad del instrumento § Estudio de la validez del instrumento.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La fase de evaluación del instrumento de medida es absolutamente crucial ya que todas las medidas obtenidas al aplicar una prueba contienen error y por tanto se hace necesario la evaluación de la calidad de los instrumentos de medida, es decir, determinar si éstos cumplen o no los criterios métricos de calidad que todo instrumento de medida debe de satisfacer para poder ser utilizado con garantía como un instrumento científico.

FASE DE EVALUACIÓN DE UN INSTRUMENTO DE MEDIDA La calidad de los ítems, la fiabilidad y la validez son las características fundamentales de un buen instrumento de medida; son propiedades exigibles a un buen test y, por lo tanto, criterios a tener en cuenta para evaluarlos con criterios de calidad. Esto supone que habrá que proceder al análisis de los items del mismo y estudiar la fiabilidad y validez del instrumento.

Análisis de los ítems

El examen de la calidad individual de cada uno de los elementos, ítems o indicadores que componen un instrumento de medida implica la obtención de información descriptiva y estadística. • Información descriptiva: hace e referencia a la calidad técnica de sus elementos y en general supone la obtención de evidencias de validez de los mismos, es decir, obtención de indicios sobre su relevancia, adecuación, claridad, etc. • Información estadística: supone la estimación de una serie de parámetros para cada ítem, el análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple- y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

• Información descriptiva: Validez de los ítems de un tests (sistema de indicadores) Objetivo: Establecer juicios razonables sobre el grado en que las evidencias aportadas permiten emprender acciones basadas en el modelo de medida desarrollado, en este caso, a través de los ítems o indicadores (Messick, 1989). No cabe plantear si el sistema de ítems o indicadores es válido en sí mismo independientemente del objetivo de la investigación o del contexto, sino que su validez está en relación con los objetivos a medir.

- No hay un coeficiente único que reporte datos sobre la validez de los ítems o sistema de indicadores, sino que los datos para establecer juicios sobre su validez vienen dados por: 1. Los resultados de combinar distintas técnicas. 2. Por evidencias empíricas basadas en experiencias anteriores. 3. La utilidad que muestren para el modelo de medida propuesto

-De acuerdo con ello, es necesario dotar a los ítems o indicadores de distintas evidencias de validez, en concreto: 1. Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. 2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. 3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990).

-En general, los distintos tipos de validez, no son entidades distintas, sino que son el resultado de distintas aproximaciones al concepto de validez de los indicadores o ítems en nuestro caso. Útil para nuestros propósitos Se corresponda con el modelo teórico referente Los ítems o el sistema de indicadores es coherente con investigaciones previas Modelo de medida a partir del cual programar acciones en el campo aplicado, en nuestro caso, de la psicología.

1. Validez de contenido: Garantizar que los indicadores seleccionados constituyan una muestra representativa de todos los posibles indicadores. El juicio de expertos, como procedimiento, permite obtener evidencias de validez de contenido para cada uno de los items del instrumento y por tanto, del propio instrumento de medida globalmente. Para contrastar la calidad técnica de los items, Osterlind (1989), recomienda dos procedimientos. • Juicios del grado de adecuación entre cada ítem y el subdominio u objetivo que pretende medir el ítem. • Emparejamiento de items y objetivo/s o dominio/s, a juicio de los jueces. Mª del Rocío Navarro Vaca

Osterlind (1989), propuso un índice que permite dar una valoración objetiva para ítem del test: Indice de Osterlind. Definir el concepto de modo claro y preciso Pedir una valoración a expertos en el campo de aplicación que miden los indicadores

• Juicios del grado de adecuación entre cada ítem y el subdominio u objetivo que pretende medir el ítem. Nombre_________________________________ Instrucciones: Primero lea el objetivo número 1. Después, lea el primer ítem en el cuadernillo del test. Considere cuidadosamente el grado de congruencia de este ítem con el dominio de habilidad. Evalúe la congruencia según las siguientes categorías: A = Alto grado de congruencia M = Grado medio de congruencia B = Bajo grado de congruencia Si Vd. Quiere hacer algún comentario sobre la congruencia de ese ítem regístrelo en el lugar reservado para ello. Después de que haya terminado con el primer ítem, proceda con el segundo ítem, e igualmente con todos los items siguientes, evaluándolos de igual forma. Objetivo Nº 1 Descripción del contenido sustantivo del objetivo n° 1. Evaluación Comentario Ítem Nº 1 _______________________________ Ítem Nº 3 _______________________________ Ítem Nº 7 _______________________________ Ítem Nº 9 _______________________________ Ítem Nº 10 _______________________________ Objetivo Nº 2 Descripción del contenido sustantivo del objetivo n° 2. Evaluación Comentario Ítem Nº 2 _______________________________ Ítem Nº 4 _______________________________ Ítem Nº 5 _______________________________ Ítem Nº 6 _______________________________ Ítem Nº 8 _______________________________ Ítem Nº 11 _______________________________

Información descriptiva: validez de los ítems: Emparejamiento de items y objetivo/s o dominio/s Rocio Navarro- Jose A Pérez-Gil

Juicios razonables a través de ítems e indicadores. n Los juicios sobre la validez van a estar determinadas por: los resultados, evidencias empíricas, utilidad n Nos vamos a encontrar con 3 tipos diferentes de validez: n

- - Validez de contenido. (aquí se centra el emparejamiento de ítems y objetivos/ o dominio/s) Validez de constructo. Validez de criterio.

EL JUICIO DE EXPERTOS. n Consiste en preguntar a personas expertas en el dominio que miden los ítems, sobre su grado de adecuación a un criterio determinado y previamente establecido en los pasos anteriores. Para ello tenemos dos procedimientos. (Osterlind, 1989)

n Juicios del grado de adecuación entre cada ítem y el subdominio. n Emparejamiento de ítems y objetivos/s o dominio/s.

*Emparejamiento de ítems y objetivo/s o dominio/s. A juicio de los jueces. En este procedimiento se oculta a los jueces el emparejamiento objetivo-ítem para comprobar si, dicho emparejamiento, es tan evidente que una persona experta lo pueda descubrir. En este caso se puede utilizar la proporción de aciertos como índice de congruencia.

- La taxonomía de Bloom. (explicada en el Tema 3. )

PROTOCOLO: -Test analizado: Teoría Clásica de los test del tema 2 de la asignatura de Psicometría, de la Facultad de Sevilla, Curso 2008/09. n El análisis inicial muestra los ítems solamente dentro de tres dominios: -Conocimiento: 1, 6, 7 -Comprensión: 2, 4, 8, 10, 11, 12, 13, 14, 17, 18, 19, 20 -Aplicación: 3, 5, 9, 15, 16

PROTOCOLO: - Una vez realizado el análisis de items, hemos elaborado una propuesta inicial de taxonomia basada en los criterios de Bloom (dominios de aprendizaje), - Con posterioridad hemos convocado a 12 expertos en un aula de la Facultad de Psicología. - Una vez en el aula, se les explico la situación, dándoles todas las instrucciones acerca de la tarea a realizar y se les facilitó un documento formativo sobre los dominios, por si en algún momento del análisis les causara dudas o no pudieran recordar la información recibida previamente.

Marcas de emparejamiento entre items y dominio (taxonomia de Bloom) Experto: __________________________________ Fecha: / / ÁREA de contenido: ____________________________ Primero lea detenidamente toda la lista de los dominios que se os ha dado como nota informativa, esta nota informativa se os dejará a vuestro alcance por si a lo largo del test quedara duda alguna. Seguidamente y con la ayuda de la nota formativa si lo necesitáis, debéis de ir emparejando cada ítems a uno de los dominios expresados. Dominio 1 2 3 4 6 Emparejamiento de items del test (numero del ítems). Items no emparejados: ____________________________________ From R. K. Hambleton "Validating the test scores" (p. 225) in R. A. Berk (ed), A Guide to Criterion. Referenced Test Construction, 1984, Baltimore: The Johns Hopkins University Press

La nota informativa pasada a los jueces constaba de una tabla explicativa en la que cada dominio iba comentado y acompañado de pequeños ejemplos o palabras guías. En la tabla siguiente se presenta una descripción parcial de la misma: CONOCIMIENTO RECOGER INFORMACIÓN Descripción: Observación y Las recordación de habilidades información; que se deben conocimiento de demostrar en fechas, eventos, este nivel son: lugares; conocimiento de las ideas principales; dominio de la materia COMPRENSIÓN Confirmación Aplicación APLICACIÓN Hacer uso del Conocimiento ANÁLISIS SINTETIZAR (orden Superior) (Orden superior) pidir, Desglosar Reunir, Incorporar Entender la Hacer uso de la Encontrar información; patrones; captar el utilizar métodos, organizar las significado; conceptos, partes; trasladar el teorías, en reconocer conocimiento a situaciones significados nuevos contextos; nuevas; ocultos; interpretar solucionar identificar hechos; comparar, problemas componentes contrastar; usando ordenar, agrupar; habilidades o inferir las causas conocimientos predecir las consecuencias Utilizar ideas viejas para crear otras nuevas; generalizar a partir de datos suministrados; relacionar conocimiento de áreas persas; predecir conclusiones derivadas EVALUAR (Orden Superior) Juzgar el resultado Comparar y discriminar entre ideas; dar valor a la presentación de teorías; escoger basándose en argumentos razonados; verificar el valor de la evidencia; reconocer la subjetividad

RESULTADOS: Tabla de asignación de items a dominios por los diferentes expertos CONOCIMIENTO COMPRENSIÓN EXPERT 1 1, 2, 3, 4, 5, 6, 7, 8 10. 11. 12. 13. 14. 17. 18. 19. 20 EXPERT 2 1, 4, 6, 7, EXPERT 3 APLICACIÓN ANÁLISIS SÍNTESIS EVALUAR 9. 15. 16 2, 3, 8, 9, 10, 11, 12, 13, 14, 16, 17, 18, 19, 5, 15, 20 3, 7, 1, 2, 4, 6, 8, 10, 11, 12, 13, 14, 18, 19, 20 5, 9, 15, 16, 17 EXPERT 4 1, 2, 7, 3, 4, 5, 6, 8, 9, 11, 12, 13, 14, 18, 19, 20 10, 15, 16, 17 EXPERT 5 1, 3, 6, 7 2. 4. 10. 11. 12. 13. 14. 18. 19. 20 5. 8. 9. 15. 16. 17 EXPERT 6 5, 6, 7, 1. 2. 4. 8. 10. 11. 12. 13. 14. 17. 18. 19. 3. 9. 15. 16 EXPERT 7 1, 4, 6, 7 2. 5. 8. 10. 11. 12. 13. 14. 16. 17. 18. 19. 20 3. 9. 15. EXPERT 8 1, 3, 4, 6, 7 2. 5. 8. 10. 11. 12. 13. 14. 17. 18. 19. 20 9. 15. 16 EXPERT 9 1, 2, 3, 4, 5, 6, 7 8. 11. 12. 13. 14. 17. 18. 19. 20 9. 10. 15. 16 EXPERT 10 1, 6, 7 2. 3. 4. 5. 8. 9. 10. 11. 12. 13. 14. 17. 18. 19. 20 15. 16 EXPERT 11 1, 4, 6, 7 2. 5. 8. 9. 10. 11. 12. 13. 14. 17. 18. 19. 20 3. 15. 16 EXPERT 12 1, 6, 7 2. 3. 4. 5. 8. 10. 11. 12. 13. 14. 17. 18. 19. 9. 15. 16. 20

n Después del análisis de los expertos, los datos del primer juicio de los dominios que se realizó, es el siguiente: 1 2 3 4 5 6 7 8 CONOCIMIENTO 84 25 42 50 25 84 100 8 COMPRENSION 16 75 33 50 42 16 APLICACIÓN ANALISIS SINTESIS EVALUAR. 9 10 11 12 13 14 15 16 17 18 19 20 84 33 84 100 100 16 75 100 76 8 67 16 100 84 25 16 25 33 Elecciones % CONOCIMIENTO 50 20. 80 COMPRENSION 145 60. 40 APLICACIÓN 44 18. 40 ANALISIS SINTESIS EVALUAR. 1 0. 40 240 100 Total 8

n Después del análisis de los expertos, los datos del primer juicio de los dominios que se realizó, es el siguiente: 1 2 3 4 5 6 7 8 CONOCIMIENTO 84 25 42 50 25 84 100 8 COMPRENSION 16 75 33 50 42 16 9 10 11 12 13 14 15 16 17 18 19 20 Expertos APLICACIÓN 25 25 84 33 84 100 100 8 67 16 92 16 75 100 75 84 25 16 EVALUAR 8 P. Inicial CONOCIMIENTO X X COMPRENSION X X X X X X APLICACIÓN X X X EVALUAR Desacuerdo s Propuesta Inicial - Expertos Desacuerdo entre Expertos EXPERTOS P. i. NICIAL Elecciones % CONOCIMIENTO 50 20. 80 3 15. 00 COMPRENSION 145 60. 40 12 60, 00 APLICACIÓN 44 18. 40 5 25. 00 EVALUAR. 1 0. 40 - - 240 100 20 Total X

Discusión: Los cambio más significativo en el Juicio de los expertos han sido en los primeros items del test con las preguntas más teóricas ya que algunos expertos las han calificado como “conocimiento” en vez de “comprensión” o “aplicación”. En la mayoría de las preguntas de expertos los dominios son de comprensión al igual que en la propuesta inicial. Y solo en uno de los expertos decir que el ítem 20 lo ha clasificado como análisis.

Mencionar por último como algo significativo n que, u el ítem 4 ha sido valorados por los expertos tanto en la dimensión de conocimiento como en la de comprensión, a partes iguales, (50%) u el ítem 3 mientras en la valoración inicial fue clasificado dentro del dominio aplicación, en su mayoría los jueces lo aplican en el dominio de conocimiento. u el ítem 5 mientras en la valoración inicial fue clasificado dentro del dominio aplicación, en su mayoría los jueces lo aplican en el dominio de comprensión.

CONCLUSIÓN: n Sacando los resultados de los expertos y comparándolos con la Propuesta Inicial, puede decirse que el grado de congruencia en este test es elevado, ya que la valoración de los jueves se asemeja en un alto grado a la valoración inicial.

2. Validez de constructo: Garantizar la existencia del constructo que conforma el conjunto de indicadores que pretenden medirlo y por ende dota de sentido a las puntuaciones que se obtienen con los indicadores. Para contrastar la calidad técnica de los items, en cuanto a su validez de constructo suele recurirse al estudios del modelo de medida desde la técnica del Análisis Factorial (Exploratorio y Confirmatorio) En general, el Análisis Factorial (AF) como modelo de medida asume que los factores son causas efectivas de los indicadores, que son vistos como efectos de los mismos. Los indicadores o ítems son efectos (manifestaciones) de las variables latentes o conceptos psicológicos no observables.

A titulo de ejemplo, podemos establecer que el concepto de Calidad Universitaria puede contemplarse desde un modelo de medida en el que Enseñanza, Investigación y Gestión son dimensiones (factores) más específicas del mismo y se asume que estos factores son causas efectivas de distintos indicadores o ítems, que son vistos como efectos de los mismos, es decir, los indicadores son manifestaciones empíricas que permiten medir dichas variables latentes.

Un modo alternativo al planteamiento anterior, supone establecer el concepto de Calidad Universitaria desde un modelo en el que Enseñanza, Investigación y Gestión son dimensiones específicas (factores) que afectan o modulan a dicho concepto general y se asume que estos factores, a su vez, son modulados por distintos indicadores o ítems, que son considerados como causas efectivas de los mismos, es decir, supone definir a los constructos como funciones lineales de los indicadores más una parte de error. Los factores pueden ser asumidos como variables compuestas por variables observadas, expresadas como combinaciones lineales de éstas (Mc. Callum y Browne, 1993).

La calidad universitaria es función de indicadores observables que conforman el concepto “calidad”. Decimos que la calidad será mejor o peor en función de los valores de los indicadores , y no que es la calidad universitaria la que provoca cambios en los indicadores.

3. Validez de criterio: Conjunto de evidencias que permiten demostrar que las puntuaciones del sistema de indicadores están relacionadas con un criterio externo de interés (Suen, 1990). Para contrastar la calidad técnica de los items desde la perspectiva de validez de criterio, se suelen utilizar procedimientos que implican evaluar el poder predictivo del instrumento globalmente. En este sentido nos remitimos al concepto de validez del instrumento que analizaremos en apartados subsiguientes.

Información estadística: Estimación de parámetros para cada ítem. Dentro del marco de la TCT, los parámetros de los items que se suelen estimar son el índice de dificultad, discriminación y validez, si bien según sea el marco teórico que se adopte TCT, TRI o medición referida al criterio (MRC)- se valoran otros índices (homogeneidad, información, pseudoadivinación. . . ). Algunos de ellos serán definidos e interpretados/valorados de distinto modo según el marco téorico. La mayor parte de los textos de psicometría presentan algún capítulo dedicado a estas cuestiones (véase, por ejemplo, Crocker y Algina, 1986; Martínez Arias, 1995; Muñiz, 1992/98 o Santisteban, 1990).

Índice de dificultad (ID) Proporción de sujetos que responden correctamente al ítem. Es un índice descriptivo de la distribución de respuestas y/o puntuaciones del ítem: donde: A: Número de sujetos que aciertan el ítem. N: Número de sujetos que han intentado resolver el ítem.

Índice de dificultad (con corrección del azar) Proporción de sujetos que responden correctamente al ítem corrigiendo las posibles aciertos por azar: donde: A: Número de sujetos que aciertan el ítem. E: Número de sujetos que han fallado el ítem. n: Número de alternativas de respuestas del ítem. N: Número de sujetos que han intentado resolver el ítem.

• En general, un ítem en mejor cuanto mayor sea su varianza. • Los mejores items son los que tienen un índice de dificultad de 0. 5, porque optimizan la variabilidad del ítem. • Por lo que respecta al test en su conjunto, para que discrimine adecuadamente entre los niveles de habilidad de todos los sujetos se han propuesto criterios para incluir proporcionalmente ítems, con diferentes valores en sus ID, en el tests. • Osterlind recomienda, en tests de rendimiento, índices de dificultad que oscilen entre 0. 4 y 0. 8.

Yela (1980) recomienda la siguiente distribución de items en el test: Categorías Centíl en el constructo % Aproximado Índices de Dificultad Muy fáciles 0 - 10 10% Fáciles 10 – 30 20% Normales 30 - 70 40% Difíciles 70 - 90 20% Muy difíciles 90 – 100 10% 0. 75 a 0. 95 0. 55 a 0. 74 0. 45 a 0. 54 0. 25 a 0. 44 0. 05 a 0. 24 En este mismo sentido, Garret (1968) propone: Categorías Centíl en el constructo % Aproximado Índices de Dificultad. Fáciles 0 - 25 25% Medios 25 - 75 50% Difíciles 75 – 100 25% 0. 75 a 0. 95 0. 26 a 0. 74 0. 05 a 0. 25

Comportamiento del ID de un ítem por niveles de habilidad de los sujetos

Índice de discriminación José Luis Rodríguez Ruiz José Antonio Pérez-Gil

Definición n El índice de discriminación se define como la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en el test. (Muñiz, 1998, p. 219) n Su utilidad está en diferenciar sujetos con puntuaciones altas y bajas en un test. n También puede estimarse sin basarse en la correlación ítem -test (Índice de discriminación clásico).

Índice de discriminación clásico (Croker y Algina, 1986) n No está basado en la correlación ítem-test. n Se trata de la diferencia entre la proporción de sujetos competentes que aciertan el ítem y la proporción de sujetos incompetentes que aciertan el ítem. n Se entiende por competentes los que puntúan, en el test, por encima de la mediana, e incompetentes los que puntúan por debajo.

n Adopta valores comprendidos entre 1 y – 1. n La capacidad discriminativa del ítem aumenta a medida que d (índice de discriminación) se aleja de 0. n 1 y – 1 = discriminación perfecta, pero hay que tener en cuenta la interpretación de los resultados. n Las puntuaciones negativas indican que los acertantes en el ítem obtienen peores puntuaciones en el resto de la prueba.

Pc= Proporción de sujetos competentes en el test que aciertan el ítem. Pi= Proporción de sujetos incompetentes en el test que aciertan el ítem.

n Ventajas e inconvenientes: u Con ítems de dificultad intermedia el ID es fácil de calcular e interpretar. u Se ve muy afectado con ítems con índices de dificultad extremos.

Tipos de correlaciones n El tipo de correlación varía según las características del ítem y del test. n Por lo general, se obtienen por la aplicación de los principios de la correlación de Pearson.

Índice de discriminación basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (rxy)

n Cuatro tipos: u Correlación biserial- puntual. u Correlación biserial. u Correlación phi. u Correlación tetracórica.

Correlación biserial-puntual (ρbp ) n Para estimar el índice de discriminación cuando los ítems son dicotómicos y el test una medida cuantitativa discreta. n Es necesario descontar el ítem cuyo índice de discriminación se pretende hallar. n Indica el grado de relación entre puntuar alto en el examen y acertar el ítem.

μp= Medida en el test de los sujetos que aciertan el ítem. μx= Media del test. σx= Desviación típica del test. p= Proporción de sujetos que aciertan el ítem. q= (1 -p)

n Si se posee la correlación ítem-test sin descontar los efectos del ítem, puede corregirse mediante la siguiente fórmula para obtener la correlación sin el valor del ítem:

ρj(x-j)=correlación entre el ítem j y el test tras descontar el ítem (x-j). ρjx= Medida en el test de los sujetos que aciertan el ítem. σj= Desviación típica del ítem. σx= Desviación típica del test.

n Ventajas e inconvenientes: u Selecciona ítems con alta consistencia interna, es decir, serán similares en diferentes muestras de la población. u Requiere que los ítems sean dicotómicos.

Correlación biserial (ρb ) n Se utiliza cuando una de las variables a correlacionar no es dicotómica pero se dicotomiza y se asume que bajo esa dicotomización existe una variable continua que se distribuye según la curva normal. n Determina el grado en que lo medido por el test también lo mide el ítem. n Se trata de una estimación de la correlacion de Pearson, donde pueden obtenerse valores mayores que 1.

σx= Desviación típica del test. μx= Media del test. μp= Media en el test de los sujetos que aciertan el ítem. p= Proporción de sujetos que aciertan el ítem. y= Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a p.

n Ventajas e inconvenientes: u Con índices de dificultad extrema está poco afectado por ID y la fluctuación muestral. u Exige que ambas distribuciones sean normales.

Relación entre ρbp y ρb p= Proporción de sujetos que aciertan el ítem q= (1 -p). . y= Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a p.

Coeficiente phi (Φ) n Se usa si ambas variables (ítem y test) son dicotómicas. n Resulta ser una mera aplicación del coeficiente de correlación de Pearson.

Test Item 0 1 1 a b 0 c d a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un test dicotómico. Equivalencia entre y 2

n Ventajas e inconvenientes: u Fácil de calcular. u Restringido cuando las proporciones de dicotomizaciones no son iguales.

Correlación tetracórica (ρt) n Es útil cuando ambas variables están distribuidas normalmente y están dicotomizadas.

Test Item 0 1 1 a b 0 c d a, b, c y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un test dicotómico, asumiendo distribuciones normales.

n Ventajas e inconvenientes: u Es el más utilizado para someter la matriz de correlaciones a un análisis factorial.

Ejemplo Examen tema 2, item 5. - Para elaborar la teoría clásica de los test, Spearman asumió que: (Señale la opción correcta) 1. La puntuación empirica de un sujeto en un test (X) es suceptible de descomponer en dos partes: por un lado la puntuación verdadera (V) y por otro lado el error aleatorio de medida (e) 2. La puntuación verdadera de un sujeto en un test (V) es suceptible de descomponer en dos partes: por un lado la puntuación empírica (X) y por otro lado el error aleatorio de medida (e) 3. La puntuación empirica de un sujeto en un test (X) es suceptible de descomponer en dos partes: por un lado la puntuación verdadera (V) y por otro lado el error sistemático de medida (e)

Ejemplo Examen tema 2, item 5

Ejemplo Examen tema 2, todos los items ITEM 1 PROP 0. 800 RPBI 0. 686 RBIS 0. 979 RES 1+ 2 3 O U I PROP 0. 800 0. 075 0. 050 0. 075 0. 000 RPBI 0. 686 -0. 103 -0. 229 -0. 752 0. 000 RBIS 0. 979 -0. 191 -0. 484 -1. 000 0. 000 ITEM 2 PROP 0. 825 RPBI 0. 686 RBIS 1. 000 RES 1 2+ 3 O U I PROP 0. 000 0. 825 0. 075 0. 100 0. 000 RPBI 0. 000 0. 686 0. 005 -0. 880 0. 000 RBIS 0. 000 1. 000 0. 009 -1. 000 0. 000 ITEM 3 PROP 0. 825 RPBI 0. 744 RBIS 1. 000 RES 1 2 3+ O U I PROP 0. 038 0. 025 0. 825 0. 112 0. 000 RPBI -0. 101 0. 028 0. 744 -0. 856 0. 000 RBIS -0. 235 0. 074 1. 000 -1. 000 0. 000 ITEM 4 PROP 0. 887 RPBI 0. 824 RBIS 1. 000 RES 1+ 2 3 O U I PROP 0. 887 0. 000 0. 112 0. 000 RPBI 0. 824 0. 000 -0. 842 0. 000 RBIS 1. 000 0. 000 -1. 000 0. 000

Ejemplo Examen tema 2, todos los items ITEM 5 PROP 0. 900 RPBI 0. 867 RBIS 1. 000 RES 1+ 2 3 O U I PROP 0. 900 0. 000 0. 100 0. 000 RPBI 0. 867 0. 000 -0. 880 0. 000 RBIS 1. 000 0. 000 -1. 000 0. 000 ITEM 6 PROP 0. 800 RPBI 0. 625 RBIS 0. 892 RES 1+ 2 3 O U I PROP 0. 800 0. 013 0. 075 0. 112 0. 000 RPBI 0. 625 -0. 002 0. 048 -0. 842 0. 000 RBIS 0. 892 -0. 007 0. 089 -1. 000 0. 000 ITEM 7 PROP 0. 775 RPBI 0. 672 RBIS 0. 936 RES 1 2 3+ O U I PROP 0. 038 0. 050 0. 775 0. 138 0. 000 RPBI 0. 069 -0. 112 0. 672 -0. 797 0. 000 RBIS 0. 161 -0. 238 0. 936 -1. 000 0. 000 ITEM 8 PROP 0. 863 RPBI 0. 801 RBIS 1. 000 RES 1 2 3+ O U I PROP 0. 000 0. 038 0. 863 0. 100 0. 000 RPBI 0. 000 -0. 075 0. 801 -0. 880 0. 000 RBIS 0. 000 -0. 174 1. 000 -1. 000 0. 000

Ejemplo Examen tema 2, todos los items ITEM 9 PROP 0. 900 RPBI 0. 867 RBIS 1. 000 RES 1 2+ 3 O U I PROP 0. 000 0. 900 0. 000 0. 100 0. 000 RPBI 0. 000 0. 867 0. 000 -0. 880 0. 000 RBIS 0. 000 1. 000 0. 000 -1. 000 0. 000 ITEM 10 PROP 0. 687 RPBI 0. 622 RBIS 0. 815 RES 1+ 2 3 O U I PROP 0. 687 0. 100 0. 038 0. 175 0. 000 RPBI 0. 622 0. 065 -0. 032 -0. 808 0. 000 RBIS 0. 815 0. 111 -0. 076 -1. 000 0. 000 ITEM 11 PROP 0. 437 RPBI 0. 336 RBIS 0. 423 RES 1 2+ 3 O U I PROP 0. 025 0. 437 0. 350 0. 187 0. 000 RPBI 0. 030 0. 336 0. 159 -0. 650 0. 000 RBIS 0. 081 0. 423 0. 204 -0. 942 0. 000 ITEM 12 PROP 0. 425 RPBI 0. 444 RBIS 0. 560 RES 1 2+ 3 O U I PROP 0. 338 0. 425 0. 000 0. 237 0. 000 RPBI 0. 113 0. 444 0. 000 -0. 656 0. 000 RBIS 0. 147 0. 560 0. 000 -0. 904 0. 000

Ejemplo Examen tema 2, todos los items ITEM 13 PROP 0. 550 RPBI 0. 498 RBIS 0. 626 RES 1+ 2 3 O U I PROP 0. 550 0. 187 0. 013 0. 250 0. 000 RPBI 0. 498 0. 183 -0. 007 -0. 757 0. 000 RBIS 0. 626 0. 265 -0. 025 -1. 000 0. 000 ITEM 14 PROP 0. 837 RPBI 0. 771 RBIS 1. 000 RES 1 2+ 3 O U I PROP 0. 013 0. 837 0. 000 0. 150 0. 000 RPBI 0. 020 0. 771 0. 000 -0. 824 0. 000 RBIS 0. 068 1. 000 0. 000 -1. 000 0. 000 ITEM 15 PROP 0. 600 RPBI 0. 511 RBIS 0. 647 RES 1 2+ 3 O U I PROP 0. 013 0. 600 0. 125 0. 262 0. 000 RPBI 0. 098 0. 511 0. 084 -0. 689 0. 000 RBIS 0. 338 0. 647 0. 136 -0. 930 0. 000 ITEM 16 PROP 0. 788 RPBI 0. 708 RBIS 0. 998 RES 1+ 2 3 O U I PROP 0. 788 0. 038 0. 000 0. 175 0. 000 RPBI 0. 708 0. 000 -0. 791 0. 000 RBIS 0. 998 0. 019 0. 000 -1. 000 0. 000

Ejemplo Examen tema 2, todos los items ITEM 17 PROP 0. 725 RPBI 0. 677 RBIS 0. 905 RES 1+ 2 3 O U I PROP 0. 725 0. 000 0. 138 0. 000 RPBI 0. 677 0. 000 -0. 108 -0. 778 0. 000 RBIS 0. 905 0. 000 -0. 170 -1. 000 0. 000 ITEM 18 PROP 0. 875 RPBI 0. 782 RBIS 1. 000 RES 1 2+ 3 O U I PROP 0. 000 0. 875 0. 000 0. 125 0. 000 RPBI 0. 000 0. 782 0. 000 -0. 804 0. 000 RBIS 0. 000 1. 000 0. 000 -1. 000 0. 000 ITEM 19 PROP 0. 762 RPBI 0. 726 RBIS 0. 999 RES 1+ 2 3 O U I PROP 0. 762 0. 025 0. 000 0. 213 0. 000 RPBI 0. 726 0. 086 0. 000 -0. 814 0. 000 RBIS 0. 999 0. 230 0. 000 -1. 000 0. 000 ITEM 20 PROP 0. 637 RPBI 0. 581 RBIS 0. 745 RES 1 2+ 3 O U I PROP 0. 000 0. 637 0. 125 0. 237 0. 000 RPBI 0. 000 0. 581 0. 123 -0. 776 0. 000 RBIS 0. 000 0. 745 0. 197 -1. 000 0. 000

Rasultados del test: tema 2, Examaen N PERSONS N ITEMS MEAN VARIANCE SD MINIMUM MAXIMUM ALPHA SEM MEAN P MEAN RPBI MEAN RBIS 80 20 14. 90000 31. 84001 5. 64269 0. 00000 20. 00000 0. 94027 1. 37907 0. 74500 0. 67141 0. 87632

Índice de Validez El índice de validez de un items está referido a su correlación con un criterio externo al propio test. Como ocurre con el índice de discriminación su calculo dependerá de la naturaleza de las variables con las que se correlacione el ítem, es decir, las distintas fórmulas de correlación reseñadas en el índice de discriminación pueden ser utilizadas para el cálculo del índice de validez. Su cálculo es idéntico, si bien ahora no existe el problema adicional de que el ítem esté incluido en el criterio como podía ocurrir en el caso del índice de discriminación.

Índice de validez clásico. donde: Ps es la proporción de sujetos del grupo superior en el criterio que responden correctamente al ítem. y Pi es la proporción de sujetos del grupo inferior en el criterio que responden correctamente al ítem.

Índice de validez basado en el coeficiente de correlación de Pearson. Coeficiente de Correlación producto-momento de Pearson (rxy)

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial puntual (rbp) donde: µp: Media en el criterio de los sujetos que han acertado el ítem µy: Media del criterio y: Desviación típica del criterio p: Proporción de sujetos que aciertan el ítem q: 1 -p

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación biserial (rb) donde: µp: Media en el criterio de los sujetos que han acertado el ítem µy: Media del criterio y: Desviación típica del criterio p: Proporción de sujetos que aciertan el ítem y´: Ordenada correspondiente al valor de la puntuación típica en la curva normal que deja por debajo un área igual a “p” (los valores se pueden encontrar en la tabla estadística correspondiente.

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Phi ( ) Criterio Item 0 1 1 a b 0 c d donde: a, b, c, y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem dicotómico y un criterio dicotómico. Equivalencia entre y 2

Índice de validez (casos particulares basados en el coeficiente de correlación de Pearson. Coeficiente de Correlación Tetracórico (rt) Criterio Item 0 1 1 a b 0 c d donde: a, b, c, y d son las frecuencias de cada una de las cuatro casillas formadas por el cruce de un ítem y un criterio (ambos dicotomizados). asumiendo distribuciones normales

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: El análisis de los distractores ha recibido un tratamiento considerablemente breve en la literatura, a pesar de que el distractor constituye una parte importante del ítem o elemento. El análisis de los distractores supone detectar qué alternativas incorrectas funcionan en la dirección esperada y cuáles no, y proceder subsiguientemente a su revisión, sustitución o supresión.

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: Haladyna (1994) propone tres vías para recoger información acerca del funcionamiento de los distractores: 1. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). 2. La tabla de frecuencias (Levine y Drasgow, 1982; Walner, 1989). José Álvaro Genero Picazo 3. Índices estadísticos (correlación distractor-puntuación total en el test, media en el test de los sujetos que eligen un distractor, 2). Inmaculada Moreno Vera

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: 2. La curva característica del distractor (Thissen, Steinberg y Fitzpatrick, 1989). Este enfoque se lleva a cabo desde la TRI. Consiste en tratar la alternativa incorecta (distractor) como si fuese la opción correcta y analizar sus parámetros desde esta teoría.

CALIDAD DE LOS ÍTEMS. ANÁLISIS DE DIITRACTORES. TABLAS DE FRECUENCIAS. José Álvaro Genero Picazo

1 - Análisis de la calidad métrica de los ítems 1 - Análisis de distractores a. ¿Qué es un distractor? b. ¿En qué consiste el análisis de distractores? c. Condiciones para que un distractor sea eficaz. d. Tablas de frecuencias

1 -Análisis de la calidad métrica de los ítems. - La evaluación de la calidad métrica de los ítems del test nos informa de las características estadísticas de éstos y de su contribución a la medición del dominio de interés. - Con este análisis se va a disponer de información relevante para decidir que ítems se van a utilizar para medir el constructo y que ítems se deben desechar por su baja calidad técnica. - Una parte importante de este análisis es el análisis de los distractores.

2 -Análisis de distractores. a)¿Qué es un distractor? Se denominan distractores a las distintas alternativas falsas o posibilidades de respuestas incorrectas que tiene un ítem en un test concreto. Ej- Las cantidades que pueden sumarse y asignarse números hasta una transformación de similitud son: a. intensivas b. extensivas c. naturales

2 -Análisis de distractores. b) ¿En qué consiste el análisis de distractores? - En el análisis de distractores se identifica aquellos distractores defectuosos que una vez eliminados y reemplazados por otros más adecuados incidirán positivamente en la calidad del ítem, mejorando la discriminación del ítem o alejando la dificultad de valores extremos. - El objetivo es atraer la atención de los sujetos con un nivel medio o bajo como para responder correctamente al ítem.

2 -Análisis de distractores c) Condiciones para que un distractor sea eficaz 1. Son elegidas por un mínimo de sujetos. 2. Son aproximadamente igual de atractivas para los sujetos. Ambos se cumplen si los porcentajes de respuestas estuviesen por encima de un 10% y con diferencias mínimas entre ellos. Si esto no ocurre, disminuye la fiabilidad y la validez del test al aumentar el acierto por azar.

2 -Análisis de distractores 3. Que el rendimiento medio en el test de los sujetos en cada distractor sea inferior al de los sujetos que han elegido la respuesta correcta y a la media del test en general de todos los sujetos. Se calculan las medias en la puntuación del test para cada distractor y se comprueba que la media de la alternativa correcta es superior a la media de todos los sujetos y esta, a su vez, es mayor que los promedios de los distractores.

2 -Análisis de distractores 4. Que discriminen entre los sujetos de media, baja y alta puntuación en el test pero en el sentido contrario a como lo hace la alternativa correcta. Para cada alternativa correcta se calcula un índice de discriminación o un coeficiente de discriminación con respecto a la puntuación en el test. Un buen distractor es aquel que presenta un poder discriminativo alto, aunque más bajo que el de la alternativa correcta y preferiblemente con un valor negativo.

2 -Análisis de distractores d) Tablas de frecuencias - Son ordenaciones en forma de tabla de los datos estadísticos, asignando a cada dato su frecuencia correspondiente. - Simplifica los valores cuantitativos o cuasi-cualitativos de una investigación para facilitar la interpretación de los datos obtenidos. - Nos informan del número de respuestas del número superior (27%) y del grupo inferior (27%), que han seleccionado cada alternativa de respuesta. - Pueden aparecer el índice de discriminación de cada alternativa, la media de las respuestas a cada alternativa y la proporción de sujetos que elige cada alternativa.

2 -Análisis de distractores A B C D E Nivel de superior 65 11 64 32 28 aptitud inferior 15 30 20 68 67 P 0, 20 0, 10 0, 21 0, 25 0, 24 Media 11, 1 8, 3 13, 2 8, 9 7, 8 D 0, 25 -0, 09 0, 22 -0, 18 -0, 195

2 -Análisis de distractores En la tabla… - B no es un buen distractor ya que no es elegido por un número mínimo de sujetos. - C tampoco, debido a que la media es superior a la de A y porque el índice de discriminación es positivo. - D y C son buenos distractores

Bibliografía n n n María Isabel Barbero García; Enrique Vila Abad; Juan Carlos Suárez Falcón(2006) “Psicometría” J. Muñiz; A. M. Fidalgo; E. G. Cueto; R. Martínez; R. Moreno (2005) “Análisis de los ìtems J. Muñiz (1998) “Teoría clásica de los test” María Isabel barbero García (1999) “Psicometría II” R. Martínez Arias (1995) “Psicometría: teoría de los tests psicológicos y educativos.

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: ANÁLISIS DE DISTRACTORES: ÍNDICE DE HOMOGENEIDAD: Inmaculada Moreno Vera.

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -El análisis de la calidad métrica del test y de cada uno de los ítems que la conforman es una fase muy importante en la construcción de un instrumento de medida. -Su evaluación nos informa de las características estadísticas de estos y de su contribución a la medición del constructo o dominio de interés. -Así pues, se decide que ítem debe ser rechazado por su baja calidad técnica y cuál no. -De este modo se mejora la construcción del test y se maximiza su fiabilidad y validez.

ANÁLISIS DE LA CALIDAD DE LOS ÍTEMS: -No basta con la evaluación global de una prueba. -Es necesario analizar la calidad individual de los elementos que la componen (análisis de los ítems) -Ello implica la obtención de información descriptiva y estadística.

INFORMACIÓN DESCRIPTIVA: -Hace referencia a la calidad técnica de los elementos. -Osterling (1989) recomienda un procedimiento fundamental: “el juicio de expertos”.

INFORMACIÓN ESTADÍSTICA: -Supone la estimación de parámetros para cada ítem, el análisis de distractores o alternativas incorrectas de respuestas (ítems de elección múltiple) y el examen del posible funcionamiento diferencial de los ítems en grupos de interés.

INFORMACIÓN ESTADÍSTICA: +Parámetros para cada ítem: dificultad, discriminación, pseudoadivinación, homogeneidad, información y validez. +Análisis de distractores: ¿Qué distractores funcionan en la dirección esperada? , revisión, sustitución o supresión.

ANÁLISIS DE DISTRACTORES: -Los distractores o alternativas incorrectas influyen en la calidad del ítem. -¿Qué es un ítem distractor? +Las alternativas incorrectas de respuesta dentro de una misma cuestión que distraen a quien realiza el test. +Deben ser atractivos y lógicos. +Todos deben tener la misma longitud. -Y el análisis de distractores ¿ Por qué y para qué se utiliza? +Nos permite conocer su funcionamiento y si los distractores utilizados son correctos (en cuanto a su uso y siguen el camino adecuado )o si, en cambio, deben ser rechazados. +De este modo se puede llegar a realizar una buena construcción del test y se maximizan la fiabilidad y validez del mismo.

ANÁLISIS DE DISTRACTORES: -Si un distractor es seleccionado con frecuencia: +Ítem mal redactado o confuso. +Problema generalizado de comprensión. -Sin un distractor no es seleccionado muy frecuentemente o no es seleccionado: +Disminuye la fiabilidad y validez del test pues aumenta el acierto por azar.

ANÁLISIS DE DISTRACTORES: -¿Cómo se analizan? Haladyna (1994) propone tres vías para su análisis: +La tabla de frecuencias (Levine y Drasgow , 1982; Walner , 1989). +La curva característica del distractor (Thissen, Steingberg y Fitzpatrick, 1989). +Índices estadísticos.

EL ÍNDICE DE HOMOGENEIDAD: -Nos informa del grado en que el ítem está midiendo lo mismo que la globalidad del test, es decir, el grado en que es consistente, homogéneo con el total de la prueba. -Se define como: +La correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el test o prueba completa (correlación ítem-test).

ÍNDICE DE HOMOGENEIDAD: +Mide el grado de consistencia interna que presentan los elementos internos de un test. +La consistencia interna se refiere al hecho de que cada uno de los ítems mida una parte proporcional de lo que mide la prueba en su conjunto. +Es un correlación, está entre -1 y 1. +En cualquier tipo de test.

OBJETIVOS DEL ÍNDICE DE HOMOGENEIDAD: -Retener o no cada uno de los ítems distractores ( 0 alternativas incorrectas). -Si no se retienen: +Re-escribir, re-diseñar o corregir la redacción de los ítems distractores cuyos parámetros estadísticos no se alejan mucho de los parámetros establecidos. + Re-escribir, re-diseñar o corregir la redacción de cada una de las respuestas que se propusieron en el instrumento de aquellas respuestas que no se alejen mucho de los parámetros establecidos.

CÁLCULO: -A través del coeficiente de correlación biserial puntual(Rbp): Se utiliza para conocer si las personas “adecuadas” son las que obtienen las respuestas correctas. Índice usado para expresar una correlación entre una variable dicotómica(ítem: Rs correcta o incorrecta del test) y una variable continua(puntuación total del test). -A través del coeficiente de correlación biserial (Rb): Determina el grado en que las competencias que mide el test también las mide el reactivo. Índice usado para expresar la correlación entre una variable dicotomizada (de origen continua) y otra continua.

CÁLCULO: +Fórmulas:

CÁLCULO: +Donde: μp: media en el test de los sujetos que aciertan el ítem. μx: media del test. σx: desviación típica del test. p: proporción de sujetos que aciertan el ítem. q : (1 – p). y: ordenada correspondiente al valor de la

CÁLCULO: +Indican la correlación entre acertar y la puntuación del resto del examen: -si el ítem es adecuado debe ser positivo en la elección correcta, a la vez que debe ser negativo o menor a 0. 20 en las elecciones incorrectas (distractores). -si el distractor presenta una correlación biserial o una correlación biserial puntual <0. 20 es correcto y no debe ser eliminado, si presenta una correlación >0. 20, el distractor deberá ser revisado, re-diseñado o eliminado del test.

CÁLCULO: Examen tema 2, todos los items, ejemplo de los distractores DATOS: ITEM 1 PROP 0. 800 RPBI 0. 686 RBIS 0. 979 RES 1+ 2 3 O U I PROP 0. 800 0. 075 0. 050 0. 075 0. 000 RPBI 0. 686 -0. 103 -0. 229 -0. 752 0. 000 RBIS 0. 979 -0. 191 -0. 484 -1. 000 0. 000 ITEM 2 PROP 0. 825 RPBI 0. 686 RBIS 1. 000 RES 1 2+ 3 O U I PROP 0. 000 0. 825 0. 075 0. 100 0. 000 RPBI 0. 000 0. 686 0. 005 -0. 880 0. 000 RBIS 0. 000 1. 000 0. 009 -1. 000 0. 000 ITEM 3 PROP 0. 825 RPBI 0. 744 RBIS 1. 000 RES 1 2 3+ O U I PROP 0. 038 0. 025 0. 825 0. 112 0. 000 RPBI -0. 101 0. 028 0. 744 -0. 856 0. 000 RBIS -0. 235 0. 074 1. 000 -1. 000 0. 000 ITEM 4 PROP 0. 887 RPBI 0. 824 RBIS 1. 000 RES 1+ 2 3 O U I PROP 0. 887 0. 000 0. 112 0. 000 RPBI 0. 824 0. 000 -0. 842 0. 000 RBIS 1. 000 0. 000 -1. 000 0. 000

CÁLCULO: ejemplo de los distractores del examen 2. n Ítems: Atendiendo a los valores de la rpbi de los distractores, todos los ítems del test se ajustan a los valores recomendados para considerarlos correctos. n Si analizamos los distractores desde sus valores de rbis (mas exigente que el anterior) obtnemos los siguiente: -1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 14, 16, 17, 18 y 20: al tener un coeficiente de correlación tanto biserial puntual como biserial, menor a 0. 20, incluso muchos de ellos un valor negativo podemos afirmar tras su análisis que estos distractores son correctos. -En los ítems 11, 13 y 19, un distractor supera el valor de 0. 20 en el índice biserial (0. 204) unas décimas por lo que este distractor debería re-escribirse, re-diseñarse o corregirse. -En el ítem 15, el valor del coeficiente de correlación biserial de un distractor, supera el valor de 0. 3 (0. 338) por lo tanto debería ser re-escrito, re-diseñado o ser corregido o bien eliminado según se considere más correcto.

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: 3. Índices estadísticos (media en el test de los sujetos que eligen un distractor). Media en el Test de los sujetos que han elegido cada alternativa de respuesta en un determinado ítem n, de un test con N ítems de 5 alternativas. Ejemplo: Valor de la Media del test en cada una de las 5 Alternativas del ítem 14 en un test de 20 ítems. Ítem n A B C* D E Media Media 9 8 12 5 7

Análisis de los distractores o alternativas incorrectas de respuestas -en los ítems de elección múltiple-: 3. Índices estadísticos ( 2). Contraste de frecuencias: Se calcula el valor de estadístico 2 con base en la frecuencias observadas: Ejemplo: Valor de la frecuencia observada en cada una de las 5 Alternativas del ítem 14 en un test de 20 ítems. Ítem n A B C* D E 20 80 90 10 0

• Sesgo o Funcionamiento Diferencial de los ítems (FDI): examen del posible funcionamiento diferencial de los ítems en grupos de interés (DIF). Ernesto Buiza Candelario El Funcionamiento Diferencial del ítem (FDI) es un término acuñado por Holland y Thayer (1988) y, de un modo muy general, se puede caracterizar como un indicador de la existencia en el proceso de medición de error sistemático respecto a ciertos grupos de la población que está siendo evaluada (Baron, 1988).

En resumen, los principales criterios de bondad de una prueba y subsecuentemente de un ítem son dos: fiabilidad y validez.