Elaboracin de pruebas psicolgicas Definicin Seleccin de la
Elaboración de pruebas psicológicas
� Definición � Selección de la prueba de un método de escalamiento � Construcción de reactivos � Examen de reactivos � Revisión de la prueba � Publicación de la prueba
� Responsabilidad � Diferente � Aportar � Tener del autor. y mejor que los existentes. al área de investigación. objetivos específicos. � Explicar � Plantear un propósito de manera explícita. un nuevo enfoque para una solución a un problema.
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. ¿Qué es lo que va a medir la prueba según su diseño? ¿Cuál es el objetivo de la prueba? ¿Existe una necesidad para esta prueba? ¿Quién usará esta prueba? ¿Quién tomará esta prueba? ¿Cómo se aplicará la prueba? ¿Cuál será el formato ideal de la prueba? ¿Qué clase de respuestas se requerirá de los posibles evaluados? ¿Quién se beneficia con la aplicación de esta prueba? ¿Cómo se asignará significado a las puntuaciones de esta prueba?
Formato de respuesta seleccionada Formato de construcción de respuesta
� Quienes respondan la prueba elijan una respuesta entre una serie de alternativas. �Reactivos de opción múltiple. �Reactivos de correlación. �Reactivos de verdadero / falso.
� Una prueba psicológica, una entrevista y un estudio de caso son: a) b) c) d) Herramientas de evaluación psicológica. Muestras conductuales estandarizadas Instrumentos confiables de evaluación Medidas vinculadas con la teoría
� Un buen reactivo de opción múltiple en una prueba de rendimiento: a) b) c) d) e) f) g) h) i) Tiene una alternativa correcta Tiene alternativas paralelas desde el punto de vista gramatical Tiene alternativas de longitud similar Tiene alternativas que concuerdan desde el punto de vista gramatical con el tronco Incluye tanto como sea posible del reactivo un el tronco para evitar repeticiones innecesarias Evita distracciones ridículos No es demasiado largo Todos los anteriores Ninguno de los anteriores
� Se le presentan dos columnas de respuestas al examinado. � Premisas a la izquierda y respuestas a la derecha. � ¿Cuál de las respuestas se asocia mejor con cuál premisa?
a) 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Anthony Hopkins Jim Carrey Wesley Snipes Mike Myers Dustin Hoffman Jack Black George Lazenby Tobin Williams Sigourney Weaver Michelle Yeoh Russell Crowe b) c) d) e) f) g) h) i) j) k) l) m) Ace ventura El chacal Capitán Jack Aubrey Hannibal Lecter Austin Powers Blade Yu Shu Dewey Finn Profesor Brainard Benjamín Braddock James Bond Ellen Ripley John Book
� La redacción de premisas y respuestas deben ser muy breves y directas � No � Las mas de una docena de premisas dos listas deben ser homogeneas, de la misma clase
� Falso / Verdadero � � Suele tomar la forma de una oración en donde el examinado indicará si la afirmación es o no un hecho. � Acuerdo / desacuerdo; Si / no; Correcto / incorrecto � Debe contener una sola idea. � No ser largo en exceso. � No estar sujeto a debate. no necesitan tener una lista de alternativas distractoras. � Desventaja: la posibilidad de obener una respuesta correcta con base en el azar (adivinando) es 50%.
REACTIVO DE COMPLETAR RESPUESTA BREVE REACTIVO DE ENSAYO
� Requiere que el examinado proporcione una palabra o frase que complete una oración. Por lo general, la desviación estándar se considera la medida más útil de ______. � La respuesta correcta debe ser específica. Variabilidad
¿Qué estadística descriptiva es considerada por lo general como la medida más útil de variabilidad? � Redactados con la suficiente claridad para que el examinado pueda contestar en forma breve y certera: corta. � Mas de dos párrafos es reactivo de ensayo.
� El examinado responde escribiendo una composición, por lo general una que demuestre que hay rememoración de hechos, entendimiento, análisis o interpretación. Compare y contraste las definiciones y técnicas del condicionamiento clásico y operante. Incluya ejemplos de la forma en que se han aplicado los principios de cada uno en escenarios clínicos y educativos.
� Se aplica cuando se quiere evaluar profundidad de conocimiento. � Requiere memoria, organización, planeación y capacidad de redacción. � Inconveniente: subjetividad en calificación.
� Es la investigación preliminar que rodea a la creación de un prototipo de la prueba. � Se valora si los reactivos serán incluidos en la versión final del instrumento. � Una vez que se ha completado el estudio piloto, comienza el proceso de elaboración de la prueba.
� Los criterios para los mejores reactivos pueden diferir como una función de los objetivos del elaborador de la prueba. � Para analizar y seleccionar reactivos hay que tomar en cuenta: �La dificultad del reactivo. �Un índice de validez del reactivo. �Un índice de confiabilidad del reactivo. �Un índice de la discriminación de un reactivo.
� ¿Bueno? ¿malo? ¿fácil? ¿difícil? � Si un reactivo es demasiado fácil o demasiado difícil, el reactivo debe ser redactado de nuevo o desechado. � Se obtiene un índice de la dificultad de un reactivo calculando la proporción del número total de quienes respondieron la prueba que tuvieron correcto el reactivo. � Dificultad del reactivo p 1: índice de dificultad del reactivo para el reactivo 1.
� El valor de un índice de dificultad del reactivo puede variar desde el punto de vista teórico de 0 (si nadie tuvo correcto el reactivo) a 1 (si todos tuvieron el reactivo correcto). � Si 50 de 100 examinados tuvieron bien el reactivo 1, entonces 50/100=0. 5 p 1=. 5
� Si p 3=. 75, podemos decir que el reactivo 3 es más fácil que el 1. � Debido a que p se refiere al porcentaje de personas que contestan correctamente un reactivo, entre mayor es p para un reactivo, éste es más fácil.
� Para obtener el índice promedio de dificultad para una prueba, se suman los índices de dificultad del reactivo para todos los reactivos de la prueba y se divide entre el número total de reactivos. � La dificultad promedio óptima del reactivo es aproximadamente. 5 (. 3 -. 8)
� En un reactivo cierto/falso con base en el azar es ½, o. 50. � Así, la dificultad óptima del reactivo está en el punto intermedio entre. 50 y 1. 00 =. 75. 50+1. 00=1. 5 / 2 =. 75
� Para un reactivo de opción múltiple con 5 opciones, la probabilidad de azar es 1/5, o. 20 =. 60. 20+1. 00=1. 20 / 2=. 60
CONFIABILIDAD….
DEFINICIÓN � Es un atributo de consistencia en medición. � Es una cuestión de grado, no de todo y nada. � Se refiere a la consistencia y fiabilidad de los datos. � Si se repite una segunda vez, una medida confiable dará los mismos resultados que la primera vez: Si le hago a una persona la misma pregunta dos veces, ¿obtendré la misma respuesta?
ERROR DE MEDICION Y CONFIABILIDAD � El error de medición reduce la confiabilidad o repetitividad de los resultados de una prueba psicológica. � ¿Que tan consistente es una prueba psicológica? � ¿Cuáles son las fuentes de consistencia e inconsistencia en los resultados de una prueba psicológica?
CONFIABILIDAD TEMPORAL � Test � De Re-test formas alternas
CONFIABILIDAD DE CONSISTENCIA INTERNA � Confiabilidad � ALFA por mitades DE CRONBACH � KUDER RICHARDSON � Confiabilidad intercalificadores
CONFIABILIDAD TEMPORAL
TEST-RETEST � Es el método mas sencillo para determinar la confiabilidad de una prueba. � Se aplica dos veces la misma prueba al mismo grupo de sujetos heterogéneos y representativos.
CONFIABILIDAD POR FORMAS ALTERNAS � El � Se autor elabora dos formas de la misma prueba. construyen de manera independiente para satisfacer las mismas necesidades, desde el mismo nivel de cada uno de los reactivos.
� Se incorpora contenido similar y cubren el mismo rango y nivel de dificultad en los reactivos. � Tienen propiedades estadísticas y normativas similares. � Se aplican las dos formas al mismo grupo y se correlacionan las dos puntuaciones finales. � Se duplica el costo.
CONFIABILIDAD DE CONSISTENCIA INTERNA
CONFIABILIDAD POR MITADES � Correlaciona los resultados de una mitad de la prueba con los de la otra mitad. � Se correlacionan los pares de puntuaciones obtenidas de mitades equivalentes de una prueba aplicada sólo una vez a una muestra representativa de examinados.
� El principal desafío consiste en dividir la prueba en dos mitades aproximadamente equivalentes. � El método mas común para obtener la división por mitades es comparar las puntuaciones de los reactivos pares y nones de la prueba.
CRITICAS AL ENFOQUE POR MITADES � En lugar de proporcionar un solo coeficiente para la prueba, el procedimiento nos da diferentes coeficientes dependiendo de cuáles reactivos se agrupan cuando la prueba se divide en dos partes. � Si una mitad puede dar un mayor coeficiente que otra, se puede tener poca fe en cualquier resultado que se obtenga de una sola mitad. Cronbach, 1951
ALFA DE CRONBACH � ¿Por qué depender de una sola división? � ¿Por qué no tomar un valor más típico, como la media por mitades que resulten de todas las posibles divisiones de la prueba? a es la media de todos los posibles coeficientes por mitades. � Coeficiente
CONFIABILIDAD INTERCALIFICADORES � Algunas pruebas permiten una gran cantidad de juicio por parte del examinador en cuanto a la asignación de puntuaciones. �Pruebas proyectivas �Pruebas de desarrollo moral. �Pruebas de creatividad.
CONFIABILIDAD INTERCALIFICADORES � Dos o mas examinadores califican de manera independiente una muestra de las pruebas y se correlacionan las puntuaciones. � Este tipo de confiabilidad complementa otros estimados de confiabilidad, pero no los sustituye.
METODOS PARA EVALUAR CONFIABILIDAD Método Núm. de formas Núm. de sesiones Fuentes de varianza de error Test-Retest 1 2 Cambios a través del tiempo. Formas alternas (inmediata) 2 1 Muestra de reactivos. Formas alternas (demorada) 2 2 Muestra de reactivos. Cambios a través del tiempo. División por mitades 1 1 Muestra de reactivos. Naturaleza de la división Coeficiente a 1 1 Muestra de reactivos. Heterogeneidad de la prueba. Intercalificadores 1 1 Diferencias entre calificadores.
DEFINICIÓN � Se dice que un test es válido si mide confiablemente lo que se supone que debe de medir. � La exactitud con que pueden hacerse mediciones significativas y adecuadas con un instrumento, en el sentido de que mida realmente el rasgo que pretende medir.
� La validez se refiere a las mediciones que no son sólo confiables sino también verdaderas y precisas. � Una medición válida mide lo que se supone que debe medir. � Una medida confiable no siempre es válida.
VALIDEZ DE UN INSTRUMENTO. � ¿Qué miden los puntajes del test? � ¿Qué predicen dichas puntuaciones? � Es materia de demostración empírica.
� Validez interna: ¿El tratamiento experimental hizo alguna diferencia en este estudio específico? � • Validez externa: ¿A qué programas, contextos o poblaciones se pueden generalizar los resultados del estudio?
Cuando investigamos cierta característica en un instrumento determinado, intentamos responder tres tipos de cuestiones: 1. ¿Cuán representativo es el comportamiento elegido como muestra del universo que se intenta representar? 2. ¿Qué significado tiene el comportamiento con respecto a los atributos del individuo que son de interés para la medición? 3. ¿Hasta dónde se puede predecir el rendimiento del sujeto o su aprendizaje en un programa de entrenamiento (o hasta dónde se puede anticipar su nivel de desempeño en el trabajo), a partir de su ejecución en la prueba? Estos tres tipos de preguntas corresponden a los diferentes Índices de Validez.
VALIDEZ DE CONTENIDO � Se trata de determinar hasta dónde los ítems de un instrumento son representativos del dominio o universo de contenido de la propiedad que se desea medir. PERO… � ¿Cómo lograr, una estimación de la validez de contenido de un instrumento?
�A diferencia de otros tipos de validez, la de contenido no puede ser expresada cuantitativamente, a través de un índice o coeficiente; es más bien una cuestión de juicio. � El procedimiento más comúnmente empleado para determinar este tipo de validez, es el de juicios de expertos.
JUICIOS DE EXPERTOS 1. Se seleccionan dos jueces o expertos. 2. Cada experto recibe suficiente información escrita acerca de: El propósito de la prueba. (b) Conceptualización del universo de contenido. (c) Tabla de especificaciones. (a) 3. Cada juez recibe un instrumento de validación en el cual se recoge la información de cada experto.
PLANILLA DE VALIDACIÓN
4. Se recogen y analizan los instrumentos de validación y se toman las decisiones siguientes: (a) Los ítems donde hay un 100 por ciento de coincidencia favorable entre los jueces (los ítems son congruentes, están escritos claramente y no son tendenciosos) quedan incluido en el instrumento. (b) Los ítems donde hay un 100 por ciento de coincidencia desfavorable entre los jueces, quedan excluidos del instrumento. (c) Los ítems donde sólo hay coincidencia parcial entre los jueces deben ser revisados, reformulados, si es necesario, y nuevamente validados.
VALIDEZ DE CONSTRUCTO � ¿Hasta dónde un instrumento mide realmente un determinado rasgo latente o una característica de las personas y con cuánta eficiencia lo hace? � Constructos = variables internas de cada individuo. � Se busca mostrar evidencia de que el instrumento mide el rasgo o constructo que pretende medir.
VALIDEZ PREDICTIVA � Determinar hasta dónde podemos anticipar el desempeño futuro de una persona en una actividad determinada, a partir de su ejecución actual en dicho instrumento. � “Validez � Se referida al criterio” estudia comparando los puntajes de un instrumento (variable independiente) con una o más variables externas (variables dependientes) denominadas variables criterio.
OBTENCIÓN DE UN CRITERIO ADECUADO… � Para predecir el nivel de eficiencia de un docente: �¿El nivel de dominio que los alumnos tienen de los objetivos de la materia? �¿El promedio de calificaciones? �¿La tasa de estudiantes aprobados o promovidos? �¿La claridad con que el docente expone sus clases? � ¿El dominio que el docente tiene del contenido de la asignatura que enseña? �¿La responsabilidad del docente en el cumplimiento de las tareas que tiene a su cargo?
� Se recomienda utilizar criterios múltiples como indicadores del desempeño, más que criterios simples o únicos. � En medición de desempeño, baterías completas y no pruebas aisladas.
FACTORES QUE AFECTAN LA VALIDEZ DE UNA PRUEBA… 1. Construcción del instrumento. � Instrucciones imprecisas o vagas. � Estructura sintáctica de la oración demasiado difícil. � Preguntas con niveles de dificultad inapropiados. � Preguntas que sugieren la respuesta. � Ambigüedad en la formulación de los reactivos, lo cual lleva a diferentes interpretaciones de los mismos. � Pruebas demasiado cortas. � Ordenamiento inadecuado de los ítems. � Patrón identificable de respuestas (preguntas de selección).
2. Administración y calificación de la prueba. �Tiempo insuficiente para responder. �Ayuda adicional a algunos sujetos. �Uso de la subjetividad de la puntuación de las preguntas. 3. Respuestas de los sujetos. �Bloqueo de los sujetos para responder, debido a situaciones emocionales y las respuestas formuladas al azar.
� Aragon, L. E. y Silvia, A. (2002) Fundamentos teóricos de la evaluación psicológica. México: Pax. � Cohen. R. y Swerdlik, M. (2001) Pruebas y evaluación psicológicas. Introducción a las pruebas y a la medición. México: Mc. Graw Hill. � Gregory, R. (2001) Evaluación psicológica. Historia, principios y aplicaciones. México: Manual Moderno. � Morales, M. L. (2000) Psicometría aplicada. México: Trillas (5ª. Edición). � Nunnally, J y Bernstein I. (1995) Teoría psicométrica. México: Mc. Graw Hill. � Gregory, R. (2001) Evaluación psicológica. Historia, principios y aplicaciones. México: Manual Moderno.
- Slides: 63