Escaneo de los datos Datos faltantes Mtodos de

  • Slides: 22
Download presentation
Escaneo de los datos

Escaneo de los datos

�Datos faltantes �Métodos de imputación �Respuestas no comprometidas �Detección �Outliers �Normalidad: sesgo y kurtosis

�Datos faltantes �Métodos de imputación �Respuestas no comprometidas �Detección �Outliers �Normalidad: sesgo y kurtosis

Datos faltantes

Datos faltantes

Datos faltantes: Problemas lógicos �Los datos faltantes sistemáticos pueden indicar un sesgo sistemático (formulación

Datos faltantes: Problemas lógicos �Los datos faltantes sistemáticos pueden indicar un sesgo sistemático (formulación deficiente de los reactivos, sensitividad, etc. ) �Si es menos probable que las mujeres reporten su género, en comparación con los hombres, tendremos datos sesgados en cuanto al género. �Ej. , sólo 50% de las mujeres reportan su género y 95% de los hombres lo hacen. ¿Qué pasa si debemos usar el género como moderador (o en algún otro rol crítico)?

El manejo de los datos faltantes �No hay mucho problema si se tienen <10%

El manejo de los datos faltantes �No hay mucho problema si se tienen <10% de datos faltantes de una variable (Preferible: 5%). �Método para manejar los datos faltantes: �>10% - no usar esa variable �<10% - imputar, si no es categórica �Precaución: Si eliminamos a demasiados participantes (o imputamos demasiado) , introduciremos sesgos de respuesta.

Métodos de imputación �Opción 1: Usar sólo datos válidos �No utilizar imputación, sólo usar

Métodos de imputación �Opción 1: Usar sólo datos válidos �No utilizar imputación, sólo usar casos o variables válidos. �En SPSS: Exclude Pairwise: excluye datos faltantes por variable Listwise: excluye datos faltantes por caso.

Métodos de imputación �Opción 2. Usar como reemplazo valores conocidos. Asociar los valores faltantes

Métodos de imputación �Opción 2. Usar como reemplazo valores conocidos. Asociar los valores faltantes con valores de casos similares.

Métodos de imputación �Opción 3. Usar valores de reemplazo calculados. Usar la media, mediana

Métodos de imputación �Opción 3. Usar valores de reemplazo calculados. Usar la media, mediana o modo de la variable. Regresión basada en relaciones conocidas. Se puede hacer para varias variables a la vez. Usar la media sólo cuando la distribución es normal. Mejor: la mediana, es más segura.

Imputación de datos faltantes con SPSS Para reemplazar los valores faltantes: �Transformar �Reemplazar valores

Imputación de datos faltantes con SPSS Para reemplazar los valores faltantes: �Transformar �Reemplazar valores faltantes � Pasar la(s) variable(s) de interés a la ventana de New variable(s) (aquella en la que hay datos faltantes). � Change si se ha decidido reemplazar la anterior. � En la parte derecha indicar el método: Median of nearby points � Puntos cercanos: todos � OK Stat. Wiki: statwiki. kolobkreations. com/wiki/Main_Page �Guidelines SPSS: Options. General: Display names / Displays labels

Mejor método: La prevención! �Escalas más cortas (Psicológicamente, es mejor aplicar instrumentos no muy

Mejor método: La prevención! �Escalas más cortas (Psicológicamente, es mejor aplicar instrumentos no muy largos). Pilotear!!! �Reactivos fáciles de entender y contestar. Pilotear!!! �Asegurarse de que todos los reactivos sean contestados. �Usar encuestas digitales (más que en papel) �Poner las variables demográficas al principio del instrumento. �Colocar los reactivos sensibles al final del instrumento.

Respuestas no comprometidas

Respuestas no comprometidas

Respuestas no comprometidas �Síntomas �Desviaciones estándar <0. 500 o similares �Patrones de respuestas: 1,

Respuestas no comprometidas �Síntomas �Desviaciones estándar <0. 500 o similares �Patrones de respuestas: 1, 2, 3, 4, 1, 2, 3, 4… o 1, 1, 2, 2, 2, 2… �Reactivos inversos contestados igual que los no inversos Detección Desviaciones estándar por caso para detectar mínima variabilidad Inspección visual Prevención Trampas de atención en el instrumento: “Si estás poniendo atención, por favor contesta ‘totalmente de acuerdo’”

https: //www. youtube. com/user/Gaskination Detección de respuestas no comprometidas �Llevar la base de datos

https: //www. youtube. com/user/Gaskination Detección de respuestas no comprometidas �Llevar la base de datos de las escalas, con número de folio, a una base de Excel. �Pedir desviación estándar (stdev) de todas las puntuaciones por caso. Colocarlas en la última columna.

Detección de respuestas no comprometidas Para identificar desviaciones estándar muy bajas (casos con mínima

Detección de respuestas no comprometidas Para identificar desviaciones estándar muy bajas (casos con mínima variabilidad): �Conditional formating �Highlight cells rules � Less than: Anotar la cantidad (ej. , 0. 5). Los casos con desv. est. <. 05 se marcan con un color. Analizar el caso. Considerar eliminarlo.

Outliers: Valores extremos

Outliers: Valores extremos

Outliers y su influencia �Los outliers pueden modificar los resultados ya que alejan a

Outliers y su influencia �Los outliers pueden modificar los resultados ya que alejan a la media de la mediana. �Pueden afectar los supuestos de la distribución y con frecuencia reflejan respuestas falsas o erróneas. �Tipos de outliers: �Outliers para variables únicas (univariados): Valores extremos para una sola variable. �Outliers para el modelo (multivariados): Valores extremos (no comunes) para una correlación.

Manejo de los outliers univariados �Debe examinarse caso por caso. �Si el outlier es

Manejo de los outliers univariados �Debe examinarse caso por caso. �Si el outlier es verdaderamente anormal y no es representativo de la población en estudio, entonces hay que eliminarlo. Pero esto requiere un examen cuidadoso de los puntajes. �Ej. : se está estudiando a perros, y se “coló” un gato. �Ej. : alguien contestó “ 3” en todos los 75 reactivos de la escala. �Sin embargo, no sólo porque un puntaje no encaje cómodamente en la distribución no implica que habrá que eliminarlo.

Detección de Outliers �Analizar �Descriptivos � Explorar � Estadísticos: Boxplots • Factor levels together/

Detección de Outliers �Analizar �Descriptivos � Explorar � Estadísticos: Boxplots • Factor levels together/ Histogram /Normality plots with test � Gráficos � Pasar las variables de interés a la ventana Dependent List Reporta Sesgo y Kurtosis y sus errores estándar Gráficas: Histograma, Normal Q-Q, cajas y bigotes

https: //www. youtube. com/user/Gaskination Detección de Outliers Revisar cada outlier en la base de

https: //www. youtube. com/user/Gaskination Detección de Outliers Revisar cada outlier en la base de datos y analizar la situación.

Normalidad

Normalidad

Prueba de sesgo y kurtosis Regla estándar: �Sesgo > 1 = positivo (derecho) �Sesgo

Prueba de sesgo y kurtosis Regla estándar: �Sesgo > 1 = positivo (derecho) �Sesgo < -1 = negativo (izquierdo) �Sesgo entre -1 y 1 está bien. Regla estricta: �Sesgo > 3*Error estándar = Sesgado (Hair) Igual para la kurtosis Propósitos prácticos… �Los problemas surgen más allá de (+/-) 2. 2 (Sposito et al. , 1983)

Detección de normalidad Distribución bimodal: En ocasiones se espera una distribución bimodal. Ej. :

Detección de normalidad Distribución bimodal: En ocasiones se espera una distribución bimodal. Ej. : cuando hombres y mujeres difieren; se trata, en realidad, dos grupos.