Estadstica descriptiva Temas Poblaciones y muestras Tipos de
Estadística descriptiva
Temas • Poblaciones y muestras • Tipos de variables y escalas de medición. • Exploración de datos: Métodos graficos y numéricos • Ejemplos aplicados • Taller
Métodos estadísticos • Conjunto de técnicas que facilitan las labores de colectar, resumir, resaltar, comparar y en general, analizar la información contenida en una muestra, de manera que sea posible generalizar adecuadamente los hallazgos a la población de origen. • Variables: Es una carácterística de las unidades muestrales que varia o cambia de una unidad a otra. • Las variables pueden ser cualitativas o cuantitativas.
Variable cualitativas y cuantitativas. • Variable cualitativas: llamadas atributos o categorías, no pueden medirse numéricamente. • Variable cuantitativas: Son las que se miden numericamente.
Clasificación de las variables cuantitativas. • Se pueden clasificar como discretas y continuas • Variables discretas: una variable es discreta si entre dos valores contiguos no existe ningún otro valor posible. Corresponden a conteos y no tienen decimales. • Ejemplos: precio en el taximetro, número de lechones nacidos vivos, número de respuestas buenas en un parcial, etc. • Variables continuas: son variables que pueden presentar infinitos valores entre cualquier par, sn importar lo cercanos que se encuentren entre si. Ejemplos: Litros de leche producidos, Espesor de la grasa dorsal, altura a la cruz, etc ¿Que variables conoces y a que tipo corresponde?
Escalas de medición • Son sistemas usados para registrar la información contenida en una unidad muestral. Constituyen una forma detallada de clasificar las variables, de acuerdo a la cantidad de información.
Escala nominal • Escala de medición mas débil (menos información). • Los valores sólo indican categorías, sin que exista un orden entre ellas. • Es posible que las etiquetas sean numericas
Escala Ordinal • Tienen más información, ya que existe un orden natural entre las categorías de la escala (jerarquia). • Sin embargo la distancia entre todos los pares de categorías adyacentes no son iguales.
Escala numérica (de intervalo y de razón) • El valor asociado con cada nivel de la escala indica la cantidad o intensidad de la carácterística medida. • La distancia entre cualquier par de niveles adyacentes es la misma, lo que permite hacer comparaciones. • Si la escala posee un valor de referencia cero (escala de razón), correspondiente a la ausencia de la característica medida, se podrán establecer relaciones de razón. • Esta escala permite mayor posibilidad de análisis Escala de intervalo
Población, muestra, parámetro y estadístico
La estadística
Estadística descriptiva • Es la rama de la estadística que se dedica a la presentación, organización y resumen de los datos, usando tablas, gráficos y medidas numéricas de resumen, que representan y resaltan las carácterísticas esenciales de la muestra ó de la población. • Tres herraminetas básicas: 1. Medidas de resumen 2. Tablas 3. Gráficos
Estadística descriptiva
Medidas de resumen • Son valores numéricos que sirven para resumir la información contenida en un grupo de datos. • Se dividen en: 1. 2. 3. 4. Medidas de tendencia central Medidas de dispersión Medidas de forma Medidas de posición
Medidas de tendencia central • Caracterizan el centro de un conjunto de datos. Representando los datos. Existen diferentes referentes de centralidad: • LA MEDIA:
La media • Es la medida de tendencia central más popular y usada en estadística descriptiva e inferencial • La mayor debilidad de la media es la falta de robustez ante valores extremos ¿Pero que valor representa mejor los datos?
Ejemplo práctico • El Hato La Julita produce leche con ganado Holstein. En el control de leche se obtuvieron los siguientes registros productivos de 20 vacas: Obtener la media para producción de leche y para el consumo. ¿Para que sirven estos datos en la práctica?
La mediana • Es el valor central de un conjunto ordenado de datos • Por ejemplo para el conjunto de datos: {2, 4, 5, 6, 8} la mediana es 5 Ejercicio: Calcule la mediana para {2. 4, 3. 7, 2. 2, 5. 2, 3. 4} La mayor ventaja de la mediana respecto a la media es la robustez ante la presencia de valores extremos.
Mediana • Compruebalo tu mismo: Calcula la mediana para el siguiente conjunto de datos: • {3, 5, 6, 8, 9} y {3, 5, 6, 8, 20} • ¿Y si el número de valores es par? • Se obtiene como el promedio de los dos valores centrales. Ejemplo: • {2, 6, 4, 8, 9, 12}
Estadísticos de orden
Ejercicio • De los datos del hato La Julita ¿Cual es la mediana para la producción de leche y el consumo de concentrado? ¿Cual es el estadístico de orden 3 para la producción de leche y el consumo de concentrado?
La moda • El significado estadístico es similar al que le damos en nuestra sociedad. • Moda es lo que más se usa, lo que más se ve, lo que aparece con más frecuencia. • Es el valor que más se repite en un conjunto de datos. Ejemplo: ¿cual es la moda de estos datos? • {2, 3, 5, 12, 9, 4, 4, 2, 7, 9, 2}, • Un conjunto de datos puede tener una moda (unimodal), dos modas (bimodal), varias modas (multimodal) ó ninguna moda.
Compruebalo túmismo ¿Quien se atreve?
Ejercicio • De los datos del hato la Julita: ¿cuál es la moda producción de leche? de la ¿cuál es la moda del consumo de concentrado?
Simetria
Media ponderada • Es una media modificada, donde cada uno de los valores tienen un peso ó ponderación especifica, de tal manera que algunos valores pesan más que otros. ¿Que Ejemplo conocen?
Ejemplo 1 • Considere 4 asignaturas con diferentes número de créditos ¿Quien lo hace? ¿cómo se expresa la formula?
Ejemplo 2
Ejercicio práctico ¿Cual es la media de todos los años para el peso al nacer? ¿Y para las demás variables? Ejercicio para la próxima
Recorrido medio • Es una medida de tendencia central netamente descriptiva. Esta medida normalmente se utiliza para calcular la temperatura media de un día cualquiera. Es el valor que esta en medio del mínimo y el máximo (promedio de extremos). • Ejemplo: Cual es la temperatura medía de un dia si los resultados de temperatura tomada cada dos horas fueron: • {20, 22, 24. 5, 27, 26, 25, 25, 20, 18}
Medidas de dispersión
MEDIDAS DE DISPERSIÓN • Las medidas de dispersión indican que tan lejos o tan cerca se encuentran los datos de una medida de tendencia central (homogeneidad o heterogeneidad). • Considere los siguientes datos grupos de datos:
Medidas de dispersión • Teniendo en cuenta lo anterior, las medidas de tendencia central no son suficiente para caracterizar un conjunto de datos. • Hacen falta otras medidas para calificar el grado de dispersión de los datos.
Medidas de tendencia central y dispersión
Varianza • Es la más popular de las medidas de dispersión. • Es la base de todos los métodos de estadística inferencial. • Se obtiene como el promedio (en poblaciones) ó el cuasi promedio (en muestras) de la distancia cuadratica entre cada valor y la media.
Varianza • En el ambito investigativo usualmente no se accede a toda la población, sino a la muestra, con base a la cual se hace la inferencia estadística. • ¿Puedes demostrar esto?
Varianza (consideraciones) • Las varianzas sólo se pueden comparar entre conjuntos de datos que tengan unidades iguales (Ejemplo: cm, m, ºC, etc). • A mayor varianza mayor es la dispersión de los datos. • No es posible interpretar la varianza debido a que se expresa en unidades al cuadrado. • No puede ser negativa.
Ejercicio práctico: Varianza • Calcule la varianza para el consumo y la producción de leche en el hato la Julita. ¿Las medidas comparables? son ¿cuáles son las unidades la varianza para cada variable?
Desviación estandar • Es la raíz cuadrada de la varianza. • Como se expresa en las mismas unidades de la variable puede ser usada para hacer interpretaciones y describir los datos. • No ofrece ninguna información adicional a la varianza, sólo que permite una mejor interpretación.
Pregunta
Ejercicio práctico • Determine la desviación estandar para la producción de leche y el consumo de concentrado. ¿Cual de los dos varia más? ¿Qué unidades presentan?
Coeficiente de variación • Es una medida de dispersión relativa • Se expresa como el porcentaje de desviación estandar sobre la media. • Permite comparar la dispersión de dos grupos de datos con diferente centro. • Es una medida adimensional, por lo tanto permite comparar la variabilidad de conjunto de datos con diferentes unidades
Ejercicio práctico: CV Determine coeficiente de variación para la producción de leche y el consumo de concentrado. ¿cuál de los dos varia más? ¿qué unidades tiene cada uno?
Desviación Mediana • Es una medida de dispersión donde la medida de tendencia central es la mediana. Se determina así: • Sólo se debe usar cuando se usa la mediana como medida de tendencia central, no está bien combinar estadísticos.
Ejercicio: Desviación Mediana • Determine la desviación mediana para la producción de leche y el cosumo de alimento. ¿Hay diferencia con respecto a la desviación estandar? ¿Pueden compararse desviaciones entre sí? las ¿cuáles son las unidades de medida?
Recorrido • Se calcula como la diferencia entre los dos valores extremos del conjunto de datos, indicando la distancia entre el valor menor y el mayor. • Por estar basada en dos valores es una medida que contiene muy poca información respecto a otras medidas de dispersión. • Existe otra medida llamada rango que indica simplemente el valor menor respecto al mayor, es decir que enmarca el intervalo de los valores muestrales.
Ejercicio: Recorrido • Determine el recorrido para la producción de leche y para el consumo de concentrado. ¿cuál es el rango para la producción de leche? ¿cuál es el rango para el consumo de concentrado?
MEDIDAS DE FORMA
Medidas de forma • Aunque las medidas de tendencia central y de dispersión reflejan importantes aspectos de los datos, estos no cubren el panorama completo en relación a su distribución. • Conocer la distribución permite obtener información adicional para analizar los datos.
Medidas de forma (consideración). • Tenga en cuenta los siguientes datos: • Ambos conjuntos de datos estan centrados en el mismo punto (media=9. 475) y tienen la misma varianza (S= 4. 26807). Sin embargo es claro que los conjuntos de datos difieren en su concentración respecto a la media.
Coeficiente de asimetria • Mide el grado de asimetria en la dispersión de los datos con respecto a la media. • Pueden tipificarse las siguientes situaciones: Distribución simetrica (a=0), asimetria a la derecha (a>0) y asimetria a la izquierda (a<0).
Coeficiente de asimetria • Distribución simétrica (a=0) • Cuando hay simetria perfecta, la mediana y la moda toman el mismo valor.
Coeficiente de asimetria • Asimetría a la derecha (a>0) • Cuando hay asimetría a derecha, la moda<la mediana<la media
Coeficiente de asimetria • Asimetría a la izquierda (a<0) • Cuando hay asimetría a izquierda, la media<la mediana<la moda
Ejercicio ¿Como se interpretan los resultados?
Ejercicio • Determine el coeficiente de asimetria para la producción de leche y para el consumo de concentrado. ¿Que podemos decir de la simetría?
Ejemplo
Ejemplo (continuación)
Coeficiente de curtosis (k) • Evalua como es la concentración de los datos con alrededor de la media. Indica que tan “puntiaguda” es una distribución. • Esta medida toma como referencia la distribución normal, la cual es mesocúrtica.
Coeficiente de curtosis (k) Según el coeficiente de curtosis las distribuciones pueden ser: Leptocúrticas (k>0): Cuando un conjunto de datos tiene una mayor concentración alrededor de la media que la distribución normal (mas puntiaguda). Mesocurtica(k=0): Cuando las distribución de datos es media alrededor de la media (como la curva normal). Platicurtica(k<0): Cuando la distribución de datos alrededor de la media, es menor a la existente en una distribución normal (forma achatada, aplastada).
Coeficiente de curtosis (k) K>0 K=0 K<0
Ejercicio
Ejercicio • Determine el coeficiente de curtosis para la producción de leche y para el consumo de concentrado. ¿Que podemos decir de la curtosis?
Medidas de posición
Medidas de posición • Son medidas que permiten estimar en que punto de la distribución de los datos se encuentra un determinado valor. • Cuantiles: Son la expresión más general de las medidas de posición. El valor que toma el cuantil “X”, es el valor que deja por debajo de si el “X” % de los datos. • Se debe trabajar con datos ordenados (de menor a mayor).
Medidas de posición
Ejemplo • Con los datos de producción determine por debajo de que valor se encuentran el 30% de los datos (Cuantil treinta). Primero los debo ordenar de menor a mayor: Quedan Así:
Ejemplo (continuación) 1. (n*X/100)=(20*30/100)=6, como es entero, entonces: 2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2 ={X(6) + X(6+1)}/2 = {19. 3 + 19. 3}/2 =19. 3 3. Interpretación: El treinta porciento de los datos estan por debajo de 19. 3 litros, por lo tanto el 30% de los individuos del Hato la Julita producen menos de 19. 3 litros de leche por día.
Cuartiles • Son los valores que dividen el conjunto de datos en cuatro parte. • Q 1: Primer cuartil: es el valor por debajo del cual se encuentran el 25% de los datos. • Q 2: Segundo cuartil: es el valor por debajo del cual se encuentran el 5 o% de los datos (corresponde a la mediana). • Q 3: Tercer cuartil: es el valor por debajo del cual se encuentran el 75% de los datos. ¿Y el Q 4?
Ejemplo • Con los datos de producción de leche determine el cuartil tres (Q 3). Primero los debo ordenar de menor a mayor: Quedan Así:
Ejemplo (continuación) • Q 3=cuantil 75, entonces: 1. (n*X/100)=(20*75/100)=15, como es entero, entonces: 2. Cuantil treinta={X[n*X/100] + X[(n*X/100)+1}/2 ={X(15) + X(15+1)}/2 = {22. 4 + 22. 5}/2 =22. 45 3. Interpretación: El 75% de los datos estan por debajo de 22. 45 litros, por lo tanto el 75% de los individuos del Hato la Julita producen menos de 22. 45 litros de leche por día.
Deciles • Son valores que dividen el conjunto de datos en 10 partes. • D 1: Decil uno: Es el valor por debajo del cual esta el 10% de los datos. • D 2: Decil dos: Es el valor por debajo del cual esta el 20% de los datos. • D 3 Decil tres: Es el valor por debajo del cual esta el 30% de los datos. • …y así hasta el decil diez.
Percentil • Divide la información en centesimas, osea en 100 partes. • P 1: Percentil 1: Es el valor por debajo del cual esta el 1% de los datos. • P 2: Percentil 2: Es el valor por debajo del cual esta el 2% de los datos. • P 3: Percentil 3: Es el valor por debajo del cual esta el 3% de los datos. • …Y así hasta el percentil 100.
Ejemplo • De los siguientes datos determine el decil dos • Para A • D 2: Decil dos = Cuantil veinte = • (n*X/100)=(9*20/100)=1. 8 no es entero, entonces: Cuantil veinte=X(|n*X/100|+1), teniendo en cuenta que: el menor entero contenido en 1. 8 es 1, Entonces: X(1+1)= X(2) = 4 ¿cómo se interpreta? Determine el cuartil 3
Ejercicio • Obten las equivalencias entre las diferentes medidas de posición, • Por ejemplo: Mediana=Q 2=D 5=P 50 • Calcule las seguientes medidas para el conjunto de datos que de consumo de concentrado. • D 3 • Q 2 • P 20 • D 5
Tablas
Tablas de frecuencias • Son arreglos tabulares que resumen, de manera estructurada, la información de una variable, permitiendo visualizar su distribución. • Si consideramos la estatura (cm) de un grupos de estudiantes de grado séptimo, es posible tabular cada uno de los valores de altura, indicando sus correspondientes frecuencias de repetición, a eso se le llama tabla de frecuencias. • Hay dos tipos de frecuencias llamadas absolutas o relativas que se dividen a su vez en simples ó acumuladas.
Ejemplo
Ejemplo • La tabla de frecuencias sería: Es muy útil cuando hay muchas medidas que se repiten, Se usan constantemente en genética.
Distribución de frecuencia agrupada. • Suponga que se mide la estatura (cm) de los bovinos de diferentes edades, incluyendo novillas: Como no hay ningún dato que se repite la tabla de frecuencias tendría 20 niveles
Distribución de frecuencia agrupada. • En estos casos se usan tablas agrupadas por intervalos y así la información quedará reducida.
¿Cuantos intervalos se deben tomar? • Generalmente lo decide el analista. • Mientras más intervalos se usen menos información se pierde, pero la tabla puede resultar menos informativa. • Una propuesta popular es la de Sturges, que permite estimar el número de intervalos con la expresión: • K=1+3. 32*log(n) • Por lo general se recomienda usar mas de 4 intervalos y menos de 20. Si n=20, ¿cuantos intervalos puedo tomar?
Ejemplo • Haga una tabla de frecuencia agrupada para la producción de leche y el consumo de concentrado. ¿En que intervalo están la mayoria de las vacas?
Graficos
Graficos • Son el principal instrumento del análisis exploratorio. • Permite observar las principales características de un conjunto de datos • Diagrama de dispersión: • Se contruye graficando cada valor con un punto referenciado a un eje. El más simple corresponde a una sola variable.
Dispersión con dos variables • Permite observar la variación conjunta y los patrones de variación de dos variables. • Es posible hacer diagramas de dispersión de tres variables (tridimensionales), pero su interpretación es difícil.
Ejercicio
Ejercicio • Haga el diagrama de dispersión entre el consumo de concentrado y la producción de leche. ¿Encuentra alguna relación?
Histograma de frecuencias • Es la representación gráfica de la tabla de distribución de frecuencias de una variable numérica. • En el eje horizontal se ponen los diferentes intervalos que conforman el rango de la variable. • En el eje vertical se presenta la frecuencia (absoluta ó relativa) de cada intervalo.
Ejercicio • Defina el número de intervalos y haga el histograma de frecuencias para la producción de leche. ¿Se parece a la curva normal?
Poligono de frecuencias • Es una presentación asociada con el histograma de frecuencias. • La información de cada intervalo se presenta por un punto, el cual se localiza en el punto medio del intervalo y en la correspondiente frecuencia • Se unen los puntos por una linea continua
Ejercicio • Determine el poligono de frecuencias para la producción de leche. ¿Se parece a una curva normal?
Diagrama de barras • Se usa para representar graficamente la tabla de frecuencias de una variable nominal. • Para cada categoria se usa un barra (vertical u horizontal) que representa su frecuencia. Ejercicio: 3 Razas de bovinos
Diagrama de sectores • Se utiliza también para representar la tabla de frecuencias de una variable nominal. En este tipo de diagramas el circulo representa la totalidad de la muestra. • A cada categoria se le asigna un sector, cuya área es proporcional a su frecuencia. Ejercicio: 3 Razas de bovinos
Diagramas de cajas y bigotes
Diagramas de cajas y bigotes • Este diagrama resume algunos aspectos esenciales de la distribución • La caja se extiende desde el cuartil inferior hasta el cuartil superior (cubriendo la mitad central de la muestra). • La línea central marca la mediana y una cruz roja marca la media.
Diagrama de cajas y bigotes • Si la distribución es simetrica, la media y la mediana coinciden. • La media estará a la derecha de la mediana en distribuciones con asimetría a derecha y estará a la izquierda de a mediana en distribuciones con asimetría a izquierda. • Los bigotes se extienden hasta los menores y mayores valores adyacentes, es decir, los que no se alejen de la caja más de 1. 5 veces el recorrido intercuartil. • Los valores que están entre 1. 5 y 3 veces el recorrido intercuartil, se denominan valores extremos y se representan mediante puntos.
Diagrama de cajas y bigotes • Los valores que están más allá de tres recorridos intercuartiles, se denominan valores muy extremos y se distinguen por otro simbolo (color).
A menudo se usan gráficos múltiples para comparar grupos de datos.
Ejercicio • Elabora el diagrama de bigotes para la producción de leche. ¿Hay datos extremos ó muy extremos?
- Slides: 101