Tcnicas estadsticas multivariantes ordenacin Ejemplo Supongamos 3 muestras

  • Slides: 36
Download presentation
Técnicas estadísticas multivariantes: ordenación

Técnicas estadísticas multivariantes: ordenación

Ejemplo Supongamos 3 muestras (A 1, A 2, A 3) con 2 spp. (x,

Ejemplo Supongamos 3 muestras (A 1, A 2, A 3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras Y X y A 1 Xa 1 Ya 1 A 2 Xa 2 Ya 2 A 3 Xa 3 Ya 3 Espacio bidimensional A 3 A 1 A 2 X 2

Supongamos 3 muestras (A 1, A 2, A 3) con 3 spp. (x, y,

Supongamos 3 muestras (A 1, A 2, A 3) con 3 spp. (x, y, z) X y Z A 1 Xa 1 Ya 1 Za 1 A 2 Xa 2 Ya 2 Za 2 A 3 Xa 3 Ya 3 Z A 3 Y Espacio tridimensional A 1 X A 2 Si > 3 especies (variables) – se complica¡; hay alguna forma de reducir la “dimensionalidad” a algo palpable (2 -3 dimensiones), pero relevante e interpretable? 3

P. e. quiero conocer cómo una comunidad de 40 spp. responden a un impacto;

P. e. quiero conocer cómo una comunidad de 40 spp. responden a un impacto; podría hacer 40 tests…pero, con propósito de “condensar” información, preciso de técnicas que cuantifiquen la respuesta “global” (“a nivel de comunidad”, que incorpore los 2 atributos de la biodiversidad: composición y abundancia de las especies) Técnicas multivariantes Visualizar tendencias y patrones “globales” Testar hipótesis en el contexto multivariante: “a nivel de comunidad” 4

¿Qué son técnicas estadísticas multivariantes? Herramientas que nos permiten el estudio de cómo múltiples

¿Qué son técnicas estadísticas multivariantes? Herramientas que nos permiten el estudio de cómo múltiples variables dependientes u objetos (como p. e. conjuntos de especies = comunidades) responden a múltiples variables independientes y/o tratamientos procurando reducir la dimensionalidad de los datos a aquellas dimensiones (“gradientes ambientales”) relevantes 5

Técnicas multivariantes: se basan en matrices A B réplica sp 1 sp 2 sp

Técnicas multivariantes: se basan en matrices A B réplica sp 1 sp 2 sp 3 sp 4 sp 5 sp n A 1 B 1 1 … … … A 1 B 1 2 … … … A 1 B 2 1 … … … A 1 B 2 A 1 B 3 2 1 … … … A 1 B 3 1 … … … A 2 B 1 2 … … … A 2 B 2 1 … … … A 2 B 2 2 … … … A 2 B 3 1 … … … A 2 B 3 2 … … … Matriz de variables dependientes 6

Técnicas multivariantes: filosofía general especies muestras aa a b bb c matriz triangular de

Técnicas multivariantes: filosofía general especies muestras aa a b bb c matriz triangular de similitudes c c ordenación Ordenación multivariante son formas de explorar/visualizar las relaciones de similitud entre muestras/tratamientos/factores 7

Ordenación Conjunto de técnicas exploratorias, visualización de patrones – no permiten contraste hipotético Objetivo

Ordenación Conjunto de técnicas exploratorias, visualización de patrones – no permiten contraste hipotético Objetivo ordenación: ordenación buscar gradientes (ejes o componentes) que explican la mayor variabilidad en la matriz de datos: reducir la dimensionalidad a 2 -3 ejes que nos explican la mayor parte de la variabilidad en las muestras/especies 8

Medidas de disimilitud: el comienzo de todo P. e. Matriz abundancia, biomasa, % cobertura,

Medidas de disimilitud: el comienzo de todo P. e. Matriz abundancia, biomasa, % cobertura, un perfil de ácidos grasos “Distancia ecológica” entre cada par de muestras: algoritmo que cuantifique la magnitud de las diferencias Matriz triangular de distancias/similitudes /disimilitudes 9

Medidas de disimilitud Idea: Si 2 muestras son iguales su similitud es del 100%

Medidas de disimilitud Idea: Si 2 muestras son iguales su similitud es del 100% = disimilitud máxima, distancia ecológica = mínima · Existen muchos tipo de “distancias” y/o “índices de disimilitud”; depende de tipo de datos y objetivo (consultar literatura); Clarke et al. , 2006, On resemblance measures for ecological studies, including taxonomic dissimilarities and a zero-adjusted Bray-Curtis coefficient for denuded assemblages. " J Exp Mar Biol Ecol 330: 55 -80 especies Dista. euclidiana; Dij = (yik – yjk)2 (no tiene límite superior¡) muestras 1 2 3 10

Disimilitud de Bray-Curtis “Ratio” con límite superior: 0 < d < 1; podemos interpretarlo

Disimilitud de Bray-Curtis “Ratio” con límite superior: 0 < d < 1; podemos interpretarlo como “porcentaje de diferencias”, en un contexto ecológico Refleja tanto cambios en abundancias relativas como en composición, en un contexto ecológico ¿Es la mejor? No, todo depende de nuestros datos y lo queremos enfatizar: diferencias en composición (e. g. presencia/ausencia) o abundancia. Recomiendo “jugar” con los datos siempre que usemos una lógica basada en criterios de juego establecidos en la literatura 11

Pero antes…trasformación de los datos brutos Datos brutos (matriz original) Trasformación Matriz de distancias/disimilitudes

Pero antes…trasformación de los datos brutos Datos brutos (matriz original) Trasformación Matriz de distancias/disimilitudes Objetivo: controlar el “peso” de las variables/spp. 12

Ejemplo de trasformación Forma de controlar especies muy abundantes que pueden “distorsionar” patrones Ejemplo

Ejemplo de trasformación Forma de controlar especies muy abundantes que pueden “distorsionar” patrones Ejemplo Datos brutos No Ö (X + 1) Ö Ö (X + 1) 13

Estandarización Cuando las variables tienen distintas unidades¡ no mezclo peras con limones¡ La más

Estandarización Cuando las variables tienen distintas unidades¡ no mezclo peras con limones¡ La más típica: divido cada valor(Xij) entre el total o máximo de cada variable (Xj)…aunque hay gente que “estandariza” siguiendo otros criterios Cualquier software permite multitud de estandarizaciones y/o trasformaciones previas en análisis de datos (lo vemos en las prácticas) 14

Resumiendo: previo a ordenación/clasificación Matriz datos brutos Estandarizados Trasformados Matriz de disimilitudes 15

Resumiendo: previo a ordenación/clasificación Matriz datos brutos Estandarizados Trasformados Matriz de disimilitudes 15

PCA (Análisis de Componentes Principales) 16

PCA (Análisis de Componentes Principales) 16

Volvamos a lo que vimos antes: X Y Z A 1 Xa 1 Ya

Volvamos a lo que vimos antes: X Y Z A 1 Xa 1 Ya 1 Za 1 A 2 Xa 2 Ya 2 Za 2 A 3 Xa 3 Ya 3 Za 3 A 4 Xa 4 Ya 4 Za 4 4 objetos (muestras) con 3 variables A 2 A 1 A 3 A 4 Si p > 3 variables – se complica el tema; hay alguna forma de reducir la “dimensionalidad” de los datos (esa nube de datos en el espacio p-dimensional) a algo palpable (2 -3 dimensiones), pero q sea relevante e interpretable? 17

Es decir: Reducción de dimensionalidad = Busco eje relevante explicando la variabilidad de los

Es decir: Reducción de dimensionalidad = Busco eje relevante explicando la variabilidad de los datos A 1 A 2 A 3 A 4 Reducción de la dimensionalidad (común a todas las técnicas de ordenación) A 1 A 2 Ai A 4 A 3 GRADIENTE LATENTE

PC 1 es como un laser que pasa por el centro de una nube

PC 1 es como un laser que pasa por el centro de una nube de globos (objetos); ese PC 1 corre a lo largo del eje que explica la mayor variabilidad de los datos

PCA: ¿cómo actúa? PCA (1 eo) busca y (2 do) rota los ejes en

PCA: ¿cómo actúa? PCA (1 eo) busca y (2 do) rota los ejes en ese espacio “ndimensional” a posiciones tal que el primer eje (PC 1) sea la que explique (acumule) más variabilidad, el PC 2 el siguiente que explica más variabilidad y así sucesivamente hasta el último eje (PC p); pero ejes están no correlacionados PCA usa distancias euclidianas calculadas de las “p” variables como medida de similitud entre los “n” objetos PCA deriva la mejor representación k dimensional (k<p) de las distancias euclidianas entre objetos. Por sencillez, k =2 ó 3 ejes 20

PCA, es decir: PC 1 es pues la dirección de máxima varianza en ese

PCA, es decir: PC 1 es pues la dirección de máxima varianza en ese espacio pdimensional; PC 2 es la dirección de la siguiente mayor varianza, siendo su correlación de 0 con PC 1, y así sucesivamente… Cada eje explica cierta cantidad de la varianza (variabilidad) total): lo importante es que esos ejes se corresponden generalmente con gradientes ambientales¡…pero no sabemos cuál: es una técnica de análisis indirecto de gradiente = debemos usar nuestra intuición/conocimiento para explicar los patrones 21

PCA: ventajas e inconvenientes Pros: útil para visualizar/reducir variables que tienen relaciones lineales con

PCA: ventajas e inconvenientes Pros: útil para visualizar/reducir variables que tienen relaciones lineales con los ejes Contras: no sirve como método de ordenación, en especial si tenemos muchas especies, q generalmente muestran respuestas tipo gaussiana (no lineales) a gradientes ambientales (q son generalmente esos ejes PC 1 y PC 2) 22

PCA: inconveniente “efecto herradura” “Efecto herradura” en el espacio bidimensional: no se observa el

PCA: inconveniente “efecto herradura” “Efecto herradura” en el espacio bidimensional: no se observa el gradiente correctamente; las que deberían aparecer más separadas a lo largo del gradiente aparecen cerca. Si nos puede servir cuando las variables muestran relaciones lineales con PC 1 y PC 2 Pregunto: ¿Qué casos? 23

nm-MDS (non metricmultidimensional scaling) MDS a secas… 24

nm-MDS (non metricmultidimensional scaling) MDS a secas… 24

(ii) nm-MDS (non metric-multidimensional scaling) nm-MDS usa el rango en las similitudes entre objetos

(ii) nm-MDS (non metric-multidimensional scaling) nm-MDS usa el rango en las similitudes entre objetos (p. e. muestras) para ordenarlas en el espacio de ordenación Muestra % simil. rango A 1 A 2 99% 1 A 3 96% 2 A 3 95% 3 A 1 está más cerca de A 2 q A 3, a continuación A 1 y A 3 y así sucesivamente 25

nm-MDS intenta colocar las muestras en un espacio bi- o tri-dimensional manteniendo ese orden

nm-MDS intenta colocar las muestras en un espacio bi- o tri-dimensional manteniendo ese orden de rangos: A 3 En este ejemplo… A 1 está más cerca de A 2 q A 3 A 1 A 2 Seguidamente, compara las distancias en el espacio 2 -3 dimensional con el orden de rangos en la matriz de disimilitudes y vuelve a ordenar = proceso iterativo¡ 26

Consecuentemente, el nm-MDS no puede representar todas las relaciones de disimilitud de forma precisa

Consecuentemente, el nm-MDS no puede representar todas las relaciones de disimilitud de forma precisa en el espacio de ordenación: cometemos un error¡ 27

Stress = forma de evaluar la “calidad” del nm-MDS Como criterio general: Disimilitudes en

Stress = forma de evaluar la “calidad” del nm-MDS Como criterio general: Disimilitudes en la matriz 0. 0: perfecto; 0. 1: bastante decente; 0. 2: ok; 0. 3 : chungo de interpretar . . Distancias en el nm-MDS Diseño experimental y análisis estadístico: su aplicación en biología marina 28

nm-MDS: ventajas e inconvenientes Pros: no se ve afectado por respuestas no lineales de

nm-MDS: ventajas e inconvenientes Pros: no se ve afectado por respuestas no lineales de las especies¡ Resuelvo el problema que vimos con PCA. Puedo trabajar con cualquier medida de disimilitud (que elijo según las peculiaridades de los datos). Esto hace que sea la técnica predilecta en ecología, donde los datos generalmente se “comportan mal” (respuestas no lineales, muchos 0 s, etc. ). Es una técnica, consecuentemente, muy robusta (p. e. no le afecta “outliers”= valores atípicos) Contras: si el “stress” es alto puedo hacer una interpretación dudosa / errónea de los verdaderos patrones. Trabajo con rangos y no con disimilitudes absolutas, eso impide que pueda saber el % de variabilidad explicado por cada eje 29

Pregunta del millón ¿Existe alguna técnica que no se vea muy afectada por respuestas

Pregunta del millón ¿Existe alguna técnica que no se vea muy afectada por respuestas no lineales de las especies (puedo trabajar con cualquier medida de disimilitud en función de las peculiaridades de los datos), pero que no trabaje con rangos sino con verdaderas disimilitudes (que preserve disimilitudes entre muestras/tratamientos, etc. ? Diseño experimental y análisis estadístico: su aplicación en biología marina 30

PCO (Principal coordinates analysis) Diseño experimental y análisis estadístico: su aplicación en biología marina

PCO (Principal coordinates analysis) Diseño experimental y análisis estadístico: su aplicación en biología marina 31

(iii) PCO (Principal coordinates analysis) % Variabilidad total acumulada Denominado “MDS métrico” (usa verdaderas

(iii) PCO (Principal coordinates analysis) % Variabilidad total acumulada Denominado “MDS métrico” (usa verdaderas disimilitudes, no rangos); puedo saber el % de variación explicada por cada eje (componente). Al igual que el PCA, el 1 er eje (componente o PCO 1) explica la mayor variabilidad, el segundo (PCO 2), la segunda mayor cantidad de variabilidad y así sucesivamente. Ejes PCO Al igual que nm-MDS, la relación entre las variables y los ejes NO es lineal Diseño experimental y análisis estadístico: su aplicación en biología marina 32

PCO vs. nm-MDS: ¿qué diferencias específicas hay? PCO mantiene las disimilitudes mientras que el

PCO vs. nm-MDS: ¿qué diferencias específicas hay? PCO mantiene las disimilitudes mientras que el nm. MDS preserva el orden de rangos de las disimilitudes; eso hace que no sea tan robusto a datos “que se comportan mal” En la práctica los resultados del PCO son siempre parecidos al nm-MDS, si los datos no se comportan “extremadamente mal”. La ventaja del PCO es que los ejes tienen significado y explican una cierta cantidad de la variabilidad total Diseño experimental y análisis estadístico: su aplicación en biología marina 33

PCO: ejemplo Diseño experimental y análisis estadístico: su aplicación en biología marina 34

PCO: ejemplo Diseño experimental y análisis estadístico: su aplicación en biología marina 34

PCO: ventajas e inconvenientes Pros: trabajo con verdaderas disimilitudes (no con rangos como nm-MDS),

PCO: ventajas e inconvenientes Pros: trabajo con verdaderas disimilitudes (no con rangos como nm-MDS), puedo saber el % de variabilidad explicado por casa eje. Puedo seleccionar cualquier medida de disimilitud, según el tipo de datos Contras: Si los datos se “portan muy mal” (muchos 0 s, “outliers”; es decir, lo que ocurre en ciertas ocasiones), es sensible: no es tan robusto como su “primo hermano” el nm-MDS Diseño experimental y análisis estadístico: su aplicación en biología marina 35

Cuidadín, cuidadín PCA/nm-MDS/PCO son técnicas de visualización de patrones: no permite contraste de hipótesis

Cuidadín, cuidadín PCA/nm-MDS/PCO son técnicas de visualización de patrones: no permite contraste de hipótesis Necesidad de un test para contrastar las diferencias entre grupos que acompañe a una técnica de visualización de patrones Diseño experimental y análisis estadístico: su aplicación en biología marina 36