Escalamiento Multidimensional NoMtrico Rasgos generales Busca las mejores
Escalamiento Multidimensional No-Métrico
Rasgos generales • Busca las mejores posiciones de n objetos en un espacio de k dimensiones que se asemejen más a las posiciones de los objetos según sus distancias originales. • Es iterativo, pues repite intentos con posiciones diferentes hasta alcanzar el mejor arreglo. • No supone que existan relaciones lineales entre las variables. • Utiliza el orden de distancias (“ranked distances”) como criterio principal, por eso se le llama no-métrico. – Debido a lo anterior, su interpretación es diferente a los algoritmos métricos (e. g. , PCA)
Rasgos generales (continuación) • Permite utilizar cualquier medida de distancia. • Como es iterativo y no-métrico, cada corrida puede resultar en ordenaciones un tanto diferentes. • Requiere muchos recursos de computación, particularmente con muchos datos (aunque ya esto no es un asunto importante). • Es posible que encuentre una solución subóptima (pero las capacidades de computación actual reducen esta limitación).
Procesamiento • Calcular matriz de distancias ecológicas Δ entre muestras (disimilaridades) • Asignar muestras en una configuración inicial de k dimensiones • Calcular la matriz D de distancias Euclidianas en el espacio de k dimensiones • Ordenar los elementos de Δ en orden ascendente
Procesamiento (continuación) • Ordenar los elementos de D en el mismo orden de Δ • Calcular Ď (matriz en la que se sustituyen las distancias no-monotónicas d con distancias monotónicas d’) • Calcular la tensión S (“stress”) del arreglo inicial a base de la suma de las diferencias (d-d’)2.
Procesamiento (continuación) • Minimizar la tensión S mediante la modificación del arreglo de muestras en el espacio de k dimensiones. El parámetro α (“initial step length”) indica la velocidad inicial de modificación de tensión. • Iterar (regresar al paso 3) hasta que: – Se completen un número máximo de iteraciones. – O se obtenga un nivel de estabilidad predeterminado.
Analogía • Paisaje con varias lomas y valles de distintas profundidades • NMS intenta encontrar el valle más profundo (mínimo global) • En ocasiones encuentra un valle menos profundo (mínimo local) • Los mínimos locales pueden evitarse: – Haciendo varias corridas con arreglos iniciales al azar – Corriendo NMS con arreglo inicial producido por otro método de ordenación
La mejor solución • Seleccionar un número de dimensiones k apropiado • Buscar tensión S baja • Utilizar una prueba de Monte Carlo • Evitar soluciones inestables
Número de dimensiones • Graficar tensión final vs k – Gráfica “scree” • Seleccionar numero de ejes mas alla de los cuales hay poca reduccion en tension
Buscar tensión baja • Regla general:
Prueba de Monte Carlo • Prueba de significacia de un arreglo de muestras en espacio de ordenacion • Se rearreglan las especies de la matriz de datos un numero x de veces al azar • Precaución con: – Rezagados muy influyentes – Especies super abundantes – Con pocas muestras la prueba puede ser conservadora – Si la data tiene muchos ceros puede haber problema con ciertas medidas de distancia
Evitar soluciones inestables • Graficar tension vs iteraciones
Matriz de distancias originales Δ s 1 s 2 s 3 s 2 0. 212 s 3 0. 594 0. 549 s 4 0. 590 0. 440 0. 594 s 5 0. 873 0. 643 0. 681 s 4 0. 587
Matriz D s 1 s 2 s 3 s 2 3. 6 s 3 4 3. 6 s 4 6. 4 3. 2 4. 1 s 5 5 1. 4 4. 1 s 4 2
Elementos de matriz Δ ordenados
- Slides: 22