Representao de dados multivariados ESALQUSP Jan 2016 O

  • Slides: 29
Download presentation
Representação de dados multivariados ESALQ/USP Jan 2016

Representação de dados multivariados ESALQ/USP Jan 2016

O problema da representação de muitas variáveis em duas dimensões • Gráficos precisam ser

O problema da representação de muitas variáveis em duas dimensões • Gráficos precisam ser apresentados em duas dimensões ou sobre o papel ou na tela de um computador • Eixos horizontais e verticais representam variáveis

dados=read. table("pardocas 01. txt", h=T); dados pass X 1 X 2 X 3 X

dados=read. table("pardocas 01. txt", h=T); dados pass X 1 X 2 X 3 X 4 X 5 1 s 156 245 31. 6 18. 5 20. 5 2 s 154 240 30. 4 17. 9 19. 6 3 s 153 240 31. 0 18. 4 20. 6. . . 21 s 159 236 31. 5 18. 0 21. 5 22 ns 155 240 31. 4 18. 0 20. 7. . . 48 ns 162 245 32. 5 18. 5 21. 1 49 ns 164 248 32. 3 18. 8 20. 9 data_s=subset(dados, pass=="s", select = c(X 1, X 2)); data_s X 1 X 2 1 156 245 2 154 240 3 153 240. . 21 159 236 attach(data_s)

data_ns=subset(dados, pass=="ns", select = c(X 1, X 2)); data_ns X 1 X 2 22

data_ns=subset(dados, pass=="ns", select = c(X 1, X 2)); data_ns X 1 X 2 22 155 240 23 156 240 24 160 242. . . 49 164 248 50 attach(data_ns) plot(data_s, pch=15, ylab = "Extensão alar (mm)", xlab = "Comprimento total (mm)", ylim=c(225, 255), xlim=c(150, 165))

points(data_ns$X 1, data_ns$X 2, pch=0) legend(159, 230, legend=c('Sobreviventes', 'Não sobreviventes'), col=c("black", "black") , pch=c(15,

points(data_ns$X 1, data_ns$X 2, pch=0) legend(159, 230, legend=c('Sobreviventes', 'Não sobreviventes'), col=c("black", "black") , pch=c(15, 0))

# 3 D require(lattice) cloud(X 1~X 3*X 2, col=as. numeric(dados$pass), data=dados) *Sobrevivente * Não

# 3 D require(lattice) cloud(X 1~X 3*X 2, col=as. numeric(dados$pass), data=dados) *Sobrevivente * Não sobrevivente X 1: Comprimento total X 2: Extensão alar X 3: Comprimento do bico e cabeça

Representando variáveis índices • Variáveis índices são variáveis não observadas obtidas por combinação linear

Representando variáveis índices • Variáveis índices são variáveis não observadas obtidas por combinação linear das variáveis originais. • O principal objetivo de muitos métodos multivariados é a geração de variáveis índices. • Com os valores dos CP 1, CP 2, CP 3 pode-se representar graficamente as relações entre objetos. • OBS: A desvantagem de representar muitas variáveis para duas ou três dimensões é que alguma diferença-chave entre os objetos possa ser perdida na redução.

Exemplo: Qualidade da água do Rio Tapajós CP 1 = 0, 399276 × (Sólidos

Exemplo: Qualidade da água do Rio Tapajós CP 1 = 0, 399276 × (Sólidos Totais) + 0, 329060 × (Coliformes Totais) -0, 356658 × (Transparência). CP 2 = 0, 347818 × (p. H) + 0, 349963 × (Oxigênio Dissolvido) + 0, 456894 × (Coliformes Termotolerantes) - 0, 452938 × (Nitrogênio Total ) - 0, 304178 × (IQA).

Representação de Draftman (matriz de dispersão) CONSISTE: na representação simultânea de todos os pares

Representação de Draftman (matriz de dispersão) CONSISTE: na representação simultânea de todos os pares de variáveis VANTAGENS: são bidimensionais necessárias apenas representações DESVANTAGENS: os objetos individuais não são facilmente identificados, dificultando assim a identificação de quais são similares e quais são diferentes. pairs(dados, col=as. numeric(dados$pass))

Representação de Draftman do número de pássaros e cinco variáveis medidas em 49 pardocas

Representação de Draftman do número de pássaros e cinco variáveis medidas em 49 pardocas • Retas de regressão incluídas nesses gráficos algumas vezes; • Servem para mostrar relação entre as variáveis; • Servem para mostrar existência entre quaisquer objetos com valores estranhos (DADOS DISCREPANTES). Sobreviventes Não sobreviventes

Representação de pontos de dados individuais • Consiste na representação de cada um dos

Representação de pontos de dados individuais • Consiste na representação de cada um dos objetos para os quais as variáveis são medidas por um símbolo, com características diferentes desse símbolo variando de acordo com as diferentes variáveis. EX: Faces de Chernoff e Estrela

Representação gráfica de medidas da mandíbula em diferentes grupos caninos (a)Faces de Chernoff (b)Estrela

Representação gráfica de medidas da mandíbula em diferentes grupos caninos (a)Faces de Chernoff (b)Estrela

Faces de Chernoff # Faces de Chernoff library("aplpack") caes=read. table("caes. txt", head=TRUE) caes x

Faces de Chernoff # Faces de Chernoff library("aplpack") caes=read. table("caes. txt", head=TRUE) caes x 1 x 2 x 3 cao_moderno 9. 7 21. 0 19. 4 chacal_dourado 8. 1 16. 7 18. 3 lobo_chines 13. 5 27. 3 26. 8 lobo_indiano 11. 5 24. 3 24. 5 cuon 10. 7 23. 5 21. 4 dingo 9. 6 22. 6 21. 1 cao_pre_historico 10. 3 22. 1 19. 1 faces(caes, face. type=1) x 4 x 5 x 6 7. 7 32. 0 36. 5 7. 0 30. 3 32. 9 10. 6 41. 9 48. 1 9. 3 40. 0 44. 6 8. 5 28. 8 37. 6 8. 3 34. 4 43. 1 8. 1 32. 2 35. 0

Faces de Chernoff Conexão variáveis Características X 1: Largura da mandíbula X 2: Altura

Faces de Chernoff Conexão variáveis Características X 1: Largura da mandíbula X 2: Altura da mandíbula X 3: Comprimento do primeiro molar X 4: Largura do primeiro molar X 5: Comprimento do primeiro ao terceiro molar X 6: Comprimento do primeiro ao quarto-pré-molar comprimento da face largura da face estrutura da face comprimento da boca largura da boca quantidade de sorriso X 1: Largura da mandíbula X 2: Altura da mandíbula X 3: Comprimento do primeiro molar X 4: Largura do primeiro molar X 5: Comprimento do primeiro ao terceiro molar X 6: Comprimento do primeiro ao quarto-pré-molar comprimento dos olhos largura dos olhos comprimento do cabelo largura do cabelo estilo do cabelo comprimento do nariz

Recomenda-se fazer diferentes atribuições alternativas de variáveis às características

Recomenda-se fazer diferentes atribuições alternativas de variáveis às características

# Estrela caes=read. table("caes. txt", head=TRUE) caes x 1 x 2 x 3 cao_moderno

# Estrela caes=read. table("caes. txt", head=TRUE) caes x 1 x 2 x 3 cao_moderno 9. 7 21. 0 19. 4 chacal_dourado 8. 1 16. 7 18. 3 lobo_chines 13. 5 27. 3 26. 8 lobo_indiano 11. 5 24. 3 24. 5 cuon 10. 7 23. 5 21. 4 dingo 9. 6 22. 6 21. 1 cao_pre_historico 10. 3 22. 1 19. 1 stars(caes, cex = 0. 55) x 4 x 5 x 6 7. 7 32. 0 36. 5 7. 0 30. 3 32. 9 10. 6 41. 9 48. 1 9. 3 40. 0 44. 6 8. 5 28. 8 37. 6 8. 3 34. 4 43. 1 8. 1 32. 2 35. 0

Vantagem • O uso de símbolos tem a vantagem de apresentar todas as variáveis

Vantagem • O uso de símbolos tem a vantagem de apresentar todas as variáveis simultaneamente. Desvantagem • A impressão captada do gráfico pode depender fortemente da ordem na qual os objetos são apresentados e da ordem na qual as variáveis são atribuídas aos diferentes aspectos do símbolo; • A natureza subjetiva desse tipo de processo é insatisfatória; • Dificilmente são encontrados em pacotes estatísticos.

Perfis de variáveis • É outra forma de representar objetos agora por linhas que

Perfis de variáveis • É outra forma de representar objetos agora por linhas que mostram o perfil dos valores das variáveis

caes = matrix(c(9. 7, 21, 19. 4, 7. 7, 32, 36. 5, 8. 1,

caes = matrix(c(9. 7, 21, 19. 4, 7. 7, 32, 36. 5, 8. 1, 16. 7, 18. 3, 7, 30. 3, 32. 9, 13. 5, 27. 3, 26. 8, 10. 6, 41. 9, 48. 1, 11. 5, 24. 3, 24. 5, 9. 3, 40, 44. 6, 10. 7, 23. 5, 21. 4, 8. 5, 28. 8, 37. 6, 9. 6, 22. 6, 21. 1, 8. 3, 34. 4, 43. 1, 10. 3, 22. 1, 19. 1, 8. 1, 32. 2, 35), byrow = TRUE , nrow=7, ncol=6, dimnames=list(c("cão moderno", "chacal dourado", "lobo chines", "lobo indiano", "cuon", "dingo", "cão pre-histórico"), c("Largura da mandíbula", "Altura da mandíbula", "Comprimento do 1º molar", "Largura do 1º molar", "Comprimento 1 -3 molar", "Comprimento 1 -4 molar"))) caes Larg da mandíbula cão moderno 9. 7 chacal dourado 8. 1 lobo chines 13. 5 lobo indiano 11. 5 cuon 10. 7 dingo 9. 6 cão pré-histórico 10. 3 Alt. da mandíbula Comp. do 1º molar Larg. do 1º molar Comp. 1 -3 molar 21. 0 19. 4 7. 7 32. 0 16. 7 18. 3 7. 0 30. 3 27. 3 26. 8 10. 6 41. 9 24. 3 24. 5 9. 3 40. 0 23. 5 21. 4 8. 5 28. 8 22. 6 21. 1 8. 3 34. 4 22. 1 19. 1 8. 1 32. 2 Comp. 1 -4 molar 36. 5 32. 9 48. 1 44. 6 37. 6 43. 1 35. 0

Alguns argumentos gráficos no R ü type Tipo de linha. "p" para pontos; "l"

Alguns argumentos gráficos no R ü type Tipo de linha. "p" para pontos; "l" para linhas; "b“ para ambos (ponto e linha) descontínuos; "o“ para sobrepor linha e o ponto; "h" para “histograma”, em linhas verticais; "s" para degrais (escada); "n" para não plotar. ülwd número (controla a espessura da linha).

üpch formato do ponto ücol especifica as cores: (“black”, “red”, “blue”, “pink”, “green”. .

üpch formato do ponto ücol especifica as cores: (“black”, “red”, “blue”, “pink”, “green”. . . )

plot(caes[1, ], xaxt="n", pch=15, type="o", lwd=0, ylim=c(0, 50), col="Forest. Green", xlab= "Variável", ylab= "Medida

plot(caes[1, ], xaxt="n", pch=15, type="o", lwd=0, ylim=c(0, 50), col="Forest. Green", xlab= "Variável", ylab= "Medida da mandíbula (mm)", main="Perfis de variáveis para as medidas da mandíbula para sete grupos caninos") points(caes[2, ], pch=16, type="o", lwd=0, col="Black") points(caes[3, ], pch=17, type="o", lwd=0, col="Orange") points(caes[4, ], pch=18, type="o", lwd=0, col="Purple 4") points(caes[5, ], pch=19, type="o", lwd=0, col="Dodger. Blue 3") points(caes[6, ], pch=20, type="o", lwd=0, col="Firebrick 3") points(caes[7, ], pch=8, type="o", lwd=0, col="pink") axis(side=1, at=c(1, 2, 3, 4, 5, 6), lab=c("X 1", "X 2", "X 3", "X 4", "X 5", "X 6")) legend(c(30, 50), pch=c(15, 16, 17, 18, 19, 20, 8), c("Cão moderno", "Chacal dourado", "Lobo Chinês", "Lobo Indiano", "Cuon", "Dingo", "Cão prémoderno"), col=c("Forest. Green", "Black", "Orange", "Purple 4", "Dodger. Blue 3", "Firebrick 3", "pink"), cex=0. 9)

caesordem=caes[, c(4, 1, 3, 2, 5, 6)] caesordem Larg. do 1º molar Larg. da

caesordem=caes[, c(4, 1, 3, 2, 5, 6)] caesordem Larg. do 1º molar Larg. da mand. Compr. do 1º molar cão moderno 7. 7 9. 7 19. 4 chacal dourado 7. 0 8. 1 18. 3 lobo chines 10. 6 13. 5 26. 8 lobo indiano 9. 3 11. 5 24. 5 cuon 8. 5 10. 7 21. 4 dingo 8. 3 9. 6 21. 1 cão pre-histórico 8. 1 10. 3 19. 1 Alt. Mand. Compr. 1 -3 molar Compr. 1 -4 molar 21. 0 32. 0 36. 5 16. 7 30. 3 32. 9 27. 3 41. 9 48. 1 24. 3 40. 0 44. 6 23. 5 28. 8 37. 6 22. 6 34. 4 43. 1 22. 1 32. 2 35. 0

plot(caesordem[1, ], xaxt="n", pch=15, type="o", lwd=0, ylim=c(0, 50), col="Forest. Green", xlab= "Variável", ylab= "Medida

plot(caesordem[1, ], xaxt="n", pch=15, type="o", lwd=0, ylim=c(0, 50), col="Forest. Green", xlab= "Variável", ylab= "Medida da mandíbula (mm)", main="Perfis de variáveis para as medidas da mandíbula para sete grupos caninos") points(caesordem[2, ], pch=16, type="o", lwd=0, col="Black") points(caesordem[3, ], pch=17, type="o", lwd=0, col="Orange") points(caesordem[4, ], pch=18, type="o", lwd=0, col="Purple 4") points(caesordem[5, ], pch=19, type="o", lwd=0, col="Dodger. Blue 3") points(caesordem[6, ], pch=20, type="o", lwd=0, col="Firebrick 3") points(caesordem[7, ], pch=8, type="o", lwd=0, col="pink") axis(side=1, at=c(1, 2, 3, 4, 5, 6), lab=c("X 4", "X 1", "X 3", "X 2", "X 5", "X 6")) legend(c(30, 50), pch=c(15, 16, 17, 18, 19, 20, 8), c("Cão moderno", "Chacal dourado", "Lobo Chinês", "Lobo Indiano", "Cuon", "Dingo", "Cão pré-histórico"), col=c("Forest. Green", "Black", "Orange", "Purple 4", "Dodger. Blue 3", "Firebrick 3", "pink"), cex=0. 9)

barplot( t(caes), beside=TRUE, legend. text = colnames(caes), args. legend= list(x = "topright"), main= "Uma

barplot( t(caes), beside=TRUE, legend. text = colnames(caes), args. legend= list(x = "topright"), main= "Uma maneira alternativa de mostrar perfis das variáveis usando colunas ao invés das linhas“, ylab = "Medidas da Mandíbula", xlab="grupos de caes", ylim=c(0, 70), sub="fonte: Bryan J. F. Manly")