Universidade de Campinas UNICAMP MO 443MC 920 Introduo
- Slides: 47
Universidade de Campinas (UNICAMP) MO 443/MC 920 Introdução ao Processamento de Imagem Digital Clustering de pixels por Kmeans Classificação de pixels por Knn Alexandre Xavier Falcão & David Menotti
Objetivos • Introduzir diferentes tipos de aprendizagem – Não Supervisionada (Kmeans) – Supervisionada (Knn) • não paramétricos. • Relacionar as técnicas com pixels
Aprendizagem Não-Supervisionada • O que pode ser feito quando se tem um conjunto de exemplos mas não se conhece as categorias envolvidas?
Como ‘‘classificar’’ esses pontos? Por que estudar esse tipo de problema?
Aprendizagem Não-Supervisionada • Primeiramente, coletar e rotular bases de dados pode ser extremamente caro. – Gravar voz é barato, mas rotular todo o material gravado é caro. – Rotular TODA uma grande base de imagens é muito caro, mas. . . alguns elementos de cada classe não • Segundo, muitas vezes não se tem conhecimento das classes envolvidas. – Trabalho exploratório nos dados (ex. Data Mining. )
Aprendizagem Não-Supervisionada • Pré-classificação: – Suponha que as categorias envolvidas são conhecidas, mas a base não está rotulada. – Pode-se utilizar a aprendizagem nãosupervisionada para fazer uma pré-classificação, e então treinar um classificador de maneira supervisionada (tópico de pesquisa)
Clustering • É a organização dos objetos similares (em algum aspecto) em grupos. Quatro grupos (clusters)
Cluster • Uma coleção de objetos que são similares entre si, e diferentes dos objetos pertencentes a outros clusters. • Isso requer uma medida de similaridade. • No exemplo anterior, a similaridade utilizada foi a distância. – Distance-based Clustering
k-Means Clustering • É a técnica mais simples de aprendizagem não supervisionada. • Consiste em fixar k centróides (de maneira aleatória), um para cada grupo (clusters). • Associar cada indivíduo ao seu centróide mais próximo. • Recalcular os centróides com base nos indivíduos classificados.
Algoritmo k-Means 1. Determinar os centróides 2. Atribuir a cada objeto do grupo o centróide mais próximo. 3. Após atribuir um centróide a cada objeto, recalcular os centróides. 4. Repetir os passos 2 e 3 até que os centróides não sejam modificados.
k-Means – Um Exemplo Objetos em um plano 2 D
k-Means – Um Exemplo Passo 1: Centróides inseridos aleatoriamente
k-Means – Um Exemplo Passo 2: Atribuir a cada objeto o centróide mais próximo
k-Means – Um Exemplo Passo 3: Recalcular os centróides
k-Means – Um Exemplo Impacto da inicialização aleatória.
k-Means – Um Exemplo Fronteira Diferente Impacto da inicialização aleatória
k-Means – Inicialização • Importância da inicialização. • Quando se têm noção dos centróides, pode-se melhorar a convergência do algoritmo. • Execução do algoritmo várias vezes, permite reduzir impacto da inicialização aleatória.
k-Means – Um Exemplo 4 Centróides
Calculando Distâncias • Distância Euclidiana y x • Manhattan (City Block) y x
Calculando Distâncias • Minkowski – Parâmetro r • r = 2, distância Euclidiana • r = 1, City Block
Calculando Distâncias • Mahalanobis – Leva em consideração as variações estatísticas dos pontos. Por exemplo se x e y são dois pontos da mesma distribuição, com matriz de covariância C, a distância é dada pela equação – Se a matriz C for uma matriz identidade, essa distância é igual a distância Euclidiana.
Critérios de Otimização • Até agora discutimos somente como medir a similaridade. • Um outros aspecto importante em clustering é o critério a ser otimizado. • Considere um conjunto composto de n exemplos, e que deve ser dividido em c subconjuntos disjuntos. • Cada sub-conjunto representa um cluster.
Critérios de Otimização • O problema consiste em encontrar os clusters que minimizam/maximizam um dado critério. • Alguns critérios de otimização: – Soma dos Erros Quadrados. – Critérios de Dispersão
Soma dos Erros Quadrados • É o mais simples e usado critério de otimização em clustering. • Seja ni o número de exemplos no cluster Di e seja mi a média desse exemplos • A soma dos erros quadrados é definida
Soma dos Erros Quadrados Je = pequeno Je = grande Je = pequeno Adequado nesses casos - Separação natural Não é muito adequado para dados mais dispersos. Outliers podem afetar bastante os vetores médios m
Critérios de Dispersão • Vetor médio do cluster i • Vetor médio total • Dispersão do cluster i • Within-cluster • Between-cluster
Critérios de Dispersão • Relação Within-Between Caso ideal Alto between (Sb) Clusters distantes um do outro. Baixo within (Sw) (boa compactação)
Critérios de Dispersão Caso não ideal Baixo between (Sb) Baixa distância entre os clusters. Clusters dispersos Alto within
Critérios de Dispersão • Podemos entender melhor os critérios de dispersão analisando o seguinte exemplo:
Diferentes clusters para c=2 usando diferentes critérios de otimização Erro Quadrado Sw Relação Sw/Sb
Normalização • Evitar que uma característica se sobressaia a outras. – V 1 = {200, 0. 5, 0. 002} – V 2 = {220, 0. 9, 0. 050} • Se calcularmos a distância Euclidiana, veremos que a primeira característica dominará o resultado. 32
Normalização • Diferentes técnicas de normalização Min-Max Tanh Z-Score Soma 33
Normalização • Considere as seguintes características – Qual delas discrimina os pontos verdes x azuis?
Aprendizagem Supervisionada • Alguém (um professor) fornece a identificação (rótulos) de cada objeto da base de dados. – Métodos Paramétricos: Assumem que a distribuição dos dados é conhecida (distribuição normal por exemplo) – Métodos Não-Paramétricos: Não consideram essa hipótese.
Aprendizagem Supervisionada • Em muitos casos não se tem conhecimento da distribuição dos dados. • Consequentemente, utilizar um método paramétrico pode não ser adequado. Distribuição Normal
Aprendizagem Supervisionada • Um algoritmo não-paramétrico para aprendizagem supervisionada é o k-NN (k Nearest Neighbor). • Consiste em atribuir a um exemplo de teste x a classe do seu vizinho mais próximo.
k-NN • Significado de k: – Classificar x atribuindo a ele o rótulo representado mais frequentemente dentre as k amostras mais próximas. – Contagem de votos. • Uma medida de proximidade bastante utilizada é a distância Euclidiana:
k-NN: Um Exemplo A qual classe pertence este ponto? Azul ou vermelho? Calcule para os seguintes valores de k: k=1 não se pode afirmar k=3 vermelho – 5, 2 - 5, 3 k=5 vermelho – 5, 2 - 5, 3 - 6, 2 4 k=7 azul – 3, 2 - 2, 3 - 2, 2 - 2, 1 3 2 1 1 2 3 4 5 6 7 8 A classificação pode mudar de acordo com a escolha de k.
k. NN: Funciona bem? • Certamente o k. NN é uma regra simples e intuitiva. • Considerando que temos um número ilimitado de exemplos – O melhor que podemos obter é o erro Bayesiano (E*) – Para n tendendo ao infinito, pode-se demonstrar que o erro do k. NN é menor que 2 E* • Ou seja, se tivermos bastante exemplos, o k. NN vai funcionar bem.
k. NN: Distribuições Multi-Modais • Um caso complexo de classificação no qual o k. NN tem sucesso.
k. NN: Como escolher k • Não é um problema trivial. – k deve ser grande para minimizar o erro. • k muito pequeno leva a fronteiras ruidosas. – k deve ser pequeno para que somente exemplos próximos sejam incluídos. • Encontrar o balanço não é uma coisa trivial. – Base de validação
k. NN: Como escolher k • Para k = 1, . . . , 7 o ponto x é corretamente classificado (vermelho. ) • Para k > 7, a classificação passa para a classe azul (erro)
k. NN: Complexidade • O algoritmo básico do k. NN armazena todos os exemplos. Suponha que tenhamos n exemplos – O(n) é a complexidade para encontrar o vizinho mais próximo. – O(nk) complexidade para encontrar k exemplos mais próximos • Considerando que precisamos de um n grande para o k. NN funcionar bem, a complexidade torna-se problema.
k. NN: Reduzindo complexidade • Se uma célula dentro do diagrama de Voronoi possui os mesmos vizinhos, ela pode ser removida. Mantemos a mesma fronteira e diminuímos a quantidade de exemplos
k. NN: Reduzindo complexidade • k. NN protótipos – Consiste em construir protótipos para representar a base – Diminui a complexidade, mas não garante as mesmas fronteiras
- Cmdca campinas
- Campinas 2005 accident
- Vigiagro campinas
- Posto vista alegre
- Arm-920
- Varian 920 lc
- Varian 920 lc
- Is a 920 a good psat score
- 920 007899
- Nokia lumia 920 windows 10
- Fiier
- Nelson fonseca unicamp
- Paais 0 unicamp
- Terrômetro
- Dgrh unicamp vida funcional
- Mathematica unicamp
- Acervus unicamp
- Cad unicamp
- Unicamp o impressionante exercito de argila
- Faculdade de tecnologia da unicamp
- Fcm unicamp
- Unicamp reproduzimos abaixo a chamada
- Ufg um determinado volume de agua foi colocado
- Modle unicamp
- Mc102 unicamp
- "prof universidade paulista unip"
- Unisese
- Meu pergamum unifesp
- Universidade federal de santa catarina
- Universidade católica do salvador ex-alunos notáveis
- Universidade estadual paulista subsidiárias
- Universidade federal do rio grande do norte
- Desinquinação
- Universidade federal de santa catarina
- "prof universidade paulista unip"
- Universidade federal de santa catarina brazil
- Universidade federal do amazonas
- Universidade federal de santa catarina
- "prof universidade paulista unip"
- Universidade federal do rio grande do norte
- Universidade castelo branco centro
- Universidade federal de santa catarina
- Unip engenharia quimica
- Universidade federal do amazonas
- Texto-base adaptada universidade federal de alagoas ufal
- Universidade de newcastle
- Universidade cvc
- Univap - universidade do vale do paraíba