TCNICAS DE ANLISE DE DADOS PTR 5802 Tcnicas
- Slides: 71
TÉCNICAS DE ANÁLISE DE DADOS PTR 5802 Técnicas de Análise de Dados Aplicadas à Engenharia de Transportes 2 o. PERÍODO DE 2009 RESPONSÁVEIS: Prof. José Alberto Quintanilha Prof. Hugo Pietrantonio
TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO • REVISÃO – VARIÁVEIS ALEATÓRIAS – DISTRIBUIÇÕES DE PROBABILIDADE USUAIS – ESTIMAÇÃO E TESTES DE HIPÓTESES – AMOSTRAGEM – CORRELAÇÃO – REGRESSÃO BIVARIADA
TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO – Objetivos da disciplina – Programa da disciplina – Listas – Provas – Software – Bibliografia • Artigos • seminários – Avaliação
TÉCNICAS DE ANÁLISE DE DADOS - revisão • TIPOS DE VARIÁVEIS – QUALITATIVAS • ORDINAIS • NOMINAIS – QUANTITATIVAS • DISCRETAS • CONTÍNUAS
III – Tipos de variáveis geradoras de dados (Clóvis de Araújo Peres/SINAPE 2006) Categóricas Numéricas Nominal Ordinal (classificação) sexo, raça, região, grupo sangüíneo pressão sangüínea (baixa, normal, alta) Discreta (contagem) Número de acidentes, número de filhos Contínua (mensuração) Peso, altura, pressão sangüínea
VARIÁVEIS QUANTITATI- QUALITATI- VAS Nominal Ordinal (s/ordem) (c/ordem) Sexo sim/não Tem/não tem Grau instrução Opinião pública Pequeno/ médio/gran Discreta Contínua (contagem) (mensuração) # de acidentes, fluxo veicular, Peso, altura, preço # de defeitos por
TÉCNICAS DE ANÁLISE DE DADOS - revisão • VARIÁVEIS ALEATÓRIAS – INDEPENDENTES x MUTUAMENTE EXCLUSIVAS
TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÕES DE PROBABILIDADE USUAIS – – Normal Binomial Poisson Exponencial – CONJUNTAS – CONDICIONAIS
Conceitos: • Espaço Amostral: Conjunto de todos os resultados, inteiros não-negativos, possíveis do experimento; • Variável Aleatória: É uma função avaliada numericamente e definida no espaço amostral; • Histograma: É um dos tipos de gráficos mais utilizados para representar as frequências de uma variável aleatória;
Conceitos: • Distribuições de Probabilidade: Modelo Estatístico da ocorrência de valores (aleatórios) de um certo evento; - Discretas: A Função Distribuição Cumulativa Discreta é obtida pelas variáveis aleatórias discretas, que são aquelas que assumem um conjunto de valores finito ou infinito contável; - Contínuas: A Função Distribuição Cumulativa Contínua é obtida pelas variáveis aleatórias contínuas, que são aquelas que assumem uma série contínua de valores;
Principais Distribuições Aplicadas aos Transportes
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Binomial negativa • Geométrica • Hipergeométrica • Normal
TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÃO BINOMIAL Definição Considere p a probabilidade de um evento ocorrer em uma tentativa única (probabilidade de sucesso) e q = 1 p a de que o evento não ocorra em qualquer tentativa única (probabilidade insucesso), então a probabilidade do evento acontecer exatamente x vezes, em n tentativas (x sucessos e n-x insucessos) é definida por:
DISTRIBUIÇÃO BINOMIAL NEGATIVA • Para apresentar a distribuição binomial negativa, faremos uma análise do que foi apresentado na distribuição binomial. – O ponto de partida é o processo de Bernoulli, definido como o experimento aleatório cujo espaço amostral tem apenas dois possíveis resultados mutuamente excludentes denominados sucesso e falha, sendo a probabilidade de sucesso. – Se o processo Bernoulli for repetido n vezes, considerando que as experiências são independentes, então a variável aleatória X que define o número de sucessos do experimento terá distribuição binomial. Observe que, na distribuição binomial, o número de experimentos n é definido antecipadamente.
• Em vez de repetir o experimento um número determinado de vezes, pode-se estabelecer que o experimento seja repetido até conseguir o primeiro resultado sucesso. Nesse caso, a variável aleatória X que define o número de experimentos necessários até conseguir o primeiro resultado sucesso tem uma distribuição geométrica. • Ampliando as premissas da distribuição geométrica, em vez de repetir o experimento até conseguir o primeiro resultado sucesso, a distribuição binomial negativa, conhecida também como Distribuição de Pascal, permite determinar a probabilidade de que será necessário realizar exatamente n experimentos para obter x resultados de sucesso com probabilidade .
DISTRIBUIÇÃO HIPERGEOMÉTRICA • A distribuição hipergeométrica não é derivada da distribuição binomial, pois os experimentos são dependentes. • Numa população composta de N objetos que podem ser classificados em duas categorias, C 1 e C 2, de forma que na população há N 1 em C 1 e N 2 em C 2, desejamos retirar uma amostra sem reposição de n objetos dessa população, selecionando x objetos de C 1 e (n-x) objetos de C 2.
TÉCNICAS DE ANÁLISE DE DADOS - revisão
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Normal padrão: xi - média dos x’s zi = ---------------desvio padrão dos x’s Onde xi~N(média, d. p. ) e zi ~N(0, 1)
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Poisson • Exponencial • Gama • Erlang
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Discretas • Distribuição de Poisson: Probabilidade: Aplicação: Esta distribuição é frequentemente usada para análise do número de chegadas de clientes num tempo fixado, demanda de um determinado produto etc.
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuição de Poisson:
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuição de Poisson:
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Contínuas • Distribuição Exponencial: Função Densidade de Probabilidade: Aplicação: Esta distribuição é usada para análide do tempo entre a chegada de clientes, o tempo de duração de conversas telefônicas e o tempo de vida de componentes eletrônicos.
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuição Exponencial
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuição Exponencial
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Contínuas • Distribuição Gama: Função Densidade de Probabilidade: Aplicação: Esta distribuição é útil como uma representção matemática de fenômenos físicos ou para análide do tempo total para servir n clientes (independentes), lembrando que para o tempo de serviço para um cliente individualmente seja uma distribuição exponencial.
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Gama
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Distribuição Erlang: Função Densidade de Probabilidade: Aplicação: A análise de chegadas por esta distribuição, engloba o tempo de atendimento e tempo em fila, Morse (1967). Para r = 1 tem-se uma dist. Exp. E o processo de chegada é Poissoniano. Para r , chega-se a situação determinística. :
TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições de Erlang
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Probabilidade condicional: P(X e wi) p(X|wi) = ----------P(wi)
TÉCNICAS DE ANÁLISE DE DADOS - revisão • ESTIMAÇÃO E TESTES DE HIPÓTESES – Estimadores pontuais e por intervalos – Comparação entre médias • Pareado • Independentes
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimadores pontuais e por intervalos
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação da média Objetivo Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Vamos observar n elementos, extraídos ao acaso da população; • Para cada elemento selecionado, observamos o valor da variável X de interesse. • Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X 1, X 2, . . . , Xn.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual µ para é dado por: X 1 + X 2+. . . + Xn n Xbarra = ------------- = ∑ Xi n i=1
TÉCNICAS DE ANÁLISE DE DADOS - revisão • TEOREMA CENTRAL DO LIMITE Seja X uma v. a. que tem média µ e variância σ2. Para amostras X 1, X 2, . . . , Xn, retiradas ao acaso e com reposição de X, a distribuição de probabilidade da média amostral aproxima-se, para n grande, de uma distribuição normal, com média µ e variância σ2 / n , ou seja, Xbarra ~ N(µ; σ2 / n )
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Comentário: Se a distribuição de X é normal, então Xbarra tem distribuição normal. O desvio padrão √(σ2 / n) = (σ /√ n) é denominado erro padrão da média.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador intervalar ou intervalo de confiança para µ tem a forma: [Xbarra – є; Xbarra + є] sendo є o erro amostral (margem de erro) calculado a partir da distribuição de probabilidade de Xbarra.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Seja P(є) = γ, a probabilidade do intervalo: [µ – є; µ + є] conter a média amostral Xbarra numa distância de, no máximo є, da média populacional µ (desconhecida), ou seja, γ=P(| Xbarra - µ |<ou= є)=P(µ – є< Xbarra<µ + є)
TÉCNICAS DE ANÁLISE DE DADOS - revisão Fazendo z= є/(σ /√ n): γ =P(-z< Z<z), γ é o coeficiente de confiança.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • O intervalo de confiança para a estimativa intervalar da média µ, com coeficiente de confiança γ, é dado por: [Xbarra – z(σ /√ n); Xbarra + z(σ /√ n)].
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação para a proporção populacional p Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir da informação fornecida por uma amostra.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • A partir de n elementos, extraídos ao acaso e com reposição da população, verificamos, para cada elemento selecionado, a presença (sucesso) ou não (fracasso) da característica de interesse.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual p, também denominado proporção amostral para é dado por: Pchapéu= X/n X = no. de elementos na amostra que apresentam a característica; n = o tamanho da amostra coletada.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • A estimativa intervalar corresponde a um intervalo determinado da seguinte maneira: [Pchapéu – є; Pchapéu + є] sendo є o erro amostral ou margem de erro.
TÉCNICAS DE ANÁLISE DE DADOS - revisão Neste caso: P(є)= γ =P (| Pchapéu - P |<ou= є é o coeficiente de confiança. Como X ~ b(n, p) temos que, para n grande, a variável aleatória X-np Z = -----√ np(1 -p) tem distribuição N(0, 1) e, Є = z[√p(1 -p)/n] e n= (z/ є)2[p(1 -p)]
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Comparação entre médias • 1. Se um conjunto de medidas(amostra) faz parte de uma população. • 1. 1 Desvio padrão da população conhecido(teste –z) • 1. 2 Desvio padrão da população desconhecido(teste-t) 2. Se duas amostras são iguais (teste –t) • 2. 1 Comparação entre itens pareados • 2. 2 Amostras independentes • Para os casos acima: H 0: <m 1> =<m 2> • H 1: <m 1> <m 2> • Veremos depois como podemos verificar se uma média é maior do que a outra. Estes testes são chamados de testes direcionais ou testes uni-caudais.
TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Passo zero: Enunciar as hipóteses: H 0: m 1= m H 1 ( alternativa: ) m 1 m Primeiro passo: Identificar o tipo de teste • • Desvio padrão conhecido : teste z Igualdade de médias: teste não direcional Segundo passo estimar o erro aceitável do tipo I ( alfa) ou nível de significância. É usual escolher alfa=0, 05. Se possível determinar beta( probabilidade de erro do tipo 2) e Terceiro passo: coletar os dados ( n observações)
TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Quarto Passo. Calcular o erro padrão (Serro) ATENÇÃO! USAR O DESVIO PADRÃO DA POPULAÇÃO: Quinto passo. Calcular os limites de confiabilidade para a média, usando o valor de z ( z crítico) obtido a partir do valor de alfa escolhido : inv. normp(alfa/2) do excel. M+= <m 1> + z * Serro e M- = <m 1>- z* Serro Sexto passo. Verificar se a média desejada está dentro dos limites calculados. Se estiver, aceita-se (não podemos rejeitar H 0) H 0 m 1 =m Se não estiver, rejeitamos H 0 e aceitamos H 1 m 1 m Sétimo passo: fazer recomendações. . . ( rejeitar lote, fazer mais medidas, aceitar lote, trocar fornecedor, trocar equipamento. . )
Exemplo: O diâmetro de uma peça após a nitretação deve ser de 0, 2540 cm com desvio padrão de 0, 0001 cm. Verifica-se que a média dos diâmetros de uma amostra com 10 itens é 0, 2545 cm. A amostra atende a especificação? 0 Passo zero: H 0: m 1= m 0, 2545 = 0, 2540 H 1 ( alternativa: ) 0, 2545 0, 2540 1. Primeiro passo: Identificar o tipo de teste a. Desvio padrão conhecido : teste z b. Igualdade de médias: teste não direcional 2. Segundo passo estimar o erro aceitável do tipo I ( alfa) ou nível de significância. alfa=0, 05. 3. Terceiro passo: dados (10 observações com m 1= 0, 2545 cm)
Exemplo cont. 4. Quarto Passo. : 5. Quinto passo Calcular os limites de confiabilidade para a média, z= 1, 96 M+= 0, 2545 + 1, 96 x Serro e M- = 0, 2545 - 1, 96 x Serro 0 s limites são : 0, 254438 cm e 0, 254562 cm. 6. Sexto passo A média desejada (0, 2540 cm) não está dentro dos limites. Rejeitamos H 0 e aceitamos H 1 m 1 m 7. Sétimo passo: fazer recomendações. . . ( rejeitar lote)
TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 2: usando o valor de z Até o quarto passo os métodos são idênticos. Quinto passo Calcular o valor de z (z calculado) Sexto passo Verificar se o valor de z calculado é maior, em módulo, do que o valor de z crítico obtido de inv. normp(alfa). Se for maior, significa que as diferenças são muito grandes e rejeita-se H 0 m 1 =m e aceitamos H 1 m 1 m Se for menor, significa que as diferenças são pequenas e devemos aceitar H 0 (Não foi possível rejeitar H 0) Sétimo passo: fazer recomendações. . . ( rejeitar lote, fazer mais medidas, aceitar lote, trocar fornecedor, trocar equipamento. . )
TÉCNICAS DE ANÁLISE DE DADOS - revisão Erros na conclusão TIPO I: Rejeitamos a hipótese nula sendo ela verdadeira ( ) é chamado de nível de significância do teste. TIPO II : Não rejeitamos a hipótese nula sendo ela falsa ( ) Poder : 1 -
TÉCNICAS DE ANÁLISE DE DADOS - revisão
TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM – Obter parte das informações e efetuar inferências – “processo pelo qual inferências são feitas examinando-se apenas uma parte do todo” – vantagens: custo, rapidez, exatidão, amplitude de informações
TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: principais fases – Objetivo do levantamento – população alvo e população a ser amostrada – determinação da precisão desejada
TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: terminologia – Unidade amostral (ou elementar) – Universo ou população – Variável aleatória – Amostra
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Levantamentos censitários são levantamentos cujo resultado (o censo) visa conhecer a totalidade da(s) característica(s) individuais de cada população. • Já os levantamentos amostrais tem como resultado, amostras, definidas como “subconjunto de uma população, por meio do qual se estabelecem ou estima as propriedades e características dessa população” (Bolfarine e Bussab, 2005). É o processo pelo qual inferências são feitas examinando-se apenas uma parte do todo. Tem como algumas vantagens, um menor custo, uma maior rapidez, permite o levantamento de uma amplitude maior de informações com uma exatidão pré-estabelecida.
TÉCNICAS DE ANÁLISE DE DADOS - revisão • Sucintamente, as principais fases de um levantamento amostral são: – a definição do objetivo do levantamento; – a definição da população alvo a ser estudada e da população efetivamente a ser amostrada; – a determinação da exatidão desejada (ou possível).
TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: técnicas – – casual simples (com e sem reposição) sistemática aleatória estratificada por conglomerados
TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: Plano amostral – dimensionamento da amostra: a partir de z= є/(σ /√ n), temos: є= zσ /√ n. O tamanho n da amostra pode então ser determinado por: n = (z/e)2σ2
AMOSTRAGEM • Esquemas de amostragem espacial CASUAL SIMPLES SISTEMÁTICA ESTRATIFICADA ALEATÓRIA ESTRATIFICADA SISTEMÁTICA CONGLOMERADOS ALEATÓRIA
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – observação = previsível + aleatória – aleatória obedece algum modelo de probabilidade – ferramenta: análise de variância
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – “identificar fatores, controláveis, que expliquem o fenômeno ou alterem a característica de interesse” – “identificar estruturas nos dados, permite conhecer melhor o fenômeno”
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – fator versus variável – níveis do fator (tratamento) – unidade experimental – fator fixo versus fator aleatório
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – experimentos com um fator fixo e k níveis: yij = μ + Ti + eij μ: média geral de todas as observações Ti: efeito do i-ésimo nível do fator T (cte. ) eij: erro casual não observável – Hipótese H 0: T 1 =. . . = Tk = 0
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS • F. V. gl SQ • entre k-1 SQE QME/QMR • dentro • Total n-k n-1 SQR QMR SQT QM F 0
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – Decisão: rejeita-se H 0 se F 0 > Fk-1, n-k, α
TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – experimentos mais complexos (múltiplos fatores, fatores cruzados e hierárquicos, blocos) – comparações múltiplas
TÉCNICAS DE ANÁLISE DE DADOS - revisão • FONTES: – wwwgen. fmrp. usp. br/rgm 5837/2006/Bio_Aula_04_Distr_de_Probabilidade 10112 006. ppt – www. ime. usp. br/~sandoval/mae 5755/Estimacao_da_%20 Proporcao. pdf – www. ime. usp. br/~sandoval/mae 5755/Inferencia%20 estatistica. pdf – http: //www. ime. usp. br/~sandoval/mae 5755/Estimacao_da_%20 media. pdf – Curso de Análise Estatística - SINAPE 2006 - Prof. Dr. Clóvis de Araújo Peres – ceperes@medprev. epm. br – http: //pcc 5746. pcc. usp. br/Textos_Tecnicos/PCC%205746%20%20 Amostragem%20 estat%C 3%ADstica. PDF – http: //www. materiais. ufsc. br/Disciplinas/metodosestatisticospg/2003/aulaz. ppt – Edições anteriores da disciplina: material do docente e de alunos. – Material sobre correlação e regressão: www. ime. usp. br/~clelia/MAE 116_Biologia/Aula_Descritiva. III. ppt
- Anlise swot
- Dados absolutos e dados relativos
- Tcnicas de estudio
- En que consiste el metodo lser
- Tcnicas
- Tcnicas de estudio
- Tcnicas de estudio
- Ptr operator in assembly language
- Int ival char cval
- Jmp dword ptr
- Roseta ptr telefonica
- Diketahui ∠ aec =1000 . besar ∠ abc adalah....
- Banco simave
- Banco de dados
- Quantas possibilidades existem para
- Banco de dados ii
- Interface de dados
- Estrutura de dados
- Arquitetura paralela banco de dados
- Tipos de intervalos
- Formula da mediana
- Slidetodoc.com
- Estrutura de dados
- Estrutura de dados
- Fila estrutura de dados
- Dependência funcional
- Mecanografia e processamento de dados
- Banco de dados e sistemas de informações de rh
- Jose paulo e antonio estao jogando dados
- Banco de dados olap
- Tupla banco de dados
- Modelo de coleta de dados
- Banco de dados moodle
- Banco de dados rh
- Dados do instituto de pesquisas econômicas aplicadas
- Um funcionario
- Quicksort estrutura de dados
- Estrutura de dados
- Intervalos reais
- Espacio muestral de 2 dados
- Os dados x e y que faltam no quadro são
- Instancia
- 1fn 2fn 3fn
- Dicionrio
- Simbologia switch
- Final inesperado de dados asn1
- O que é firebird
- Modelagem de dados
- Os dados x e y que faltam no quadro são
- Retirando ao acaso uma carta de um baralho comum
- Korth silberschatz e sudarshan (2012) descrevem que na
- Tad tipo abstrato de dados
- Ufma de acordo com a equação abaixo e os dados fornecidos
- Estrutura de dados
- Banco de dados mer
- Dados referenciais
- Rita comprou 6 caixas com 12 ovos cada
- Dado os intervalos reais abaixo representa os por extenso
- Tipos de relacionamentos base de dados
- Dtraduc
- Sigsif base de dados
- Banco de dados
- Analise de dados
- Anticiclonais
- Uml banco de dados
- Dne correios download 2021
- Pedestal de cimentacion
- Qualitativo e quantitativo
- Intersecção e reunião de intervalos
- Análise multivariada de dados hair
- Interface de dados
- Quais dados