Sistemas Inteligentes Aula Agentes Baseados em Lgica Flvia
Sistemas Inteligentes Aula: Agentes Baseados em Lógica Flávia Barros Patrícia Tedesco 1
Ao final desta aula, a gente deve Entender como funciona a Lógica Proposicional Entender como transformar Conhecimento em Ação 2
Bem-vindos ao “Mundo do Wumpus” Wumpus Agente caçador de tesouros 3
O Mundo do Wumpus: formulação do problema Ambiente: ◦ paredes, Wumpus, cavernas, buracos, ouro Estado inicial: ◦ agente na caverna (1, 1) com apenas uma flecha ◦ Wumpus e buracos em cavernas quaisquer Objetivos: ◦ pegar a barra de ouro & ◦ voltar à caverna (1, 1) com vida 4
O Mundo do Wumpus: formulação do problema Percepções: ◦ fedor ao redor do Wumpus ◦ vento ao redor dos buracos ◦ brilho do ouro - apenas na caverna onde ele está ◦ choque contra a parede da caverna ◦ grito do Wumpus quando ele morre 5
O Mundo do Wumpus: formulação do problema Ações do agente: ◦ avançar para próxima caverna ◦ girar 90 graus à direita ou à esquerda ◦ pegar o ouro na mesma caverna onde o agente está ◦ atirar na direção para onde está olhando a flecha pára quando encontra uma parede ou mata o Wumpus ◦ sair da caverna 6
Raciocinando e Agindo no Mundo do Wumpus Conhecimento do agente: (a) no início do jogo, depois de receber sua primeira percepção , e (b) depois do 1 o movimento, com a seqüência de percepções [nada, vento, nada, nada] (a) (b) 4 4 3 3 2 1 2 ok A ok ok 1 2 1 3 4 CV - caverna visitada ok B? CV ok 1 v A ok 2 B? 3 4 8
Raciocinando e Agindo no Mundo do Wumpus Estando o ouro!!! em (2, 2), o agente move-se para (2, 3) e encontra 4 B? W! 3 W! A A 2 f CV ok 1 CV CV v ok 4 3 2 1 f ok CV ok 1 ok v CV ok 2 B! 3 4 ok 1 CV - caverna visitada B? fvb 2 B! 3 4 9
Mundo de Wumpus Tipo do ambiente Observável ou não? Determinista ou Estocástico? Episódico ou Não-Episódico? Estático ou Dinâmico ? Discreto ou Contínuo ? 10
Mundo de Wumpus Tipo do ambiente Observável ou não-observável Determinista ou estocástico Episódico ou Não-Episódico Estático ou Dinâmico Discreto ou Contínuo 11
Mundo de Wumpus Arquiteturas do agente Agente puramente reativo Agente reativo com estado interno (autômato) Agente cognitivo (baseado em objetivos) Agente otimizador Agente adaptativo 12
Mundo de Wumpus Agente puramente reativo Exemplo de regra de reação ◦ IF percepção. Visual = brilho THEN ação = pegar Limitações do agente reativo puro ◦ um agente ótimo deveria: recuperar o ouro ou determinar que é muito perigoso pegar o ouro e em qualquer dos casos acima, voltar para (1, 1) e sair da caverna. ◦ Um agente reativo nunca sabe quando parar estar com o ouro e estar na caverna (1, 1) não fazem parte da sua percepção (se pegou, esqueceu). esses agentes podem entrar em laços infinitos. 13
Mundo de Wumpus Agente reativo com estado interno Regras associando indiretamente percepção com ação pela manutenção de um modelo do ambiente ◦ Ação a realizar agora depende da percepção atual + anteriores + ações anteriores. . . Motivação para guardar estado do ambiente ◦ O ambiente inteiro não é acessível no mesmo momento O agente só vê o interior da caverna quando esta dentro dela ◦ Percepções instantâneas iguais podem corresponder a estados diferentes ex. o agente sem estado interno não sabe quais são as cavernas já visitadas. . . 14
Agente reativo com estado interno Tipos de regras – geral. . . Além das regras de reação ◦ Sempre precisamos delas. . . Precisamos de novas regras para atualização do modelo do ambiente ◦ percepção modelo’ ◦ modelo’’ só quando o modelo se atualiza sozinho (via inferência) ◦ modelo’’ ação ◦ ação modelo’’’ 15
Mundo de Wumpus Agente reativo com estado interno Regras percepção modelo’ ◦ IF percepção. Visual no tempo T = brilho AND localização do agente no tempo T = (X, Y) THEN localização do ouro no tempo T = (X, Y) Regras modelo’ ◦ IF agente está com o ouro no tempo T AND localização do agente no tempo T = (X, Y) THEN localização do ouro no tempo T = (X, Y) 16
Mundo de Wumpus Agente reativo com estado interno Regras modelo ação ◦ IF localização do agente no tempo T = (X, Y) AND localização do ouro no tempo T = (X, Y) THEN ação escolhida no tempo T = pegar Regras ação modelo’ ◦ IF ação escolhida no tempo T = pegar THEN agente está com o ouro no tempo T+1 17
Mundo de Wumpus Agente reativo com estado interno Desvantagens desta arquitetura: ◦ Oferece autonomia, mas não muita ◦ Não tem objetivo explicito ◦ Não pensa no futuro (além da ação imediata) Ex. pode entrar em loop se as regras não forem bem projetadas 18
Agente cognitivo (baseado em objetivo) Sensores Interpretador de percepção Ambiente Atualizador do modelo do ambiente Atualizador do objetivos Modelo dos ambientes passados e atual Objetivos Preditor de ambientes futuros Atuadores Escolhedor de ação Modelo de ambientes futuros hipotéticos 19
Agente Cognitivo Funcionamento geral Associação entre percepção e ação ◦ Mediada por modelo do ambiente e objetivo do agente ◦ Pode envolver encadear regras para construir plano multipasso necessário para atingir objetivo a partir de modelo Ex. matar o Wumpus para poder atravessar a caverna onde ele esta e então pegar o ouro (objetivo) 20
Agente Cognitivo Funcionamento geral Capaz de lidar com os 5 tipos de regras do agente reativo com estado interno, além de 2 novos tipos de regras: ◦ Regras: objetivo modelo ação ◦ Regras: objetivo modelo objetivo’ Trata o objetivo explicitamente e pode pensar no futuro!!!! Porém. . . não trata objetivos conflitantes ◦ ex. pegar o ouro pelo caminho mais curto, seguro, rápido ◦ Isso fica para o Agente baseado em utilidade 21
Mundo de Wumpus - Agente Cognitivo Regras objetivo modelo ação - I O agente escolhe um caminho para o objetivo ◦ IF objetivo do agente no tempo T é estar na localidade (X, Y) AND agente está em (X-1, Y-1) no tempo T-N AND sabe que localidade (X, Y-1) é segura no tempo T-N AND sabe que localidade (X, Y) é segura no tempo T-N THEN escolha ação Vá-para (X, Y) via (X, Y-1) 22
Mundo de Wumpus - Agente Cognitivo Regras objetivo modelo ação - II O agente pode variar a escolha conforme o objetivo, como não matar o wumpus para pegar logo o ouro ◦ IF objetivo do agente é pegar o ouro AND agente está em (X-1, Y) no tempo T AND sabe que o ouro está na localidade (X, Y) AND sabe que localidade (X, Y) é segura no tempo T AND sabe que o Wumpus está na localidade (X-1, Y+1) no tempo T AND sabe que o agente tem uma flecha no tempo T THEN escolha ação Vá-para (X, Y) 23
Mundo de Wumpus - Agente Cognitivo Regras objetivo modelo objetivo’ Se o agente queria estar com o ouro e conseguiu, atualizar objetivo para “ir para (1, 1)” ◦ IF objetivo do agente no tempo T é estar com o ouro no tempo T+N AND agente está com o ouro no tempo T+1 THEN atualize o objetivo do agente no tempo T+1 para objetivo = (1, 1) no tempo T+M 24
Formalização de Agentes Baseados em Lógica Proposicional 25
Um Agente-BC Proposicional para o Mundo do Wumpus A Base de Conhecimento consiste em: ◦ Sentenças representando as percepções do agente ◦ Sentenças válidas implicadas a partir das sentenças das percepções Sentença válida: verdadeira sob qualquer interpretação ◦ Regras de inferência utilizadas para implicar novas sentenças a partir das sentenças existentes 26
Um Agente-BC para o Mundo do Wumpus Símbolos: ◦ Ax-y significa que “o agente está na caverna (x, y)” ◦ Bx-y significa que “existe um buraco na caverna (x, y)” ◦ Wx-y significa que “o Wumpus está na caverna (x, y)” ◦ Ox-y significa que “o ouro está na caverna (x, y)” ◦ vx-y significa que “existe vento na caverna (x, y)” ◦ fx-y significa que “existe fedor na caverna (x, y)” ◦ bx-y significa que “existe brilho na caverna (x, y)” 27
Base de Conhecimento para o Mundo do Wumpus Com base nas percepções do estado abaixo, o modelo do ambiente (memória de trabalho) deverá conter as seguintes sentenças: 4 Ø f 1 -1 Ø f 2 -1 f 1 -2 Ø v 1 -1 v 2 -1 Ø v 1 -2 3 2 1 W! A f ok CV ok 1 CV - caverna visitada ok v CV ok 2 B! 3 4 28
Base de Conhecimento para o Mundo do Wumpus O agente também tem algum conhecimento prévio sobre o ambiente, e. g. : ◦ se uma caverna não tem fedor, então o Wumpus não está nessa caverna, nem está em nenhuma caverna adjacente a ela. O agente terá uma regra para cada caverna no seu ambiente R 1: Ø f 1 -1 Ø W 1 -2 Ø W 2 -1 R 2: Ø f 2 -1 Ø W 1 -1 Ø W 2 -2 Ø W 3 -1 R 3: Ø f 1 -2 Ø W 1 -1 Ø W 1 -2 Ø W 2 -2 Ø W 1 -3 29
Base de Conhecimento para o Mundo do Wumpus O agente também deve saber que, se existe fedor em (1, 2), então deve haver um Wumpus em (1, 2) ou em alguma caverna adjacente a ela: R 4: f 1 -2 W 1 -3 Ú W 1 -2 Ú W 2 -2 Ú W 1 -1 30
Como Encontrar o Wumpus ? O Wumpus está em (1, 3). Como provar isto? ◦ O agente precisa mostrar que BC W 1 -3 é uma sentença válida: (1) construindo a Tabela-Verdade para a sentença existem 12 símbolos proposicionais na BC, então a Tabela. Verdade terá 12 colunas. . . F 11, F 12, F 21, W 12, W 13, v 12, v 21…. (2) usando regras de inferência! 31
Lógica Proposicional: Regras de Inferência Modus Ponens: E-eliminação: a/b diz que a sentença b pode ser derivada de a por inferência. E-introdução: Ou-introdução: Eliminação de dupla negação: Resolução unitária: Resolução: 32
Como Encontrar o Wumpus Inferência! Inicialmente, vamos mostrar que o Wumpus não está em nenhuma outra caverna, e então concluir, por eliminação, que ele está em (1, 3). 1. Aplicando Modus Ponens a Ø f 1 -1 e R 1, obtemos: Ø W 1 -1 Ø W 1 -2 Ø W 2 -1 2. Aplicando E-eliminação a (1), obtemos três sentenças isoladas: Ø W 1 -1 Ø W 1 -2 Ø W 2 -1 3. Aplicando Modus Ponens a Ø f 2 -1 e R 2, e em seguida aplicando E-eliminação obtemos: Ø W 1 -1 Ø W 2 -2 Ø W 3 -1 33
Como Encontrar o Wumpus Inferência! 4. Aplicando Modus Ponens a f 1 -2 e R 4, obtemos: W 1 -3 Ú W 1 -2 Ú W 2 -2 Ú W 1 -1 5. Aplicando Resolução Unidade, onde a é W 1 -3 Ú W 12 Ú W 2 -2 e b é W 1 -1 obtemos (do passo 2, temos Ø W 1 -1): W 1 -3 Ú W 1 -2 Ú W 2 -2 6. Aplicando Resolução Unidade, onde a é W 1 -3 Ú W 12 e b é W 2 -2 obtemos: W 1 -3 Ú W 1 -2 7. Aplicando Resolução Unidade, onde a é W 1 -3 e b é W 1 -2 obtemos: W 1 -3 !!! 34
Transformando Conhecimento em Ações Objetivo ◦ Definir regras que relacionem o estado atual do mundo às ações que o agente pode realizar Ações ◦ ◦ do agente (relembrando): avançar para próxima caverna girar 90 graus à direita ou à esquerda pegar um objeto na mesma caverna onde o agente está atirar na direção para onde está olhando a flecha pára quando encontra uma parede ou mata o Wumpus ◦ sair da caverna 35
Transformando Conhecimento em Ações Exemplo de Regra: ◦ o agente está na caverna (1, 1) virado para a direita, e ◦ o Wumpus está na caverna (2, 1), então: A 1 -1 Dir W 2 -1 Ø avançar Com essas regras, o agente pode então perguntar à BC que ação ele deve realizar: ◦ devo avançar? ◦ devo girar para a esquerda? ◦ devo atirar? , etc. . . 36
Problemas com o Agente Proposicional Problema: considerar existem proposições demais a ◦ ex. : a regra: “não avance se o Wumpus estiver em frente a você“ só pode ser representada com um conjunto de 64 regras. Se o agente executar 100 passos, a BC terá 6400 regras apenas para dizer que ele não deve avançar quando o Wumpus estiver em frente a ele. ◦ Assim, serão necessárias milhares de regras para definir um agente eficiente, e o processo de inferência ficará muito lento. 37
Problemas com o Agente Proposicional Outro problema: domínios dinâmicos! ◦ Quando o agente faz seu primeiro movimento, a proposição A 1 -1 torna-se falsa e A 2 -1 torna-se verdadeira. ◦ Soluções? ? ? não podemos apenas “apagar” A(1, 1) porque o agente precisa saber onde esteve antes. usar símbolos diferentes para a localização do agente a cada tempo T => a BC teria que ser “reescrita” a cada tempo T. 38
Problemas com o Agente Proposicional Conclusão ◦ a expressividade da Lógica Proposicional é fraca demais para nos interessar ◦ com a Lógica de Primeira Ordem, 64 regras proposicionais do agente Wumpus seriam reduzidas a 1 39
Lógica de Primeira Ordem - LPO É um formalismo de referência para representação de conhecimento ◦ o mais estudado e o melhor formalizado Satisfaz em grande parte os seguintes critérios: ◦ adequação representacional permite representar o mundo (expressividade) ◦ adequação inferencial permite inferência ◦ eficiência aquisicional facilidade de adicionar conhecimento ◦ modularidade 40
Engajamento Ontológico Natureza da realidade, descrição do mundo Na Lógica Proposicional, o mundo consiste em fatos. Na Lógica de Primeira Ordem, o mundo consiste em: ◦ objetos: “coisas” com identidade própria ex. pessoas, casas, Wumpus, caverna, etc. ◦ relações entre esses objetos ex. irmão-de, tem-cor, parte-de, adjacente, etc. ◦ propriedades (que distinguem esses objetos) ex. vermelho, redondo, fundo, fedorento, etc. ◦ funções: um ou mais objetos se relacionam com um único objeto ex. dobro, distância, pai_de, etc. 41
Engajamento Ontológico Além disso, a LPO exprime: ◦ fatos sobre todos objetos do universo ( ) ◦ fatos sobre objetos particulares ( ) Exemplos: ◦ 1+1=2 objetos: 1, 2; relação: =; função: +. ◦ Todas as Cavernas adjacentes ao Wumpus são fedorentas. objetos: cavernas, Wumpus; propriedade: fedorento; relação: adjacente. A LPO não faz engajamentos ontológicos para tempo, categorias e eventos. . . ◦ neutralidade favorece flexibilidade 42
Engajamento Epistemológico Estados do conhecimento (crenças) A LPO tem o mesmo engajamento epistemológico que a lógica proposicional ◦ tudo é verdadeiro ou falso Para tratar incerteza, usamos ◦ Outras lógicas (n-valoradas, fuzzy, paraconsistente, etc. ) ◦ Probabilidade 43
Resumo 44
Sistema Formal em LPO Cálculo = Cálculo de Predicados Linguagem Regras de derivação = LPO = regras de inferência sintaxe + semântica Teoria Axiomas = fatos + regras síncronas causais Teoremas = fatos derivados (axiomas + regras de derivação) diacrônicas de diagnóstico Base de Conhecimento = fatos e regras básicos (só axiomas!) Memória de Trabalho = fatos particulares à instância do problema e fatos derivados Máquina de Inferência = regras de inferência
Propriedades da Inferência Lógica Corretude ◦ gera apenas sentenças válidas Composicionalidade ◦ o significado de uma sentença é função do de suas partes Monotonicidade ◦ Tudo que era verdade continua sendo depois de uma inferência Localidade ◦ inferência apenas comparações locais (porção da BC). Localidade e composicionalidade ---> modularidade ---> reusabilidade e extensibilidade 46
Agentes baseados em LPO 47
Agentes baseados em LPO Representando sentenças no mundo: Pedro possui um cachorro. Todo dono de cachorro é um protetor dos animais. Nenhum protetor dos animais mata um animal. Representando sentenças na Lógica: x cachorro(x) possui(Pedro, x) x y (cachorro(y) possui(x, y)) protetor. Animais(x) x protetor. Animais(x) y animal(y) Ømata(x, y) 48
Agentes baseados em LPO Base de Conhecimento ◦ fatos e regras básicos, gerais, permanentes (só axiomas!) (x, z) Avó(x, z) Û (y) Mãe(x, y) (Mãe(y, z) Ú Pai(y, z)) Memória de Trabalho ◦ fatos particulares à instância do problema (axiomas) Pai(Caetano, Zeca), Mãe(Canô, Caetano) ◦ e fatos derivados (teoremas) Avó(Canô, Zeca) Máquina de Inferência ◦ regras de inferência 49
Relembrando. . . Raciocínio regressivo ou progressivo Primeiros passos 1. Armazenar as regras da BC na máquina de inferência (MI) e os fatos na memória de trabalho (MT) 2. Adicionar os dados iniciais à memória de trabalho 50
Agentes baseados em LPO função Agente-BC(percepção) retorna uma ação Tell(MT, Percepções-Sentença(percepção, t)) Tell Percepções-Sentença ação ¬ Ask(MT, Pergunta-Ação(t)) Ask Pergunta-Ação Tell(MT, Ação-Sentença(ação, t)) Tell Ação-Sentença t ¬t+1 retorna ação Onde. . . ◦ MT – memória de trabalho ◦ função Pergunta-Ação cria uma query como: a Ação(a, 6) ◦ função ASK devolve uma lista de instanciações: {a / Pegar} - Pegar é atribuída à variável ação. ◦ função TELL grava a ação escolhida na memória de trabalho. 51
Agentes baseados em LPO Como a função ASK responde as queries ◦ Quantificador : a resposta é booleana ASK(BC, Irmã(Betânia, Caetano)) -> true ASK(BC, x (Irmã(x, Caetano) Cantora(x))) -> false ◦ Quantificador : a resposta é uma lista de instanciações/substituições de variáveis - binding ASK (BC, x Irmã(x, Caetano)) -> {x/Betânia, x/Irene} ASK (BC, x (Irmã(x, Caetano) Cantora(x))) -> {x/Betânia} 52
Hipótese do Mundo Fechado Tudo que não estiver presente na base é considerado falso Isto simplifica (reduz) a BC ◦ Ex. Para dizer que a população dos países Nova Zelândia, África do Sul, Irlanda e França gostam do jogo Rugby, não precisa explicitamente dizer que os outros não gostam. . . 53
Agentes LPO para o Mundo do Wumpus 54
Um Agente LPO para o Mundo do Wumpus Interface entre o agente e o ambiente: ◦ sentença de percepções, que inclui as percepções e o tempo (passo) em que elas ocorreram e. g. : Percepção ([Fedor, Vento, Brilho, nada(~choque), nada(~grito)], 6) Ações do agente: ◦ Girar(Direita), Girar(Esquerda), Avançar, Atirar, Pegar, Soltar e Sair das cavernas 55
Um Agente LPO para o Mundo do Wumpus Três arquiteturas de Agentes baseados em LPO: ◦ Agente reativo ◦ Agente com Modelo do Mundo ◦ Agente baseado em Objetivo 56
Agente reativo baseado em LPO Possui regras ligando as seqüências de percepções a ações ◦ Essas regras assemelham-se a reações f, v, c, g, t Percepção([f, v, Brilho, c, g], t) Ação(Pegar, t) Essas regras dividem-se entre ◦ Regras de (interpretação) da percepção v, b, c, g, t Percepção([Fedor, v, b, c, g], t) Fedor (t) f, b, c, g, t Percepção([f, Vento, b, c, g], t) Vento (t) f, v, c, g, t Percepção([f, v, Brilho, c, g], t) Junto-do-Ouro (t). . . ◦ Regras de ação t Junto-do-Ouro (t) Ação(Pegar, t) 57
Limitações do agente reativo puro Como já vimos, um agente reativo puro nunca sabe quando parar ◦ estar com o ouro e estar na caverna (1, 1) não fazem parte da sua percepção se pegou, esqueceu ◦ esses agentes podem entrar em laços infinitos. Para ter essas informações, o agente precisa guardar uma representação do mundo. 58
Agentes LPO com Estado Interno Guardando modelo interno do mundo (MT) ◦ sentenças sobre o estado atual do mundo “agente está com o ouro” ◦ O modelo será atualizado quando O agente receber novas percepções e realizar ações ex. o agente pegou o ouro, . . Questão ◦ Como manter, com simplicidade, o modelo do mundo corretamente atualizado? 59
Representando Mudanças no Mundo Como representar as mudanças? ◦ Ex. , “O agente foi de [1, 1] para [1, 2]” 1. Apagar da MT sentenças que já não são verdade ruim: perdemos o conhecimento sobre o passado, o que impossibilita previsões de diferentes futuros. 2. Cada estado é representado por uma BC/MT diferente: ruim: pode explorar situações hipotéticas, porém não pode raciocinar sobre mais de uma situação ao mesmo tempo. ex. “existiam buracos em (1, 2) e (3, 2)? ” 60
Que definem o tipo de sistema construído. . . Tipos de regras 61
Regras síncronas causais Regras Causais assumem causalidade ◦ algumas propriedades no mundo causam certas percepções. ◦ Exemplos as cavernas adjacentes ao Wumpus são fedorentas : loc 1, loc 2, s Em (Wumpus, loc 1, s) Adjacente(loc 1, loc 2) Fedorento (loc 2) Se choveu, a grama está molhada ◦ Sistemas que raciocinam com regras causais são conhecidos como Sistemas Baseados em Modelos. 62
Regras síncronas de diagnóstico Regras de Diagnóstico: ◦ Raciocínio abdutivo: supõe a presença de propriedades escondidas a partir das percepções do agente ◦ Ex. , a ausência de fedor ou Vento implica que esse local e os adjacentes estão OK loc 1, loc 2, b, g, c, s Percepção ([nada, b, g, c], s) Em (Agente, loc 1, s) Adjacente(loc 1, loc 2) OK(loc 2) se a grama está molhada, então é porque o aguador ficou ligado ◦ Sistemas que raciocinam com regras de diagnóstico são conhecidos como Sistemas de Diagnóstico 63
Tipos de regras Atenção: ◦ Não se deve misturar numa mesma BC regras causais e de diagnóstico!!! ◦ se choveu é porque o aguador estava ligado. . . 64
Sistema de Ação-Valor Modularidade das Regras Adequação das regras 65
Modularidade das Regras As regras que definimos até agora não são totalmente modulares ◦ mudanças nas crenças do agente sobre algum aspecto do mundo requerem mudanças nas regras que lidam com outros aspectos que não mudaram Para tornar essas regras mais modulares, separamos fatos e regras sobre ações de fatos e regras sobre objetivos ◦ assim, o agente pode ser “reprogramado” mudandose o seu objetivo quando necessário 66
Modularidade das Regras Ações descrevem como alcançar resultados. Objetivos descrevem a adequação (desirability) de estados resultado ◦ não importando como foram alcançados. Assim, descrevemos a adequação das regras e deixamos que a máquina de inferência escolha a ação mais adequada 67
Adequação das Regras Ações podem ser ◦ ótimas, boas, médias, arriscadas ou mortais. ◦ Escala, em ordem decrescente de adequação Assim, pode-se escolher a ação mais adequada para a situação atual ◦ meta regras que determinam a prioridade de execução das regras – desempate ◦ ◦ a, s Ótima(a, s) Þ Ação(a, s) a, s Boa(a, s) (Ø b Ótima(b, s)) Þ Ação(a, s) a, s Média(a, s) (Ø b (Ótima(b, s) Ú Boa(b, s) )) Þ Ação(a, s) a, s Arriscada(a, s) (Ø b (Ótima(b, s) Ú Boa(b, s) Ú Média(a, s))) Þ Ação(a, s) 68
Adequação das Regras Essas regras são gerais, e podem ser usadas em situações diferentes: ◦ uma ação arriscada na situação S 0 onde o Wumpus está vivo ◦ pode ser ótima na situação S 2 quando o Wumpus já está morto Sistema de Ação-Valor ◦ Sistema baseado em regras de adequação ◦ Não se refere ao que a ação faz, mas a quão desejável ela é. 69
Sistema de Ação-Valor Prioridades do agente até encontrar o ouro: ◦ ações ótimas: pegar o ouro quando ele é encontrado, e sair das cavernas. ◦ ações boas: mover-se para uma caverna que está OK e ainda não foi visitada. ◦ ações médias: mover-se para uma caverna que está OK e já foi visitada. ◦ ações arriscadas: mover-se para uma caverna que não se sabe com certeza que não é mortal, mas também não é OK ◦ ações mortais: mover-se para cavernas que sabidamente contêm buracos ou o Wumpus vivo. 70
Agentes Baseados em Objetivos O conjunto de regras de adequação (ações-valores) é suficiente para prescrever uma boa estratégia de exploração inteligente das cavernas ◦ quando houver uma seqüência segura de ações , ele acha o ouro Depois de encontrar o ouro, a estratégia deve mudar. . . ◦ novo objetivo: estar na caverna (1, 1) e sair. s Segurando(ouro, s) Local. Objetivo ([1, 1], s) A presença de um objetivo explícito permite que o agente encontre uma seqüência de ações que alcançam esse objetivo 71
Como encontrar seqüências de ações (1) Inferência: ◦ Idéia: escrever axiomas que perguntam à BC/MT uma seqüência de ações que com certeza alcança o objetivo. ◦ Porém, para um mundo mais complexo, isto se torna muito caro como distinguir entre boas soluções e soluções mais dispendiosas (onde o agente anda “à toa” pelas cavernas)? 72
Como encontrar seqüências de ações (2) Planejamento ◦ utiliza um sistema de raciocínio dedicado, projetado para raciocinar sobre ações e conseqüências para objetivos diferentes. ficar rico e feliz pegar o ouro açõesee conseqüências ações sair das cavernas açõesee conseqüências ações 73
- Slides: 72