Programao em Lgica Indutiva Jacques Robin DIUFPE O

Programação em Lógica Indutiva Jacques Robin DI-UFPE

O que é ILP (Inductive Logic Programming)? Aprendizagem Indutivo Aprendizagem de Árvores de Decisão Programação em Lógica Indutiva (ILP) Aprendizagem de Regras Proposicionais Aprendizagem Atributivo Lógica de ordem 0 Aprendizagem Relacional Lógica da 1 a ordem Programação em Lógica

Revisão da Programação em Lógica Representação uniforme de dados e conhecimento com Lógica de Horn F Sub-conjunto (próprio) da lógica clássica da 1 a ordem F Restrito a Cláusulas de Horn, i. e. , implicações da forma: . . . X, Y, Z, . . . p 1(. . . , X, Y, . . . ) . . . pn(. . . , Y, Z, . . . ) c(. . . , X, Y, Z, . . . ) F Notação Prolog: F F Conhecimento dedutivo em intenção (regras): c(. . . , X, Y, Z, . . . ) : - p 1(. . . , X, Y, . . . ), . . . , pn(. . . , Y, Z, . . . ). F Dados em extensão (fatos): F p 1(. . . , a, b, . . . ). logicamente equivalente a T p 1(. . . , a, b, . . . ). F Interpretador Prolog: F sistema dedutivo F provador de teorema para Lógica de Horn

Exemplo de programa Prolog father(pat, ann). mother(sue, pat). parent(F, C) : - father(F, C). parent(M, C) : - mother(P, C). ancestor(A, D) : - parent(A, D). ancestor(A, D) : - parent(P, D), ancestor(A, P). ? ancestor(A, ann). yes: A = pat ? ; yes: A = sue ? ; no ? ancestor(A, sue). no ?

Prolog F F F Linguagem de programação computacionalmente completa de propósito geral Especificação formal executável Banco de dados dedutivo: F fato Prolog = registro de tabela relacional F predicado Prolog = entidade ou relação F regra (não recursiva) Prolog = visão de BD relacional F Gramáticas de Cláusulas Definidas (DCG): F pré-processador built-in da programação em lógica: F convertendo regras de gramáticas em cláusulas lógicas, e assim F re-aproveitando o provador de teorema da programação em lógica para implementar “de graça” parser ou gerador de frases

DCGs: Gramáticas de Cláusulas Definidas F Pré-processador built-in da programação em lógica: F convertendo regras de gramáticas em cláusulas lógicas, e assim F re-aproveitando o provador de teorema da programação em lógica para implementar “de graça” parser ou gerador de frases F Usa diferença de listas como estrutura de dados: F F frase da linguagem cuja gramática é representada pela DCG - lista de palavras ainda a ser processadas = listas de palavras já processadas Cada regra DCG: F associada a uma categoria sintática genérica cat F instancia 2 argumentos adicionais implícitos: 1. lista de palavras do constituinte const da frase de catégoria cat 2. lista de palavras do resto da frase na direita de const

Conversão regra DCG / cláusula Prolog F Princípio: F Usa diferença de listas como estrutura de dados: F F F frase da linguagem cuja gramática é representada pela DCG - lista de palavras ainda a ser processadas = listas de palavras já processadas Cada regra DCG: Fassociada a uma categoria sintática genérica cat Finstancia 2 argumentos adicionais implícitos: 1. lista de palavras do constituinte const da frase de catégoria cat 2. lista de palavras do resto da frase na direita de const Exemplo: Regras de gramáticas: sn --> det, subs. Entradas do dicionário: det --> [o]. det--> [a]. det --> [os]. det --> [as]. subs --> [meninos]. subs --> [meninas]. Conversão para cláusulas Prolog: sn(Csn, Rsn) : - det(Csn, Rdet), subs(Rdet, Rsn). det([o|Rdet], Rdet). det([a|Rdet], Rdet). det([os|Rdet], Rdet). det([as|Rdet], Rdet). subs([menino|Rsubs], Rsubs). subs([meninos|Rsubs], Rsubs). subs([meninas|Rsubs], Rsubs).

Prolog DGC: exemplo de execução sn(Csn, Rsn) : - det(Csn, Rdet), subs(Rdet, Rsn). det([o|Rdet], Rdet). det([a|Rdet], Rdet). det([os|Rdet], Rdet). det([as|Rdet], Rdet). subs([menino|Rsubs], Rsubs). subs([meninos|Rsubs], Rsubs). subs([meninas|Rsubs], Rsubs). ? - sn([o, menino], []). call det([o, menino], Rdet). exit det([o, menino], [menino]). call subs([menino], []). exit sn([o, menino], []). yes ? - subs([menino], []). yes ? - det([o, menino], [menino]). yes ? - sn([minha, menina], []). no ? - sn([o, meninas], []). yes

Paradigmas de raciocínio P = { Pj} fatos particulares C = {Cj } | P R |= C} fatos particulares Dedução R = {Rk: P 1 k . . . Plk Ck } regras gerais C = {Cj} fatos particulares R = {Rk: P 1 k . . . Plk Ck} regras gerais Abdução P = {Pj VH } | P R |= C} fatos particulares hipotéticos Viés VP sobre hipóteses E = { Pj} {Cj} fatos particulares {Bk: B= P 1 . . . Pn regras gerais k k Ck} Indução H = {Hn: P 1 n . . . Pmn Cn VH } | E B H |= C regras gerais hipotéticas Viés VR sobre hipóteses

Idéias da ILP F F Induzir regras Prolog A partir de: F exemplos codificados como fatos Prolog F conhecimento prévio codificado como fatos e regras Prolog F Indução = geração de hipótese + teste de hipótese F ILP usa mecanismos de busca análogos a busca no espaço de versão da aprendizagem atributiva para gerar hipóteses F ILP reaproveita dedução automática de Prolog para testar hipótese F Linguagem de ILP x Prolog: F com negações no BD e nas conclusões F geralmente sem símbolos de função, ex. : pessoa(nome(joão), idade(20)).

ID 3 Entrada: F única tabela de BD representa conhecimento prévio F apenas em extensão F apenas sobre um tipo de entidade Saída: F F F conhecimento sobre classes de entidades em um formalismo diferente da entrada não diretamente executável x ILP Entrada: F uma ou várias tabelas de BD representam F vários tipos de entidades e relações F F F uma base de regras representa conhecimento prévio em intenção Saída: conhecimento sobre classes de entidades e/ou relações no mesmo formalismo do que a entrada diretamente executável (por um interpretador Prolog) Vale não apenas para ID 3 e sim para todos os métodos de aprendizagem baseados em representação proposicional atributo-valor: Weka, Redes Neurais, todos os métodos ensinados no CIn exceto ILP

Indução de árvore de decisão: características F F Tarefas: classificação, previsão e controle Ambiente: F inacessível: + F não episódico: + F contínuo: + ou F ruidoso: + F dinâmico: + F relacional: F diverso: F grande: + F Supervisionado F Controle da aprendizagem: F Treino antes da ação F Não incremental F Não iterativo F Top-down F Guloso F Global F F F Representação do conhecimento: lógica propocisional Não pode aproveitar de conhecimento prévio Propriedades da função aproximada: escada N dimensional

Programação em Lógica Indutiva (ILP): características F F Tarefas: classificação, previsão e controle Ambiente pode ser: F inacessível, não episódico F contínuo, ruidoso F dinâmico? , grande? F relacional, diverso F F Supervisionado: E+ E- ou E+ Treino antes da ação F F F F Incremental ou não Não iterativo Top-down ou bottom-up ou bidirecional Guloso Global Aproveita conhecimento prévio para podar busca da hipótese Aproxima qualquer função

Dados de lentes Entrada para ID 3: age spectacle prescription astigmatism tear rate lens young myope no reduced none normal none . . . Presbyopic hypermetrope yes Entrada para ILP: age(fulano, young). spectacle. Prescription(fulano, myope). astigmatism(fulano, no). tear. Rate(fulano, no). lens(fulano, no). . age(beltrano, presbyopic). spectacle. Prescriptio(beltrano, hypermetrope). astigmatim(beltrano, yes). tear. Rate(beltrano, reduced). lens(beltrano, none).

Árvore de decisão em Prolog lens(X, none) : tear. Production. Rate(X, reduced), !. lens(X, soft) : tear. Production. Rate(X, normal), astimatism(X, no), !. lens(X, hard) : tear. Production. Rate(X, normal), astimatism(X, yes), spectacle. Prescription(X, myope), !. lens(X, none) : tear. Production. Rate(X, normal), astimatism(X, yes), spectacle. Prescription(X, hypermetrope).

Necessidade da aprendizagem relacional F F Como representar esse exemplos como um única tabela de banco de dados? Como representar um classificador abstrato desses exemplos com uma árvore de decisão?

Problemas de representação do exemplos como única tabela . . . Shape 02 Dir 02 Circle N/A no yes - Circle N/A Triangle up no yes + Triangle Down Square N/A no yes - . . . . O 2 in. O 1 . . . Dir 01 . . . O 1 in. O 2 . . . Shape. O 1 . . . Class . . .

Problemas de representação do classificador como árvore de decisão Shape O 1 = circle = rectangle = triangle Shape O 2 = circle = rectangle = triangle O 2 in O 1 = yes = no

Necessidade de aprendizagem relacional

Necessidade de aprendizagem relacional F pos(E) : - triangle(E, T 1, D), triangle(E, T 2, D), in(T 1, T 2).

Aplicações requerendo aprendizagem relacional F F Descoberta e aquisição de conhecimento envolvendo raciocínio espacial, temporal ou multi-agentes (ex, Caverna do Wumpus, futebol de robôs, jogos, genética, biologia molecular, etc. ) Processamento de linguagem natural F Aprendizagem de gramática de parsing, geração ou tradução de textos F Engenharia de software: F Programação automática a partir de exemplos de entrada/saída F Engenharia de dados: F Explicitação ou verificação de conformidade a esquema e restrições de integridade em BD

ILP monótona F Dados: F exemplos positivos (Xi, f(Xi)), geralmente instanciados F exemplos negativos (Xj, f(Xj)), geralmente instanciados F conhecimento prévio B (regras), geralmente sem negação F viés de aprendizagem (restrições sobre forma das regras a aprender) F Aprende hipótese H (regras) tal que: F ~ Xi, f(Xi), Xi B H |= f(Xi) F ~ Xj, f(Xj), Xj B H |= f(Xj) F H verifica restrições do viés de aprendizagem F ~ definido por limiar de tolerância ao ruído F Aplicações: F Mineração de dados preditiva: classificação, previsão temporal, controle F Descoberta de relações causais

ILP não monótona F Dados: F exemplos todos positivos (Xi, f(Xi)), geralmente instanciados F conhecimento prévio B (regras), possivelmente com negação F viés de aprendizagem (restrições sobre forma das regras a aprender) F Aprende hipótese H (regras) tal que: F ~ Xi, f(Xi), Xi B H f(Xi) F H verifica restrições do viés de aprendizagem F ~ definido por limiar de tolerância ao ruído F Aplicações: F Mineração de dados descritiva: regras de associação, restrições de integridade em BD, equações matemática F Descoberta de relações não causais

ILP em geral F F Generaliza qualquer tipo de aprendizagem para representações relacionais Por isso existe técnicas de ILP para: F agrupamento conceitual relacional (aprendizagem não supervisionado) F aprendizagem relacional por reforço F aprendizagem relacional baseado em instâncias

Aprender relação abstrata com ILP Conhecimento a priori Intencional: parent(F, C) : - father(F, C). parent(M, C) : - mother(P, C). Extensional: father(pat, ann). father(tom, sue). female(ann). female(eve). female(sue). male(pat). male(tom). mother(eve, sue). mother(ann, tom). Exemplos Positivos: daughter(sue, eve). daughter(ann, pat). Negativos: not daughter(tom, ann). not daughter(eve, ann). Aprende: daughter(D, P) : female(D), parent(P, D).

Aprender definição recursiva com ILP Conhecimento a priori Intencional: parent(F, C) : - father(F, C). parent(M, C) : - mother(M, C). Extensional: father(pat, ann). father(tom, sue). female(ann). female(eve). female(sue). male(pat). male(tom). mother(eve, sue). mother(ann, tom). Exemplos positivos: ancestor(tom, sue). ancestor(eve, sue). . Exemplo negativos: not ancestor(ann, eve). not ancestor(sue, eve). . Definição induzida: ancestor(A, D) : - parent(A, D). ancestor(A, D) : parent(A, P), ancestor(P, D).

Generalizacão x Especialização Generalização (busca bottom-up) F parte da hipótese a mais específica: um exemplo + F iterativamente a generaliza F aplicando regras de indução F até a 1 a que cobre: F todos os exemplos positivos taxa de erro F nenhum exemplo negativos taxa de erro Especialização (busca top-down) F parte da hipótese a mais geral: F c(…, X, …) : -. F iterativamente a especializa F aplicando regras de dedução F até a 1 a que cobre: F todos os exemplos positivos taxa de erro F nenhum exemplo negativos taxa de erro

Regras e operadores para ILP F F F Especialização (refinamento) baseado em -Generalização Mínima Relativa (RLGG Relative Least Generalization) Resolução inversa em V Resolução inversa em W (invenção de predicados) Implicação inversa Derivação inversa (inverse entailment)

-Generalização ( -Subsumption) G -generaliza S sse substituição , (G) S F ie, G se unifica com uma parte de S F ex, com = {D/ann}, daughter(D, P) : - female(D). -generaliza daughter(ann, P) : - female(ann), parent(P, ann). F Sugere 2 operadores de especializações: F F aplicar substituição e acrescentar premissa F F (G -generaliza S) (G |= S) -- “G entails S” mas (G |= S) (G -generaliza S) F contra-exemplo: F F F G: humano(pai. De(H)) : - humano(H). S: humano(paide(pai. De(H))) : - humano(H). G |= S, porém G não -generaliza S F Por isso muitos sistemas de ILP excluem estruturas aninhadas (em lógica, funções)

Busca top-down em reticulado de refinamento F F Adaptação de ID 3 para representação da 1 a ordem Espaço de hipótese: F reticulado no qual cada no -generaliza seus filhos F em cima: conclusão a aprender sem premissa F em baixo: contradição ou hipótese mais específica Hms tal que: F F F Hms B |= D+ (e Hms B | D-) Percorre reticulado de cima para baixo em largura 1 a Cada passo implementa uma abordagem gerar & testar F gerar: todas as hipóteses Hn em L(H) refinando a hipótese atual F testar: função heurística de: F F F número de D+ tal que: Hn B |= D+ número de D- tal que: Hn B |= Dtamanho de Hn

Busca top-down em reticulado de refinamento: exemplo daughter(D, P). . daughter(D, D). . daughter(D, P) : - female(D). . daughter(D, P) : - parent(P, D). . daughter(D, P) : - female(D), female(D). daughter(D, P) : - female(D), parent(P, D). daughter(D, P) : - parent(D, X). . daughter(D, P) : - parent(P, D), female(D).

Generalização mínima relativa F Generalização mínima de 2 termos T e L (literais): F substituição por variáveis dos sub-termos que não se casam F ex, lgg(daughter(mary, ann), daughter(eve, tom)) = daughther(D, P) F unificação inversa F Generalização mínima de 2 cláusulas: F lgg(C 1 : - P 1, …, Q 1. , C 2 : - P 2, …, Q 2) = lgg(C 1, C 2) : - lgg(P 1, P 2), …, lgg(Q 1, Q 2). F ex, lgg(daughter(mary, ann) : - female(mary), parent(ann, mary). , daughter(eve, tom) : - female(eve), parent(tom, eve). ) = daughter(D, P) : - female(D), parent(P, D). F Generalização mínima de 2 termos C 1 e C 2 relativa a base de conhecimento prévio BCP = {D 1, …, Dn}: F rlgg(C 1, C 2) = lgg(C 1 : - D 1, …, Dn. , C 2 : - D 1, …, Dn)

Busca bottom-up com generalização mínima relativa: exemplo Com BCP = {parent(ann, mary). parent(ann, tom). parent(tom, eve). parent(tom, ian). female(ann). female(mary). female(eve). } e BDE+ = {daughter(mary, ann). , daughter(eve, tom)}. rlgg(daughter(mary, ann). , daughter(eve, tom). ) = lgg(daughter(mary, ann) : - BCP. , daughter(eve, tom) : - BCP. ). = lgg(daughter(mary, ann), daughter(eve, tom)) : lgg(parent(ann, mary), parent(ann, mary)), lgg(parent(ann, mary), parent(ann, tom), lgg(parent(ann, mary), parent(tom, eve), . . . lgg(female(mary), female(eve)), lgg(female(eve), female(eve)). = daughter(D, P) : - BDE, parent(ann, D 0), parent(P, D), parent(P 1, D 1), parent(P 2, D 2), parent(P 3, D 3), parent(P 4, D 4), female(D 1), female(D 2), female(D). = daughther(D, P) : - parent(P, D), female(D).

Resolução inversa em V F Absorção: F Identificacão: F Limitação: vocabulário fixo de predicados

Exemplo de resolução inversa em V: encadeamento de 2 absorções H 2: daughter(D, P) : - parent(P, D), female(D). B 2: female(mary). : {mary/D} H 1: daughter(mary, P) : - parent(P, mary). B 1: parent(ann, mary). : {ann/P} E 1: daughter(mary, ann). q 1 = b 21 = parent q 2 = female p 1 = p 2 = daughter a 11 = b 11 = a 21 = T

Resolução inversa em W: invenção de predicados F Intra-construção: F Inter-construção: F Limitações: F incapacidade em inverter derivação envolvendo várias vezes a mesma cláusula hipotética F complexidade da busca aumenta com conhecimento a priori F ex, intra-construção: 2 cláusulas 3 cláusulas

Exemplo de invenção de predicado com intra-construção q(P, D) : father(P, D). ancestor(A, D) : ancestor(A, P), q(P, D). : {F/P} ancestor(A, D) : ancestor(A, F), father(F, D). q = parent p = a 1 = ancestor q(P, D) : mother(P, D). : {M/P} ancestor(A, D) : ancestor(A, M), mother(M, D). b 1 = father c 1 = mother

Viés de aprendizagem em ILP F F Objetivo: reduzir busca no espaço de hipótese Porque? FSe L(H) contem qualquer cláusula de Horn gerável: F F por refinamento da cláusula sem premissa por resolução inversa de 2 elementos de B U D+ FEntão: F F F espaço de busca (seja bottom-up ou top-down) grande demais para ser explorado eficientemente (as vezes até infinito) Viés sintático paramétrico sobre cláusulas: limitar Fnúmero de premissas por cláusula, Fnúmero de variáveis por cláusula, Fprofundidade dos termos das cláusulas, Fnível dos termos das cláusulas. F Viés semântico sobre predicados: Ftipos dos seus argumentos Finstanciação dos seus argumentos F constante #, variável de entrada + ou variável de saída - Fnúmero de vezes que um predicado pode ser satisfeito

Viés sintático sobre L(H) F Conhecimento estrutural a priori sobre as hipóteses: F preciso e específico do domínio F ou heurístico e geral F Dimensões: F explícito/implícito F parametrizado/declarativo F Formalismos de declaração explícito de bias sintático: F gramática de cláusulas definidas (DCG -- Definite Clause Grammar) F formalismo built-in da programação em lógica parsing and geração de linguagens) F cláusulas da 2 a ordem

Exemplo de viés sintático declarado com DCG head(father(P, C)). head(mother(P, C)). body(father(P, C)) --> m(P), f(P), [parent(P, C)]. body(mother(P, C)) --> m(P), f(P), [parent(P, C)]. m(M) --> [male(M)]. f(M) --> [female(M)].

Exemplo de restrições sintáticas declaradas com cláusulas da 2 a ordem Q(P, F) : - R(P, F). Q(P, F) : - S(P), R(P, F). Q(P, F) : - S 1(P), S 2(P), R(P, F). F F F Substituição da 2 a ordem = {Q/father, S/male, R/parent} seleciona cláusula: father(P, F) : - male(P), parent(P, F).

Viés sintático parametrizado F F F lista dos nomes de predicado permitidos em hipóteses número máximo de premissas por cláusula número máximo de variáveis por cláusula profundidade máxima dos termos das cláusulas nível máximo dos termos das cláusulas: F variável V é ligada em cláusula C : - P 1, …, Pn sse: F F V C, ou i {1, …, n}, W V: V Pi W ligada em C : - P 1, …, Pn. F cláusula ligada sse todas suas variáveis são ligadas F ex, p(X) : - q(Z) não ligada, p(X) : - q(X, Y), r(Y, Z), u(Z, W) ligada. F nível n(t) de um termo t em cláusula ligada C : - P 1, …, Pn: F F 0 se t C, ou 1 + min(n(s)) se t Pi s Pi ex, n(C, grandfather(G) : - male(G), parent(G, F), parent(F, C)) = 2

Viés semântico sobre L(H): tipos e modos F Tipos: const(a). const(b). … clist([]). clist([H|T]) : - const(H), clist(T). F Modos: restrições sobre predicados F na conclusão (modeh) ou premissa (modeb) das regras F número de vezes que um predicado pode ser satisfeito F tipos dos seus argumentos F instanciação dos seus argumentos (constante #, variável de entrada + ou variável de saída -) F ex: modos para append : : - modeh(1, append(+clist, -clist))? modeh(1, append([+const|+clist], +clist, [-const|-clist]))? modeh(1, append(#clist, +clist, -clist))? modeb(1, append(+clist, -clist))?

Viés semântico sobre L(H): determinação F h(…, X 0 i, . . . ) : - p 1(. . . , X 1 j, …), …, pn(…, Xnk, …). determinada dados um conhecimento a priori B e exemplos D sse: F as instanciações dos X 0 j, …, Xij restringem os X(i+1)j a um único valor, ie, F i {1, …, n}, Xij pi, Xkl, k < I, ! v tal que: F F Xij/v compatível com Xkl/vkl Exemplo: F D: parent(jef, paul). parent(jef, ann). male(paul). female(ann). F has. Father(C) : - parent(P, C). determinada: P/jef F is. Father(F) : - parent(F, C). não determinada: C/{paul; ann} F Torna aprendizagem eficiente (porém incompleto)

Preferências sintáticas e probabilísticas F F (H) = número de bits na codificação mínima de H Thm: F H que minimiza (H) em L(H) também maximiza P(H|B E) F ie, a hipótese mais concisa sempre corresponde a mais verossímil F F Prova: Thm de Bayes + Thm de Shannon Justificação téorica do navalha de Occam

Aplicações práticas de ILP F Medicina e saúde: F previsão dos efeitos de uma nova droga composta a partir dos efeitos dos seus componentes em drogas testadas F previsão da forma 3 D de uma proteína a partir da sua seqüência de ácidos-amidos F descoberta de regras diagnosticas em reumatologia F F F descoberta de regras para jogar xadrez F Engenharia de software: F programação (em lógica) automática F otimização de código (de programas lógicos) F teste e depuração de código (de programas lógicos) F descobertas de restrições de integridade implícitas em BD CAD/CAM: F descoberta de regras escolhendo resolução de elementos finitos em modelos numéricos de estresses em estruturas F derivar regras de diagnostico de falha em satélites a partir de regras causais modelando o funcionamento dos mesmos Jogos: F Processamento de linguagem natural: F aprendizagem de regras de gramáticas de uma língua natural a partir de grande corpus de textos