Discovery Bus Sistem za automatsko pravljenje QSAR modela
Discovery Bus Sistem za automatsko pravljenje QSAR modela Damjan Krstajić Istraživački Centar za Hemijsku Informatiku www. rcc. org. rs
Istraživački Centar za Hemijsku Informatiku osnovan krajem 2005. ugovor sa Njukasl univerzitetom razvoj opensource projekata (my. Structure, CDL) primena evolucionih strategija u rešavanju problema iz hemijske i bioinformatike (GA, ACO) razvoj Discovery Bus projekta – programiranje u R, Java, C/C++, Matlab
Motivacije za Discovery Bus Konstantan priliv novih podataka i metoda Ne postoji jedan siguran način da se reši QSAR (statistički model) Kratki rokovi Lako integrisati novi softver bez obzira na operativni sistem (Windows ili Linux) Otvoren za različite programske jezike Distribuirano izračunavanje
Drugi sistemi za mašinsko učenje ABLE: Agent Building and Learning Environment (IBM) YALE: Yet Another Learning Environment (U. Dortmund et al) WEKA: (U. Waikato) Slaba fleksibilnost za planiranje i povezivanje agenata Slabe mogućnosti distribucije posla Bez fleksibilnosti da se uradi više ili manje posla u zavisnosti od broja rasploživih servera
Osnove Discovery Bus-a Bus kernel je softver na centralnom serveru koji koordiniše aktivnosti. Ljudi ili softver agenti predaju zahteve kernelu da se odradi posao. Svaki zahtev (request) je specifičnog tipa (request type), npr izračunati deskriptore, odabrati obeležja, napraviti model itd. Softver agenti, kada nisu zauzeti, obaveštavaju kernel da su slobodni i da mogu da zadovolje zahteve odredjenog tipa. Prihvataju posao i po završetku vraćaju odgovore kernelu. Ljudi (human agents) mogu da obave posao i da odgovore na zahtev ili paralelno sa softver agentima ili umesto njih ako odgovarajući softver agent još ne postoji.
Arhitektura (1) Agenti nemaju uvid u druge agente. Oni predaju zahteve ne znajući da li i ko može da zadovolji njihovim zahtevima. Agent prihvata posao na osnovu tipa posla koji može da obavi. Softver agenti koriste program API da preuzmu posao ili da predaju zahteve. Ljudi koriste veb interfejs koji se oslanja na program API
Architecture (2) ‘The Discovery Bus’ responses Select Best requests responses Machine Learn requests responses Filter Features requests responses Stratify Data requests responses Calc descriptors requests responses Get structures requests responses requests Get data
Machine Agents Architecture (3) Bus Kernel API Bus Kernel PL/SQL Data Tables Human Agents Web Interface collaboratively open Oracle language neutral open, robust
Competitive Workflow Ekspert je neki put primoran da uradi nekoliko pokušaja da dodje do odgovara - možeš da probaš ovo – ili ovo Često postoji više odgovora na jedno pitanje. Različiti eksperti daju različite odgovore i u literaturi postoje različiti prilazi rešavanju problema. Svaki zahtev predat Busu može biti izvršen više puta ‘build. Model’ je tip zahteva (request type) ‘linear’, ‘neural. Net’ i ‘PLS’ su različiti agenti koji mogu da naprave model Jedno izvršenje može da rezultira u više odgovora – npr odgovor na kvadratnu jednačinu
Agenti Postoje dva specijalna agenta • Planner agent • Bootstrap agent Većina agenata su napisani kao komand lajn programi. Bootstrap agent poziva odgovarajuće agente, prenosi im input podatke i po završetku šalje output podatke kernelu. Zadatak planner agenta je da koordiniše rad drugih agenata tako što izvršava zadati skup planova.
Hemijska struktura & eksperimentalni rezultati Nova metoda? 4 x 8 x 6 x 8 = 1536 modela 4 x 8 = 32 filter feature zahteva 1/X Transform response class 32 filter feature zahteva x 8 = 256 modela log. X ? X Split and stratify 10% D E H Calculate descriptors L&H&R A&D A&L Combine descriptors A&E A&D&R E&D . . . cfs 1 nov ff Test model ? ? &? A Cross validate Netlab. NN GUIDE Rpls R cfs 2 Filter features Build models Rlin Rnnet Rrpart no filter cfs 5 L cfs 3 cfs 4 GARMLR GAWRMLR
Koja je najveća mana Discovery Bus-a? Koristi sve raspoložive metode za svaki problem – kombinatorna eksplozija
J. Cartmell, S. Enoch, D. Krstajic, D. E. Leahy, Automated QSPR through Competitive Workflow, Journal of Computer-Aided Molecular Design, Volume 19, Issue 11, Nov 2005, Pages 821 - 833 Global QSAR Models: : Solubility
HVALA. Reference: J. Cartmell, S. Enoch, D. Krstajic, D. E. Leahy “Automated QSPR through Competitive Workflow” Journal of Computer Aided Molecular Design, 2005 Nov; 19(11): 821 -833 J. Cartmell, D. Krstajic, D. E. Leahy “Competitive Workflow: novel software architecture for automating drug design” Current Opinion in Drug Discovery & Development, 2007 May; 10(3): 347 -352
- Slides: 15