119 QuestionAnswering systems webbased Kovaevic Milena 093255 kovacevic
1/19 + Question-Answering systems (web-based) Kovačevic Milena 09/3255 kovacevic. mln@gmail. com
+ 2/19 Sadržaj n Uvod n Ask. MSR arhitektura n LAMP QA arhitektura n izazovi
+ 3/19 Question answering sistemi • Cilj QA sistema je da odgovori na postavljeno, konkretno pitanje • “Who killed Abraham Lincoln? ”, “How tall is Mount Everest? ” • Ne povlače se cele stranice, best-matching pasusi • Kao pomoć pri pokušaju razumevanja user query-ja, QA sistemi koriste parsiranje, semantičke veze, rčcnike
+ 4/19 Question answering sistemi(1) • Automatski QA sistemi iz jednog, “skromnog” izvora informacija su izuzetno zahtevan problem – malo informacija, obično jedan odgovor na pitanje, komplikovano mapiranje iz pitanja u odgovor • Web QA Systems se baziraju na web-u kao redudantom izvoru informacija • ovde se fokusiramo na njih
+ 5/19 Question answering sistemi(2) • Ovde cemo opisati arhitekturu dva različita QA sistema • Ask. MSR (Microsoft research) • LAMP (publicly accessible, University of Singapore)
+ Ask. MSR - System architecture Arhitektura sistema može biti opisana u 4 koraka Query reformulation N-gram mining Filtering N-gram tilling 6/19
+ 7/19 Ask. MSR - System architecture (2)
+Ask. MSR - Query reformulation “When was the paper clip invented? ” : “The paper clip was invented” Na generisano pitanje sistem generiše određen broj tzv. “rewrite strings”, koji su uglavnom substringovi postavljenog pitanja Obične string-based manipulacije Svakom rewrite-u je data određena težina Na kraju se (za svaki slčaj) uradi obican ANDing reči u query-ju. Tako rewrite-ovani upit ima najmanju težinu 8/19
+Ask. MSR - N-gram mining Svaki rewrite-ovani upit ide u search engine Search engine tipčno ima indeksirane izvode iz stranica (a ne cele stranice) Iz vraćenih izvoda skupljaju se N-grami kao odgovori na postavljeni upit Unigrami, bigrami I trigrami se ekstrahuju i dodeljuju im se težine na osnovu: 1. rewrite-ovanog upita koji ih je povukao i 2. broja uniq izvoda u kojima se javlja 9/19
+Ask. MSR - N-gram filtering Upit je na početku analiziran i dodeljen mu je jedan od 7 query tipova (who-question, what-question, how-many-question. . . ) Bazirano na query type, sistem odlučuje koji od filtera da primeni na set potencijalnih odgovora tokom kolekcije n-grama 10/19
+Ask. MSR - N-gram tiling Konačno, primenjuje se tiling algoritam Pridružuju se odgovori iz razlicitih fragmenata “A B C” I “B C D” –> “A B C D” 11/19
+ 12/19 Ask. MSR - Stablo odlucivanja n Predikcija performansi sistema – da li ce sistem dati dobar odgovor n Sistem se najogre pokazao kod pitanja koji pocinju sa how, najbolje kod pitanja koja pocinju sa who
+LAMP – System Arhitecture 13/19
+ 14/19 LAMP – System Architecture(2)
LAMP Sistem ubacuje pitanje u search-engine Google, i dohvata prvih 100 rezultata pretage Rezultat sadrzi URL, naslov i string segment web dokumenta. - bez URL – snipeti 15/19
+ 16/19 Povlacenje odgovora • Sistem koristi SVM da klasifikuje pitanja (90% tacnosti) • Za svaki odgovor sistem konstruiše snipet klaster sastavljen od svih snipeta koji sadrže taj odgovor • Snipeti klastera se predstavljaju kao vektori a = (a 1, a 2 , . . . , an ), gde je n broj svih reci, a ai frekvenca i-te reci • Query je takodje predstavljen na ovaj nacin
+ 17/19 Procena odgovora Standardni Vektor-Space model u IR (information retrival) koristi kosinus ugla izmedju querija I dokument vektora da se izmeri relevantnost
+ 18/19 QA- izazovi n QA systems su poslednjih godina dosta uznapredovali. Otvorila su se nova polja i research izazovi n Real time question answering n Multilingual (or cross-lingual) question answering - postavljanje pitanja na jednom jeziku mogucnost i pretraživanja odgovora i na drugim jezicima n Advanced reasoning for QA n User profiling for QA , korisniku se ponude odgovori iz njegovog domena interesovanja
+ 19/19 Pitanja? Hvala
- Slides: 19