Semestrlny projekt Vyhadvanie informcii 20132014 Jakub Gondr FIIT

Semestrálny projekt Vyhľadávanie informácii 2013/2014 Jakub Gondár FIIT STU BA

Zadanie • FB: Solr, index a search • Na platforme Apache Solr zaindexovať dáta z databázy Freebase a vykonať nad nimi vyhľadávanie. • Základný problém je pretransformovať vstupné dáta Freebase do vhodnej podoby, ktorú bude potom potrebné zaindexovať v Solr použitím jeho webového rozhrania.

Freebase dáta

Návrh riešenia • <ns: m. 012 rkqx> bude ID entity , ktorú budeme indexovať, bez namespace. • <ns: type. object. name> bude názov poľa (field), odstránený o namespace • <"High Fidelity"@en> textová hodnota, ktorá prislúcha danému poľu (fieldu).

Postup 1. Parsovanie: Prečítať celý freebase dump súbor a rozbaliť ho tak, že každá entita bude tvoriť jeden súbor na disku. 2. Nahradzovanie: Prejsť všetky vytvorené súbory a nahadiť odkazy na iné entity tak, že sa pozrieme do súboru s danou entitou (ak existuje) a nájdeme jeho stringový názov. Týmto vytvoríme pre človeka čitateľné názvy odkazovaných entít. Použiteľné riadky zgrupíme do jedného veľkého súboru. 3. Indexovanie: Predpripravené triplety v súbore z predchádzajúceho kroku zaindexujem pomocou volania webových služieb Apache Solr.

Implementácia 1. Parsovanie 2. Nahradzovanie 3. Indexovanie

Záver • Parsovaný freebase dump o má veľkosť 8, 74 GB a obsahuje presne 987 911 445 riadkov. • Parsovanie: o 70 hodín a prerušené o 237 325 719 riadkov z celkovo 987 911 445, čo je 24, 02% celej Freebase o 7 138 300 súborov v 996 priečinkoch, čo je 14, 3 GB dát (na disku cca 23 GB) • Nahradzovanie o 5 dní (cca 110 hodín), potom bolo prerušené. o 6 488 204 files z cca 17 138 300 súborov, čo je cca 37, 86%. o Výsledok 10 219 503 indexovateľných záznamov cca 1, 12 GB. • Indexovanie o prebehlo bezproblémovo nad všetkými záznamami.

Overenie • Apache Solr webové rozhranie