Motivácia • Získanie informácií z Wikipédie • 2 spôsoby – Vytvorenie kópie prostredia, aké používa Wikipédia – Parsovanie wikipédia dumpu
Existujúci softvér • gwtwiki – Wiki. Text parser • Sweble – Wiki. Text parser • Screw. Turn Wiki – Wiki engine
Riešenie problému • Problém 1: Odstránenie Markup textu • Problém 2: Rozbalenie Wiki Templatov
Problém 1 – Odstránenie Markup textu • Markup reťazec ''italics'' bude preložený do html reťazca <i>italics</i>, ktorý bude v prehliadači zobrazený ako italics. • Možnosti riešenia – Preloženie do html (veľa existujúcich nástrojov) – Odstránenie pomocou Regex výrazov
Problém 2 – Rozbalenie templatov • Problémy: – Viaceré možnosti zápisu templatov – Komplikovaná gramatika templatov – Veľké množstvo templatov – Vnorené templaty • Riešenia: – Vlastné riešenie – Použitie Sweble
Problém 2 – Riešenie Sweble • Parser Wiki textu s podporou rozbaľovania templatov • Rozbaľovanie je potrebné si naprogramovať implementovaním rozhrania Expansion. Callback a jeho použitím v triede Compiled. Page
Riešenie Parsovana Wiki. Textu • Prechádzame text wiki článku • Keď narazíme na použitie templatu, nahradíme ho jeho originálym textom – Pokiaľ je to prvé použitie daného templatu, stiahneme ho – Inak použijeme nakešovanú verziu template textu • Pokračujeme, pokiaľ nerozbalíme všetky templaty
Hadoop Riešenie • . NET • Map operácie dostávajú cestu k čiastkovému Wiki súboru, ten potom spracováva volaná Java aplikácia
Vyhodnotenie
Vyhodnotenie – Template Literature
Vyhodnotenie – Template Literature
Vyhodnotenie – Template About
Vyhodnotenie – Template About
Vyhodnotenie – Nefungujúce templaty • {{#include}} • Infobox, Nav. Box