Parsovanie textov lnkov Michal Adda Motivcia Zskanie informci

  • Slides: 15
Download presentation
Parsovanie textov článkov Michal Adda

Parsovanie textov článkov Michal Adda

Motivácia • Získanie informácií z Wikipédie • 2 spôsoby – Vytvorenie kópie prostredia, aké

Motivácia • Získanie informácií z Wikipédie • 2 spôsoby – Vytvorenie kópie prostredia, aké používa Wikipédia – Parsovanie wikipédia dumpu

Existujúci softvér • gwtwiki – Wiki. Text parser • Sweble – Wiki. Text parser

Existujúci softvér • gwtwiki – Wiki. Text parser • Sweble – Wiki. Text parser • Screw. Turn Wiki – Wiki engine

Riešenie problému • Problém 1: Odstránenie Markup textu • Problém 2: Rozbalenie Wiki Templatov

Riešenie problému • Problém 1: Odstránenie Markup textu • Problém 2: Rozbalenie Wiki Templatov

Problém 1 – Odstránenie Markup textu • Markup reťazec ''italics'' bude preložený do html

Problém 1 – Odstránenie Markup textu • Markup reťazec ''italics'' bude preložený do html reťazca <i>italics</i>, ktorý bude v prehliadači zobrazený ako italics. • Možnosti riešenia – Preloženie do html (veľa existujúcich nástrojov) – Odstránenie pomocou Regex výrazov

Problém 2 – Rozbalenie templatov • Problémy: – Viaceré možnosti zápisu templatov – Komplikovaná

Problém 2 – Rozbalenie templatov • Problémy: – Viaceré možnosti zápisu templatov – Komplikovaná gramatika templatov – Veľké množstvo templatov – Vnorené templaty • Riešenia: – Vlastné riešenie – Použitie Sweble

Problém 2 – Riešenie Sweble • Parser Wiki textu s podporou rozbaľovania templatov •

Problém 2 – Riešenie Sweble • Parser Wiki textu s podporou rozbaľovania templatov • Rozbaľovanie je potrebné si naprogramovať implementovaním rozhrania Expansion. Callback a jeho použitím v triede Compiled. Page

Riešenie Parsovana Wiki. Textu • Prechádzame text wiki článku • Keď narazíme na použitie

Riešenie Parsovana Wiki. Textu • Prechádzame text wiki článku • Keď narazíme na použitie templatu, nahradíme ho jeho originálym textom – Pokiaľ je to prvé použitie daného templatu, stiahneme ho – Inak použijeme nakešovanú verziu template textu • Pokračujeme, pokiaľ nerozbalíme všetky templaty

Hadoop Riešenie • . NET • Map operácie dostávajú cestu k čiastkovému Wiki súboru,

Hadoop Riešenie • . NET • Map operácie dostávajú cestu k čiastkovému Wiki súboru, ten potom spracováva volaná Java aplikácia

Vyhodnotenie

Vyhodnotenie

Vyhodnotenie – Template Literature

Vyhodnotenie – Template Literature

Vyhodnotenie – Template Literature

Vyhodnotenie – Template Literature

Vyhodnotenie – Template About

Vyhodnotenie – Template About

Vyhodnotenie – Template About

Vyhodnotenie – Template About

Vyhodnotenie – Nefungujúce templaty • {{#include}} • Infobox, Nav. Box

Vyhodnotenie – Nefungujúce templaty • {{#include}} • Infobox, Nav. Box