Smantick anotcie pre podnikov aplikcie Michal Laclavk Marek

  • Slides: 10
Download presentation
Sémantická anotácie pre podnikové aplikácie Michal Laclavík, Marek Ciglan, Martin Šeleng, Zoltán Balogh

Sémantická anotácie pre podnikové aplikácie Michal Laclavík, Marek Ciglan, Martin Šeleng, Zoltán Balogh

Metóda Ontea • Motivácia – Vytvoriť alebo nájsť sémantické dáta v texte • Aj

Metóda Ontea • Motivácia – Vytvoriť alebo nájsť sémantické dáta v texte • Aj pomocou externých zdrojov • Spôsob metódy – – Aj neštruktúrovaný text obsahuje nejaké vzory Vzory môžu byť použité na extrakciu objektov a ich vlastností Výsledok: key - value pairs (kľúč-hodnota) Transformácia na ontology individuals • Class – individual • Individual – property WIKT 2008, Smolenice 6. -7. november 2008 2

Príklady výsledkov • Text – Bratislava is the capital of Slovakia is in Europe.

Príklady výsledkov • Text – Bratislava is the capital of Slovakia is in Europe. • Pattern: “(in|by) + (the)? *([A-Z][a-z]+)” for Location • Ontea discovers key – value pair: – Location – Europe • By transformation to ontology knowledge base - it finds Europe as continent using inference (sub-class of Location) – Continent – Europe • More Examples are in the table: # Text Key – value Patterns – regular expressions 1 Apple, Inc. Company: Apple Company: ([A-Za-z 0 -9]+)[, ]+(Inc|Ltd) 2 Mountain View, CA 94043 Settlement: Mountain View Settlement: ([A-Z][a-z]+[ ]*[A-Za-z]*)[ ]+[A-Z]{2}[ ]*[0 -9]{5} 3 laclavik. ui@savba. sk Email: [-_. a-z 0 -9]+@[-_. a-z. A-Z 0 -9]+. [a-z]{2, 8} 4 Mr. Michal Laclavik Person: (Mr. |Mrs. |Dr. ) ([A-Z][a-z]+) WIKT 2008, Smolenice 6. -7. november 2008 3

Features • • • Identification of concept instances from the ontology Automatic population of

Features • • • Identification of concept instances from the ontology Automatic population of ontologies with instances Identifying relevance, when creating instances using information retrieval techniques Key-value pairs transofrmation Integration with data from external systems Large scale semantic annotation of documents or texts using Google’s Map. Reduce architecture. WIKT 2008, Smolenice 6. -7. november 2008 4

Príklad transformácie procesu • Transformation example: – – Text: “Slovensko je v Európe“=> Extraction:

Príklad transformácie procesu • Transformation example: – – Text: “Slovensko je v Európe“=> Extraction: Location – Európe => Transformation, Lemmatization: Location – Európa => Transformation, Ontology: Continent – Europe WIKT 2008, Smolenice 6. -7. november 2008 5

Transformácia z externých zdrojov • Text: obsahuje napr. doménu • Použijem vzor: ([_-a-z. A-Z

Transformácia z externých zdrojov • Text: obsahuje napr. doménu • Použijem vzor: ([_-a-z. A-Z 0 -9]+\. sk), – napr. : domain: SK – toyota. sk • Pomocou registrátora www. sk-nic. sk transformujem pár na: – IČO – 31585973 • System. Connector pomocou stránky obchodného registra www. orsr. sk – company: Name - TOYOTA MOTOR SLOVAKIA s. r. o. • alebo prípadne ďalšie údaje o objekte firmy ako adresa a podobne. Web Connector Key-value Meta-Connector Transformed Key-value WIKT 2008, Smolenice Spread. Sheet Connector Database Connector 6. -7. november 2008 6

Experiment • sadu 8579 emailov • databázu zákazníkov a služieb Key-value Database Connector 1

Experiment • sadu 8579 emailov • databázu zákazníkov a služieb Key-value Database Connector 1 Meta. Connector Database Connector 2 Identifikácia zákazníka podľa Key-value Database • Adresa odosielateľa Connector 3 • Meno firmy • Telefónne číslo • Internetová doména ktorá reprezentuje službu poskytovanú zákazníkovi WIKT 2008, Smolenice 6. -7. november 2008 7

Acoma WIKT 2008, Smolenice 6. -7. november 2008 8

Acoma WIKT 2008, Smolenice 6. -7. november 2008 8

Záver • Použitie dát ktoré nie sú priamo v texte • Vhodné pre vnútro

Záver • Použitie dát ktoré nie sú priamo v texte • Vhodné pre vnútro podnikové aplikácie – Spracovanie archívov – Elektronickej komunikácie – Intranet systémov • Architektúra založená na transformácii párov – Rozširovateľnosť – Škálovateľnosť (Map. Reduce) – Prisposobiteľnosť WIKT 2008, Smolenice 6. -7. november 2008 9

Ďakujem za pozornosť http: //ontea. sourceforge. net/

Ďakujem za pozornosť http: //ontea. sourceforge. net/