INTEGRATIE EN SEMANTISCHE CONVERSIE VAN AUTISME GERELATEERDE GENDATA

  • Slides: 14
Download presentation
INTEGRATIE EN SEMANTISCHE CONVERSIE VAN AUTISME GERELATEERDE GENDATA IN EEN LINKED DATA OMGEVING Sven

INTEGRATIE EN SEMANTISCHE CONVERSIE VAN AUTISME GERELATEERDE GENDATA IN EEN LINKED DATA OMGEVING Sven Buyse Stagementor: Ir. Filip Pattyn (ONTOFORCE) Stagegever: Dhr. Hans Constandt Promotor: Dhr. Jasper Decuyper (HOWEST)

OVERZICHT - ONTOFORCE - DISQOVER - ONDERZOEKSVRAAG - BRONNEN - SCRAPING - CSV naar

OVERZICHT - ONTOFORCE - DISQOVER - ONDERZOEKSVRAAG - BRONNEN - SCRAPING - CSV naar RDF-conversie - RESULTATEN - CONCLUSIE 2

ONTOFORCE Situering bedrijfs(contact): - Vergevorderde start-up - Gent(/Hasselt) - Innovatief binnen bio-informatica sector -

ONTOFORCE Situering bedrijfs(contact): - Vergevorderde start-up - Gent(/Hasselt) - Innovatief binnen bio-informatica sector - DISQOVER - Linken van biologische data - Bedrijfscontact: back-end 3

DISQOVER Semantische webomgeving: - Linked Open Data - Oplossing problemen relationele databank - Data

DISQOVER Semantische webomgeving: - Linked Open Data - Oplossing problemen relationele databank - Data in triples - Triples worden gelinkt aan elkaar bij object 1=subject 2 4

ONDERZOEKSVRAAG Mogelijkheid tot: - Integratie autisme gerelateerde gendata in DISQOVER ? - Sortering zoekresultaten

ONDERZOEKSVRAAG Mogelijkheid tot: - Integratie autisme gerelateerde gendata in DISQOVER ? - Sortering zoekresultaten volgens relevantie? 5

AUTISME GERELATEERDE GENDATA BRONNEN Aut. DB: • - • Meest up-to-date Bevat autisme gen

AUTISME GERELATEERDE GENDATA BRONNEN Aut. DB: • - • Meest up-to-date Bevat autisme gen informatie over: • Human Genes (HG) • Animal Model (AM • Eiwit interacties (PIN) • CNV’s Sfari. Gene: Bevat alle info van Aut. DB Genen krijgen autisme relevantiescore Data niet downloadbaar - 6

SCRAPING Datafiltering Xpath-functie - Python script - Lxml bibliotheek - HTML-pad herkenning - Verkrijgen

SCRAPING Datafiltering Xpath-functie - Python script - Lxml bibliotheek - HTML-pad herkenning - Verkrijgen data via opgegeven pad - Datacorrecties met reguliere expressie Data opslaan: CSV-formaat 7

RESOURCE DESCRIPTION FRAMEWORK (RDF) - Formaat voor semantisch web integratie - RDF-formaat bevat triples

RESOURCE DESCRIPTION FRAMEWORK (RDF) - Formaat voor semantisch web integratie - RDF-formaat bevat triples - Unique Resource Identifier (URI) - TURTLE-bestand 8

CONVERSIE CSV-RDF Python: RDFLib - CSV inlezen met csv-bibliotheek - Gendata Genklasse - Genklasse

CONVERSIE CSV-RDF Python: RDFLib - CSV inlezen met csv-bibliotheek - Gendata Genklasse - Genklasse data Graph = creatie triples - Blank Node meerdere gegevens koppelen aan gen 9

RESULTATEN 1. Hoofdgendata 2. Extra geninformatie (met nesting) 10

RESULTATEN 1. Hoofdgendata 2. Extra geninformatie (met nesting) 10

RESULTATEN 11

RESULTATEN 11

CONCLUSIE - Data werd verkregen van Aut. DB en Sfari. Gene via scraping -

CONCLUSIE - Data werd verkregen van Aut. DB en Sfari. Gene via scraping - Geconverteerd naar CSV-formaat - Hierna werd data omgezet in RDF-formaat - Triples werden verkregen - DISQOVER bied sorteringsmogelijkheid ONDERZOEKSVRAAG positief beantwoord 12

TOEKOMSTVISIE Integratie in DISQOVER - Optimalisatie efficiëntie scraping scripts - Integratie in DISQOVER: -

TOEKOMSTVISIE Integratie in DISQOVER - Optimalisatie efficiëntie scraping scripts - Integratie in DISQOVER: - Zorgt voor mogelijkheid relevantiesortering bij autisme genen zoektocht - Zorgt voor creatie nieuwe “Links for Lives” - Slimmer zoeken met relevanties nieuwe inzichten autisme onderzoek wordt efficiënter gevoerd 13

Bedankt voor uw aandacht! 14

Bedankt voor uw aandacht! 14