Zskvn znalost z medicnskch text Petr Kolesa Euro

  • Slides: 13
Download presentation
Získávání znalostí z medicínských textů Petr Kolesa Euro. MISE Centrum

Získávání znalostí z medicínských textů Petr Kolesa Euro. MISE Centrum

Osnova • • Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj

Osnova • • Systém pro dotazování na interakce a kontraindikace léků Amilcare - nástroj pro information extraction (IE) PDT – nástroj pro zpracování přirozeného jazyka (NLP). Užití ontologie

Práce • Cíl: dotazy nad „databází“ léků • • interakce, kontraindikace: je možné pacientovi

Práce • Cíl: dotazy nad „databází“ léků • • interakce, kontraindikace: je možné pacientovi s diagnózou D 1, D 2, D 3, stavem S 1, S 2 podat lék L, když užívá léky L 1, L 2 a L 3 Znalosti získat z příbalových letáků

Formalizace příbalových letáků • Při převodu příbalových letáků do strukturované podoby je třeba, aby

Formalizace příbalových letáků • Při převodu příbalových letáků do strukturované podoby je třeba, aby se někdo zaručil za správnost převodu. • • • výhoda – člověk stejně musí projít celý text je žádoucí použít deep analysis, supervised learning Člověk transformuje, systém se mu snaží pomáhat.

Ukázka textu • Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev,

Ukázka textu • Přípravek se nesmí užívat při zeleném očním zákalu, při neprůchodnosti střev, při ztížené průchodnosti vrátníkem, dále při epilepsii a při deliriích. Přípravek se nesmí užívat současně s inhibitory monoaminooxidázy (některé léky proti depresím), ani 14 dní před zahájením nebo po ukončení jejich užívání. Amiptriptylin nesmí užívat kojící ženy.

AMILCARE • Dosažené výsledky • • • nízké hodnoty precision (17 %) i recall

AMILCARE • Dosažené výsledky • • • nízké hodnoty precision (17 %) i recall (14 %) Pokud trénovací a testovací množina stejná – P: 100 % a R: 81 až 85 % Jak zlepšit: • • Dodat další informace Provést normalizaci textu

Zpracování přirozeného jazyka • Přidat morfologické informace: lemma, morf. značka (pád, číslo) • •

Zpracování přirozeného jazyka • Přidat morfologické informace: lemma, morf. značka (pád, číslo) • • Jen lemma: P: 44 %, R: 27 % Lemma + morf. značka: problém nejednoznačnosti Učení jen na morf. značkách Pokud to bude málo, budou dodány informace o povrchové struktuře věty

Normalizace textu • Normalizace: • • překlepy, idiosynkratika (mm. Hg vs mm Hg) výčtové

Normalizace textu • Normalizace: • • překlepy, idiosynkratika (mm. Hg vs mm Hg) výčtové typy, gazetteers obecná normalizace na úrovni vět je příliš složitá Letáky produkované jednou firmou mají stejnou strukturu.

Co s výsledky IE • Vím, kde v textu leží to, co mě zajímá.

Co s výsledky IE • Vím, kde v textu leží to, co mě zajímá. Co s tím? • Krok od povrchové struktury k tomu, co to znamená (slova → koncept) • Seznam „synonym“, kanonická fráze • • navrhne počítač, určí člověk • glaukom: zelený zákal, zelený oční zákal, zelený zákal oční Mapování konceptů na ontologii

UMLS • • • Unified Medical Language System vyvíjí National Library of Medicine obsahuje

UMLS • • • Unified Medical Language System vyvíjí National Library of Medicine obsahuje několik zdrojových slovníků • ICD-10 (MKN 10) Me. SH Snomed CT • … • • • „Cílem UMLS je usnadnit vývoj počítačových systémů, které se chovají tak, jako by rozuměli jazyku biomedicíny. “

UMLS – příklad • Patří diazepam do skupiny léků ovlivňujících CNS?

UMLS – příklad • Patří diazepam do skupiny léků ovlivňujících CNS?

Použití ontologie • • Zdá se, že pro potřeby „léků“ UMLS vyhovuje Problémy: •

Použití ontologie • • Zdá se, že pro potřeby „léků“ UMLS vyhovuje Problémy: • • mapování čeština angličtina rozdílné léky v USA a ČR

Dosavadní výsledky • Překvapivě nízká hodnoty precision a recall • Pro potřeby IE je

Dosavadní výsledky • Překvapivě nízká hodnoty precision a recall • Pro potřeby IE je třeba text normalizovat: gazetteers • Obecné NLP nástroje mají vysokou spolehlivost – není třeba vytvářet specializované medical language processing (MLP) nástroje • Mapování na UMLS je obtížné ale možné • Vznikl slovník léků distribuovaných v ČR – používá se při získávaní dat z lékařských zpráv.