Ressourcen und Werkzeuge fr die inhaltliche Analyse klinischer

  • Slides: 47
Download presentation
Ressourcen und Werkzeuge für die inhaltliche Analyse klinischer Dokumente Stefan Schulz Medizinische Universität Graz

Ressourcen und Werkzeuge für die inhaltliche Analyse klinischer Dokumente Stefan Schulz Medizinische Universität Graz stefan. schulz@medunigraz. at

Natürliche Sprache in der Medizin

Natürliche Sprache in der Medizin

Natürliche Sprache in der Medizin § Wichtigster Träger klinischer Information, optimiert auf menschliche Kommunikation

Natürliche Sprache in der Medizin § Wichtigster Träger klinischer Information, optimiert auf menschliche Kommunikation § Notwendigkeit strukturierter und kodierter klinischer Daten § Computer müssen klinische Sprache "verstehen" § NLP (Natural Language Processing): § Finden relevanter Dokumente (Text retrieval) § Informationsextraktion aus Dokumenten § Zahlreiche Herausforderungen der Kliniksprache…

knapp, potentiell mehrdeutig, … Patient? Pathologie? rezent? rezidivierend? Pat. mit rez. HWI und VUR

knapp, potentiell mehrdeutig, … Patient? Pathologie? rezent? rezidivierend? Pat. mit rez. HWI und VUR Vesicoureteral reflux Harnwegsinfekt ? Hinterwandinfarkt?

variantenreich… Colon-Ca Colon. Karzinom Malignom des Kolon Bösartiger Dickdarmtumor Kolon-Ca Kolonkarzinom Coloncarcinom Kolonkrebs Dickdarm-Ca

variantenreich… Colon-Ca Colon. Karzinom Malignom des Kolon Bösartiger Dickdarmtumor Kolon-Ca Kolonkarzinom Coloncarcinom Kolonkrebs Dickdarm-Ca Dickdarmkarzinom Bösartige Dickdarm-Ca Neubildung am Dickdarm maligne Karzinom des Neoplasie des Dickdarms maligne NPL des Colon

fehlertolerant… Simvastatin Sinvastatin Simvastastin Simvastad Simbastatin Simavastatin Simastatin Symvastatin Simvastation Simvaststin Simvatatin Simvatstain Simvstatin

fehlertolerant… Simvastatin Sinvastatin Simvastastin Simvastad Simbastatin Simavastatin Simastatin Symvastatin Simvastation Simvaststin Simvatatin Simvatstain Simvstatin

wenig qualitätsgesichert § § § § Mondscheinhaut gut durchblutet die Patientin zeigte eine geistliche

wenig qualitätsgesichert § § § § Mondscheinhaut gut durchblutet die Patientin zeigte eine geistliche retardierung im Verlauf Kontrolle durch Bett-CT Pat. wurde zunehmend in kompleient heraushängen der lunge nach rechts Zustand nach pleuraler Prostataresektion Diagnostik bei parasitierender Leukozytose Diagnose: mexikanische Aortenklappe Diagnose: Fischgerät im Hals V. a. Kreuz fährt Jakob Krankheit… Untersuchungsbefund: Kopf/Hals: großer Zähe Cochlea-Reh-Implantation vollständig alkoholisiertes Hüftgelenk rechts Gabe eines Wetterblockers Quelle: arztbriefperlen. de

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9, 5 cm und einer großen Kurvaturlänge von 13, 5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4, 5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2, 5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang.

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9, 5 cm und einer großen Kurvaturlänge von 13, 5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4, 5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2, 5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang. Dokument wird gefunden mit den Suchwörtern: "Whipple", "Magen", "Pylorus"

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend

"Googlen" in medizinischen Texten? Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9, 5 cm und einer großen Kurvaturlänge von 13, 5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4, 5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2, 5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang. Dokument wird gefunden mit den Suchwörtern: "Whipple", "Magen", "Pylorus" Keine Treffer für: "Pankreatikoduodenectomie", "Resektion", "Duodenum", "Zwölffingerdarm", "Pankreas", "Bauchspeicheldrüse", "Gallengang", "Pankreasgang", "Ductus pancreaticus", "Papille", "Magenresektion"

Ziel: Abbildung auf standardisierte Bedeutung St. p. TE eines exulc. sek. knot. SSM li

Ziel: Abbildung auf standardisierte Bedeutung St. p. TE eines exulc. sek. knot. SSM li US dors. 5/11 Level IV 2, 4 mm Tumordurchm. Sentinnel LK ing. li. tumorfr.

Ziel: Abbildung auf standardisierte Bedeutung St. p. TE eines exulc. sek. knot. SSM li

Ziel: Abbildung auf standardisierte Bedeutung St. p. TE eines exulc. sek. knot. SSM li US dors. 5/11 Level IV 2, 4 mm Tumordurchm. Sentinnel LK ing. li. tumorfr. Code (SNOMED CT, LOINC) Wert Kontext 254730000 |Superficial spreading malignant melanoma of skin 392521001 |History of 301889008 |Excision of malignant skin tumor 392521001 |History of 47224004 |Skin of posterior surface of lower leg 7771000 |Left 81827009 |Diameter 258673006 |millimeter 2. 41 258403002 |Lymph node level IV 94339008 |Secondary malignant neoplasm of inguinal lymph nodes 15240007 |Current 2667000 |Absent

Implementierung semantischer Technologien in CBmed – Biomarker Research, Graz Clinical data prioritization / visualization

Implementierung semantischer Technologien in CBmed – Biomarker Research, Graz Clinical data prioritization / visualization Clinical and administrative decision support Semantic Biobank Broker Cohort builder KAGes Steiermark: ca. 1 Mio Patienten Staging Area Clinical Data Warehouse CDW Structured data Lab, Admin, QM, Registries des Magens als auch des Duodenums reichlich zähflüssiger Schleim, sangoinolent; die Schleimhaut ist insgesamt livide. Anhängend ein 7, 5 x 4 x 1, 5 cm großes Pankreaskopfsegment sowie ein 4 cm langer derber und bis 2, 5 cm durchmessender knotiger Gewebsstrang, der an seinem Ende eine Fadenmarkierung aufweist. Hier auf lamellierenden, teilweise nodulär Semantic Enrichment Unstructured data (text) Electronic Health Record Systems Ontologies Terminologies Medical Research Insights (MRI) Connected Health Platform Text Mining De-Identification IICCAB: Innovative Nutzung von Informationen für klinische Versorgung und Biomarkerforschung. http: //goo. gl/w. HMedz

Ressourcen und Werkzeuge zur maschinellen Analyse von medizinischen Texten

Ressourcen und Werkzeuge zur maschinellen Analyse von medizinischen Texten

Ressourcen

Ressourcen

Ressourcen § Lexikalisch-ontologische Ressourcen § Ontologien / Referenzterminologien § Interfaceterminologien § Klassifikationssysteme § Informationsmodelle

Ressourcen § Lexikalisch-ontologische Ressourcen § Ontologien / Referenzterminologien § Interfaceterminologien § Klassifikationssysteme § Informationsmodelle § Korpora § annotierte Korpora: "supervised" Learning § nichtannotierte Korpora: "unsupervised" Learning

Ressourcen § Lexikalisch-ontologische Ressourcen § Ontologien / Referenzterminologien § Interfaceterminologien § Klassifikationssysteme § Informationsmodelle

Ressourcen § Lexikalisch-ontologische Ressourcen § Ontologien / Referenzterminologien § Interfaceterminologien § Klassifikationssysteme § Informationsmodelle § Korpora § annotierte Korpora: "supervised" Learning § nichtannotierte Korpora: "unsupervised" Learning

Lexikalisch-ontologische Ressourcen beschreibt die Sprache einer Gegenstände Domäne Erweiterung erworbenes Escherichia coli externes Extrakt

Lexikalisch-ontologische Ressourcen beschreibt die Sprache einer Gegenstände Domäne Erweiterung erworbenes Escherichia coli externes Extrakt fähiges einer Faktor. Domäne Interface. Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes terminologie Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht "Lunngenkrebs" Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie "Bronchialkarzinom" Herz hohes Hohlraum Hormon Hüfte Hund I Ig. E Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores "Ca" Infusion"Kalzium" internes intervertebrales intrakranielles Kammer Kanal kardiales 93880001 malignant neoplasm of lung Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten. Primary Knoten Kolon "Calcium" kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar 5540006 Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Calcium Lippe (substance) lokales Lunge Luxation Lymphknoten "Ca" Lymphknoten Lymphom Lymphozyt M Magen-Darmmagnetisches Management männliches Maßstab 68453008 Carcinoma "Krebs" (morph. abnormality) mediales medizinisches Membran mittleres ml Injektionslösung multiples "Karzinom" Mund Nadel Naht Nasen- neonatales niedriges Nieren- oberes oberflächliches Oberschenkel- offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde Dipak Kalra, Stefan Schulz, Daniel Karlsson, Robert Vander Stichele, Ronald Cornet, Kirstine Rosenbeck Gøeg, Giorgio Cangioli, Catherine Chronaki, Rainer Thiel, Sylvia Thun, Veli Stroetmann. positives primäres Probe Protein Prothese proximales Prozess ASSESS CT Recommendations, 2016, http: //assess-ct. eu Pulver r Rand Ontologie

Beispiel: Terme in Kardiologie-Arztbriefen Vorzugsterm (ICD, OPS) Aortenklappenstenose Anzahl Synonym 3749 Aortenstenose Anzahl 3126

Beispiel: Terme in Kardiologie-Arztbriefen Vorzugsterm (ICD, OPS) Aortenklappenstenose Anzahl Synonym 3749 Aortenstenose Anzahl 3126 Hirninfarkt 7 Schlaganfall Elektrokardiogramm 0 EKG 12208 Koronare Herzerkrankung 331 KHK 18455 Nicht-ST-Hebungsinfarkt 498 NSTEMI Magnetresonanztomographie 2 NMR 65 3839 17

MUG-GIT: Erstellung einer deutschen Interfaceterminologie für SNOMED CT (II) Rules Chunker All SCT descriptions

MUG-GIT: Erstellung einer deutschen Interfaceterminologie für SNOMED CT (II) Rules Chunker All SCT descriptions (EN) n-gram translations Human Validation • • dependent on use cases e. g. input for official translation e. g. starting point for crowdsourcing process for interface term generation lexicon for NLP approaches Clinical corpus (DE) New Token translations Human curation • • Phrase generation rules • • • Term reassembling heuristics Raw full terms (DE) Reference corpus (DE) POS tags n-grams (EN) Non- Translatable SCT descriptions Rules rule exec untranslated tokens Translatable SCT descriptions (EN) filter concepts with identical terms across translations Char translation rule acquisition Token translations correct most frequent mistranslations remove wrong translations check POS tags normalise adjectives add synonyms n-grams (DE) Curated ngram translations(DE) Schulz S. Using language technology for SNOMED CT localization? SNOMED CT Expo, Montevideo 2015

Automatische generierte Interfaceterminologie

Automatische generierte Interfaceterminologie

Beispiel: Annotierter Korpus (Entlassmedikation in Arztbrief) Thrombo Drug. Name Sortis Drug. Name Pantoloc Drug.

Beispiel: Annotierter Korpus (Entlassmedikation in Arztbrief) Thrombo Drug. Name Sortis Drug. Name Pantoloc Drug. Name Seloken Drug. Name Oleovit Drug. Name Thyrex Drug. Name Torasemid Drug. Substance Antiflat Drug. Name Xatral Drug. Name Dominal Drug. Name Marcoumar Drug. Name Laevolac Drug. Name Hypren Drug. Name Bioflorin Drug. Name Tavanic Drug. Name Urosin Drug. Name Ass Drug. Name 80 mg Strength ret. Drug. Name DA Drug. Name D 3 Drug. Name 10 mg Strength 1 -0 -1 Regimen 5 mg Strength forte Drug. Name 25 mg Strength laut Other 3 x 2 EL Regimen Kapseln Dose. Form 500 mg Strength 40 mg Strength 300 Strength 100 mg Strength 0 -0 -1 Regimen 47, 5 mg Strength 2 -0 -0 Regimen 1 x Regimen mg Strength 0 -1 -0 Regimen 3 Regimen 0 -0 -0 -1 Regimen 1 -0 -0 Regimen Pass Other 3 x 1 Regimen p. Route s. c. Route mg Strength 1 Regimen 0 Regimen 1 Regimen wöchentlich Regimen 1 -0 -0 Regimen (Do) Regimen x Regimen 3 Regimen ml Regimen bei Other Blähungen Other bitte Other um Other Gerinnungskontrolle Other beim Other HA Other o. Route 1 x 1 Regimen dzt. Other 1 -0 -0 Regimen abends Regimen pausiert Other

Beispiel: Nichtannotierter Korpus: N-Gramm-Modelle aus 30 k Arztbriefen

Beispiel: Nichtannotierter Korpus: N-Gramm-Modelle aus 30 k Arztbriefen

Ressourcen und Werkzeuge zur maschinellen Analyse von medizinischen Texten

Ressourcen und Werkzeuge zur maschinellen Analyse von medizinischen Texten

Werkzeuge § NLP-Pipeline: Erkennung von § § § § Dokumentenabschnitten Sätzen Phrasen Wortarten Fachtermini

Werkzeuge § NLP-Pipeline: Erkennung von § § § § Dokumentenabschnitten Sätzen Phrasen Wortarten Fachtermini (einschl. Abkürzungen, Fehlern) Semantischen Relationen Kontexte sprachlicher Ausdrücke

Beispiel: Erkennen von Abkürzungen

Beispiel: Erkennen von Abkürzungen

Beispiel: Erkennen von Abkürzungen einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte

Beispiel: Erkennen von Abkürzungen einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte Stenose der A. Subclavia, die eine Indikation auf Streptokokken vom Typ A. Nicht ausgeschlossen ist, dass akuter Mangel an Vitamin A. Wir empfehlen Substitution Symptomatik haben wir 1 A. Digimerck verabreicht, um die nach Verlegung auf Station 6 A. Wir bedauern, ihnen keine ein Adenokarzinom o. n. A. diagnostiziert worden. Dabei Ausschluss von Hämophilie A. Die Koagulopathie konnte bis

Abkürzung oder Satzende? einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte Stenose

Abkürzung oder Satzende? einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte Stenose der A. Subclavia, die eine Indikation auf Streptokokken vom Typ A. Nicht ausgeschlossen ist, dass akuter Mangel an Vitamin A. Wir empfehlen Substitution Symptomatik haben wir 1 A. Digimerck verabreicht, um die nach Verlegung auf Station 6 A. Wir bedauern, ihnen keine ein Adenokarzinom o. n. A. diagnostiziert worden. Dabei Ausschluss von Hämophilie A. Die Koagulopathie konnte bis

Abkürzung oder Satzende? einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte Stenose

Abkürzung oder Satzende? einer Infektion mit Hepatitis A. Hierbei sind keine weiteren ausgeprägte Stenose der A. Subclavia, die eine Indikation auf Streptokokken vom Typ A. Nicht ausgeschlossen ist, dass akuter Mangel an Vitamin A. Wir empfehlen Substitution Symptomatik haben wir 1 A. Digimerck verabreicht, um die nach Verlegung auf Station 6 A. Wir bedauern, ihnen keine ein Adenokarzinom o. n. A. diagnostiziert worden. Dabei Ausschluss von Hämophilie A. Die Koagulopathie konnte bis

Abkürzung oder Satzende? § Klassifikationsproblem § Punkt ist Teil des linken Wortes, kein Satzende

Abkürzung oder Satzende? § Klassifikationsproblem § Punkt ist Teil des linken Wortes, kein Satzende § Punkt ist Teil des linken Wortes, Satzende § Punkt ist nicht Teil des linken Wortes Satzende § Featureextraktion § Wortlänge § Wortklasse § Korpus § Regeln § Dictionary § Verteilung

Abkürzungserkennung § Klassifikation mittels SVN § F 1 -Werte nach Methode (kumulativ) • Baseline

Abkürzungserkennung § Klassifikation mittels SVN § F 1 -Werte nach Methode (kumulativ) • Baseline Regeln Statistik Scaling Training 0. 62 0. 60 0. 71 Test 0. 60 0. 71 Corpus Länge Wortklasse 0. 86 0. 88 0. 95 0. 97 0. 83 0. 96 0. 93 0. 95 Kreuzthaler M, Schulz S. Detection of sentence boundaries and abbreviations in clinical narratives. BMC Med Inform Decis Mak. 2015; 15 Suppl 2: S 4

Beispiel: Auflösen von Abkürzungen

Beispiel: Auflösen von Abkürzungen

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF"

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF"

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF" § Wort N-gram Modell

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF" § Wort N-gram Modell (aus 30000 Arztbriefen) 1035 1442 7 4 dilat. Kardiomyopathie dilatative Kardiomyopathie hochgr. red. EF hochgradig reduzierte EF

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF" § Wort-N-gram Modell (aus

Beispiel: Auflösen von Abkürzungen § "dilat. Kardiomyopathie, hochgr. red. EF" § Wort-N-gram Modell (aus 30000 Arztbriefen) 1035 1442 7 4 dilat. Kardiomyopathie dilatative Kardiomyopathie hochgr. red. EF hochgradig reduzierte EF § Web mining

Problematik: deutsche Sprache § Lexikalisch / ontologische Ressourcen: § Nur teilweise Mappings zu internationalen

Problematik: deutsche Sprache § Lexikalisch / ontologische Ressourcen: § Nur teilweise Mappings zu internationalen Standards § SNOMED CT bisher nicht eingeführt § Gute Interface-Terminologie nur für ICD-10 § Klinische Korpora § Im Gegensatz zu USA keine öffentlich verfügbaren annotierten Medizinkorpora § Tools: § NLP-Tools für deutsche Sprache nur begrenzt nutzbar für klinische Texte § Firmen, spezialisiert auf deutschsprachige Kliniktexte: § Averbis Gmb. H § ID Berlin Gmb. H & Co. KGa. A

Danke für Ihre Aufmerksamkeit! Stefan Schulz Medizinische Universität Graz stefan. schulz@medunigraz. at

Danke für Ihre Aufmerksamkeit! Stefan Schulz Medizinische Universität Graz stefan. schulz@medunigraz. at

Ontologie und Informationskontext

Ontologie und Informationskontext

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Ressourcen für maschinelle Analyse geschriebener Sprache § Terminologien / Lexika § Fachtermini und deren

Ressourcen für maschinelle Analyse geschriebener Sprache § Terminologien / Lexika § Fachtermini und deren Beziehungen, z. B. Synonyme: "SSMM" = "Superficially spreading malignant melanoma" § Ontologien § Axiomatische Beschreibungen, z. B. Mitral. Valve sub. Classof part. Of some Heart Termiologiestandards: SNOMED CT - LOINC Interface-Terminologien (anwendernah) § Grammatik / Regelwerke § z. B. Wortbildungsregeln: "-itis" = Entzündung, "-ektomie": chirurgische Entfernung § Textkorpora (z. B. Kliniktexte, Veröffentlichungen, Web) § Annotierte Korpora: Wörter <-> Wortklassen, Textpassagen <-> Kontext (z. B. Diagnose, Familienanamnese, Labor, Medikation) § Nicht annotierte Korpora: z. B. Worthäufigkeiten, Wortkollokationen § Training probabilistischer Modelle Ressourcen für deutsche Sprache: unzureichend

Ausblick § Gering strukturierte Texte in der elektronischen Krankenakte: § oft einzige Informationsquelle §

Ausblick § Gering strukturierte Texte in der elektronischen Krankenakte: § oft einzige Informationsquelle § oft verlässlicher und nachhaltiger als strukturierte Inhalte § bisher wenige erschlossene "Goldmine" § Liefert wertvolle Daten für § § Personalisierte Medizin Entscheidungsunterstützung Klinische Forschung ("phenotyping") Vorhersage § Breites Spektrum an semantischen / linguistischen Ressourcen erforderlich § Diese Ressourcen müssen auf die deutsche Medizinsprache zugeschnitten werden: beträchtlicher Aufwand § Anlehnung an internationale Standards sinnvoll. Wichtigstes Beispiel: SNOMED CT als umfassende klinische Ontologie

Beispiel: Dekomposition

Beispiel: Dekomposition

Dekomposition Ad-hoc-Komposita: Cholangiopankreatikographie Hausstaubmilbenphobie Phenylbutylpiperadinderivate Laryngotracheobronchoskopie hypothalamikohypophyseales Erscheinungsbild Phosphoethanolaminurie Chorionzottenbiopsietermin Hyperviskositätssyndrom

Dekomposition Ad-hoc-Komposita: Cholangiopankreatikographie Hausstaubmilbenphobie Phenylbutylpiperadinderivate Laryngotracheobronchoskopie hypothalamikohypophyseales Erscheinungsbild Phosphoethanolaminurie Chorionzottenbiopsietermin Hyperviskositätssyndrom

Dekomposition Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl

Dekomposition Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom

Dekomposition Bauchspeicheldrüse Ad-hoc-Komposita: Chol angio pankreat iko graph ie Bild. Hausstaub. Gefäß milb en

Dekomposition Bauchspeicheldrüse Ad-hoc-Komposita: Chol angio pankreat iko graph ie Bild. Hausstaub. Gefäß milb en phob ie gebung Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom Galle • • Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep; 58 -59: 87 -99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010; 49(2): 141 -7

Morphosemantische Analyse 0, 65 0, 6 0, 55 D – Wortbasierter Index D –

Morphosemantische Analyse 0, 65 0, 6 0, 55 D – Wortbasierter Index D – Subwort- Synonymklassen 0, 5 0, 4 0, 35 • • 0, 3 Precision • Morphosemantischer Parser • Wortgrammatik als Endlicher Automat • Output 1: Morpheme / Subwords (ohne Semantik) • Output 2: Subwort-Äquivalenzklassen (mit Semantik), z. B. #heart = {"herz", "cor", "card"}DE Terminologie / Ontologie 0, 25 0, 2 0, 15 0, 1 0, 05 5500 deutschsprachige Dokumente 25 deutschsprachige Anfragen 0 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1 Recall Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep; 58 -59: 87 -99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010; 49(2): 141 -7