Quantitativer Mustererkennungsansatz Sebastian Kre RuprechtKarlsUniversitt Heidelberg Seminar fr
Quantitativer Mustererkennungsansatz Sebastian Kreß Ruprecht-Karls-Universität Heidelberg Seminar für Computerlinguistik 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen
Agenda l Analyse und Zerlegung der Me. SH-Thesaurus-Daten l Lattice-Entstehung aus Pubmed-Abstracts l Erweiterte Mustererkennung in verschiedenen Präzisionen und Beispiele l Verbesserung der Präzision durch ¡ Gewichtung von Eingabewörtern mit tf-idf ¡ Abschätzung mit semantischer Distanz l Probleme und Ausblick 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 2
Me. SH: Analyse und Zerlegung Me. SH-Heading -> MRI(1) l Abbildung von chemical shift -> MRI(1) Entry Terms ¡ Einzelworten imaging mr Magnetic Resonance Imaging von multiword terms in Me. SHChemical Shift Imaging Headings und Entry Terms -> MRI(2) -> MRI(0, 1, 3) MR Tomography tomography -> MRI(2) Magnetization Transfer Contrast Imaging magnetization l . . auf -> MRI(3) [. . ] transfer -> MRI(3) contrast -> MRI(3) ¡ Me. SH-Headings 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 3
Lattice-Entstehung l Mögliche Me. SH-Headings füranjedes (Teil)wort Magnetic resonance (MR) imaging revealed anteromedial temporal. . l Leerstellen für Funktionswörter um Über- und Fehlinformation zu vermeiden 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 4
Erweiterte Mustererkennung. . l Quantitative Analyse statt Erlauben von Abweichungen Diabetes Mellitus, Type 1 l Definition eines Fensters Diabetes Mellitus, mit Type 2 l Entfernung aller Me. SH Headings Satz geringerem Vorkommen im- im. Fenster als der -im Abstract-Text Anzahl der Wörter im- imzugehörigen Entry Abstract-Text und -Titel Term l (Entfernung von Me. SH Headings nach syntaktischen oder semantischen Regeln) 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 5
…mit relativ engem Fenster im Satz [. . ] Biofilms are a major concern for clinicians in the treatment of infectious disease because of their resistance to a wide range of antibiotics. Arbekacin, an aminoglycoside antibiotic, is the drug of choice for the treatment of infection caused by methicillin-resistant Staphylococcus aureus (MRSA). However, it has not yet been defined whether arbekacin tends to penetrate into the biofilm structure induced by MRSA infection. [. . ] (from: Pubmed 2004, PMID 16163460) Lattice: 1 2 3 … 11 12 13 x 15 16 17 18 x => 14 19 - Bacterial Infections and Mycoses - Bacterial Infections - Gram-Positive Bacterial Infections - Staphylococcus Infections 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 6
…mit weitem Fenster im Satz [. . ] The authors sought to determine whether the risk of congenital heart disease (CHD) was greater for the children of mothers who lived close to a hazardous waste site (HWS) than for those who lived farther away. All cases (n = 1283) of confirmed CHD, and a random sample of 2, 292 controls, born in Dallas County, Texas, from 1979 -1984 were linked with 276 HWSs present during the study. The authors ascertained locations of households and determined the distance HWS. Lattice: 1 x 3 to 4 the 5 6 7 nearest 8 9 10 11 12 13[. . ]x … 30 x => 2 14 31 18. 01. 2006 (from: Pubmed 2004, PMID 16189989) - Investigative Techniques - Epidemologic Methods - Epidemologic Study Characteristics - Epidemologic Studies - Case Control Studies X-On: Automatische Extraktion von Mehrwort. Termen 7
…über den ganzen Abstract [. . ] Cortical motor organization/reorganization was studied in patients with by applying two techniques: transcranial malformation of cortical development (MCD) noninvasive motor mapping magnetic stimulation (TMS) and functional magnetic resonance (f. MR) imaging. METHODS: Eight patients (age range 6 -22 years), all suffering from congenital hemiparesis of… similar were Underlying Lattice: 1 2 3 17 18 severity, 19 x 21 … 87 included. 88 89 x …=> 20 90 lesions were schizencephalies in four cases, nonschizencephalic - Investigative Techniques polymicrogyria in one, and complex hemispheric malformations in three. All - Brain of Mapping MCDs involved rolandic cortex the hemisphere contralateral to the hemiparesis. Transcranial magnetic stimulation was used to search, in both hemispheres, for brain regions with corticospinal projections to the paretic hand, and cortical activation during simple repetitive movements of the paretic hand was monitored using f. MR imaging. [. . ] (from: Pubmed 2004, PMID 16189989) 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 8
Verbesserung der Präzision l Mit der bisherigen Methode ¡ Recall für unabstrahierte Me. SH-Headings bei großem Fenster fast 100% ¡ Precision sehr schlecht l Verbesserungsvorschläge ¡ Reduzierung und Konkretisierung der Eingabewörter mit tf-idf (versucht, aber problematisch) ¡ Reduzierung der identifizierten Me. SH-Headings per semantic distance 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 9
Reduzierung der Eingabewörter l Durch Festlegung von Wörtern, die dauerhaft ignoriert werden l Durch tf-idf ¡ Idee: wichtigste Terme sind die, die häufig in individuellen Dokumenten auftreten und selten im gesamten Korpus ¡ Reduzierung auf Schwellwert l hier problematisch, weil im Korpus auch häufige Wortteile signifikant sind 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 10
Semantische Distanz l Annahme 1: die Me. SH-Headings in einem Abstract sind semantisch nah (bzw. es gibt Gruppen von semantisch nahen MHs) l Annahme 2: es gibt eindeutig identifizierbare Me. SH-Headings (singleword terms oder kontinuierliche multiword terms) Die Wahrscheinlichkeit für unsichere Me. SHHeadings kann aus der semantischen Distanz zu sicheren Me. SH-Headings abgeleitet werden 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 11
Berechnung (in Taxonomien) l Lin (1998) l Leacock lowest super ordinate Wahrscheinlichkeit der Elemente im Vergleich zum nächsten gemeinsamen Elternelement kürzeste Distanz and Chodorow (1998)zwischen c 1 und c 2 Tiefe der Taxonomie 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 12
Probleme l semantic distance erfordert Disambiguierung der Me. SH-Headings zu Magnetic Resonance Imaging Lung Neoplasms Knoten -> Magnetic Resonance Imaging Neoplasms / Neoplasms by Site / Thoracic Neoplasms / l Vorgehensweise erzwingt Perfusion Magnetic Resonance Respiratory Tract Neoplasms / Bronchial. Treffer Neoplasms / Lung Imaging Neoplasms [C 04. 588. 894. 797. 520] -> Magneticmuss Resonance Angiography von der l Fenstergröße abhängig Respiratory Tract Diseases / Lung Neoplasms Länge des Entry terms sein [C 08. 381. 540] l Identische Teile von/ Respiratory Entry terms Respiratory Tract Diseases Tract Neoplasms / Lung Neoplasms [C 08. 785. 520] 18. 01. 2006 X-On: Automatische Extraktion von Mehrwort. Termen 13
- Slides: 13