Automatische Klassifikation Zuordnung von Dokumenten zu bereits vorher
Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: • Dem Nutzer Informationen über inhaltlich ähnliche Dokumente geben • Browsing in der Ergebnismenge erlauben 6/11/2021 Spree/Worg 2/LE 10
Anwendungsbeispiel Spamerkennung Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt? Mail a Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Mail b Hi, Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now 6/11/2021 Spree/Worg 2/LE 10
Zwei Verfahren 1. Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument 2. ‚Lernende Verfahren‘ der automatischen Klassifikation anhand von Trainingsdokumenten 6/11/2021 Spree/Worg 2/LE 10
1. Einfacher Merkmalsabgleich zwischen Klassifikation und Dokument 1. Merkmale eine Klassifikation werden festgelegt • Merkmale können einer Klasse zugeordnete Wörter sein • In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert 2. Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen 3. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen 6/11/2021 Spree/Worg 2/LE 10
Zwei Phasen der Klassifikation von Dokumenten (Quelle: Robert Hoffmann: http: //www. iicm. edu/cguetl/education/thesis/rhoff/dagegliedert/Hoffmann_DA_8. htm> 6/11/2021 Spree/Worg 2/LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage Klasse/ Attribut SPAM Kein Spam Viagra Sehr geehrte Sex Hochachtungsvoll selling wissenschaftlich buy Hausarbeit pills Referat Dok a Dok b Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach. Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. 6/11/2021 Spree/Worg 2/LE 10
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM A B Kein SPAM a b Viagra 1 1 Sehr geehrte 1 0 sex 0 1 Hochachtungsvoll 0 0 selling 0 1 wissenschaftliche 1 0 buy 0 0 Hausarbeit 1 0 pills 0 1 Referat 1 0 Skalarprodukt: Klasse/Dok 1 4 4 0 Dok a Dok b Sehr geehrte Frau Spree, Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen 6/11/2021 Erkenntnissen zur Wirkungsweise von Spree/Worg 2/LE 10 Viagra nach. Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes SPAM A B Kein SPAM a b Viagra 1 1 Sehr geehrte 1 0 sex 0 1 Hochachtungsvoll 0 0 selling 0 1 wissenschaftliche 1 0 buy 0 0 Hausarbeit 1 0 pills 0 1 Referat 1 0 Skalarprodukt: Klasse/Dok 1 4 6/11/2021 4 0 Mail a ist : Mail b: = 20% Spam = 0% kein Spam = 80% Spam Einordnung kein Spam Spree/Worg 2/LE 10 Einordnung Spam
2. Lernende Verfahren der automatischen Klassifikation • Voraussetzung: – Bestand von Trainingsdokumenten, die intellektuell Klassen zugeordnet wurden, ist vorhanden • Vorgehen – Analyse der Trainingsdokumente – Ermittlung der Eigenschaften der Dokumente, die bereits einer Klasse zugeteilt wurden • Eigenschaften sind häufig das Vorkommen und Gewicht bestimmter Indextermini in den Dokumenten – Berechnung der Wahrscheinlichkeit, dass ein bestimmtes Dokument, in dem das Wort x vorkommt, der Klasse y zugeordnet wird 6/11/2021 Spree/Worg 2/LE 10
Berechnung der Vorkommenswahrscheinlichkeit von Wörtern in Klassen Berechnung der Relation Z / Naiver Bayes Algorithmus: • Anzahl der Dokumente mit Wort x, die Klasse y zugeteilt sind /Anzahl der Dokumente, in denen x vorkommt Beispiel automatische Erkennung von Spam emails: Im Trainingsbestand sind 8 Dokumente mit Wort „Viagra “ der Klasse Spam zugeteilt. Viagra kommt insgesamt in 10 emails vor. = 8/10 -> 0, 8 Die Wahrscheinlichkeit, dass ein Dokument mit „Viagra “ der Klasse Spam zugeordnet wird, liegt bei 0, 8 2 Dokumente mit „Kuss“ sind der Klasse Spam zugeteilt. „Kuss“ kommt in 50 Dokumenten vor. 6/11/2021 =2/50 ->0, 04 Die Wahrscheinlichkeit, dass ein Dokument mit „Kuss “ der Klasse Spam zugeteilt wird, liegt nur bei 0, 04 Spree/Worg 2/LE 10
6/11/2021 Spree/Worg 2/LE 10
Zu Hause Bitte lesen Sie zur nächsten Woche die Lerneinheit 10 nach. 1. Notieren Sie Verständnisfragen 2. Erklären Sie an einem eigenen Beispiel, was ein Vektorzentroid ist 3. Bereiten Sie Step 4 so vor, dass Sie den Prozess der automatischen Klassifikation in einem Flussdiagramm darstellen können 6/11/2021 Spree/Worg 2/LE 10
- Slides: 12