Maschinelles Lernen und automatische Textklassifikation Einfhrung maschinelles Lernen

  • Slides: 20
Download presentation
Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen

Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen

Warum maschinelles Lernen? • Fortschritte bei Algorithmen und Theorie • Unüberschaubare Menge online verfügbarer

Warum maschinelles Lernen? • Fortschritte bei Algorithmen und Theorie • Unüberschaubare Menge online verfügbarer Daten • Rechenkapazität verfügbar • Kommerzielle Anwendungen gefragt • Menschliche Arbeitskraft oft zu teuer oder nicht verfügbar

Warum maschinelles Lernen? • Probleme, bei denen die exakten Mechanismen oder Regeln nicht bekannt

Warum maschinelles Lernen? • Probleme, bei denen die exakten Mechanismen oder Regeln nicht bekannt sind • Beispiel: automatische Klassifikation von Zeitungsartikeln nach Ressort – Versuchen Sie operationale Regeln anzugeben, wann ein Artikel zum Ressort „Sport“ gehört!

Typische Anwendungen • Data Mining: – Verwendung historischer Daten um Entscheidungen zu verbessern •

Typische Anwendungen • Data Mining: – Verwendung historischer Daten um Entscheidungen zu verbessern • Patientendaten • Sofware Applikationen, die nicht von Hand programmiert werden können – Roboter, automatische Steuerung – Erkennung gesprochener Sprache • Selbstlernende Programme – Newsreader, der Anwender-Interessen lernt

Weitere Beispiele • Spiele, z. B. Schach • Komplexe Entscheidungen, z. B. – Betriebswirtschaftl.

Weitere Beispiele • Spiele, z. B. Schach • Komplexe Entscheidungen, z. B. – Betriebswirtschaftl. Entscheidungen – Expertensysteme • Mustererkennung, z. B. – OCR – Bilderkennung • Vorhersagen von best. Verhalten/Ereignissen – Wettervorhersage – Aktienkurse

Beispiel: Medizin

Beispiel: Medizin

Was ist Lernen? • Lernen = verbesserte Bewältigung einer Aufgabe A durch Übung/Erfahrung Ü

Was ist Lernen? • Lernen = verbesserte Bewältigung einer Aufgabe A durch Übung/Erfahrung Ü – Verbesserung bei Aufgabe A – In Bezug auf ein bestimmtes Qualitätsmaß Q – Aufgrund der Übung/Erfahrung Ü • Beispiel 1: Schach – A: Schach spielen – Q: Anteil der gewonnenen Spiele – Ü: Möglichkeit gegen sich selbst zu spielen • Beispiel 2: Handschriftenerkennung – A: korrekte Erkennenung handschriftlicher Wörter in Bildern – Q: Anteil korrekt erkannter Wörter – Ü: große Menge handgeschriebener Wörter mit korrekter Transkription

Erfahrung/Übung • Direkt: – was ist optimaler nächster Zug – Welches Wort • Indirekt:

Erfahrung/Übung • Direkt: – was ist optimaler nächster Zug – Welches Wort • Indirekt: – Ausgang des Spiels – Korrekt erkannter Text, . . . • Trainer: – Anleitung

Maschinelles Lernen • Betrachte maschinelles Lernen als Lernen von Input-Output-Funktionen • Idee: – gegeben

Maschinelles Lernen • Betrachte maschinelles Lernen als Lernen von Input-Output-Funktionen • Idee: – gegeben Trainingsmenge, z. B. Menge vorklassifizierter Zeitungsartikel – gesucht Funktion f, die für jeden Input den gewünschten Output liefert – Vorgehen: finde Funktion h, die auf der Trainingsmenge mit f bestmöglich übereinstimmt

Input-Output-Funktionen • Im ML werden Input-Output-Funktionen typischerweise als Funktionen auf Vektoren betrachtet: – F:

Input-Output-Funktionen • Im ML werden Input-Output-Funktionen typischerweise als Funktionen auf Vektoren betrachtet: – F: (x 1, x 2, x 3, . . . , xn) -> (y 1, y 2, y 3, . . . , ym) • D. h. Input und Output müssen als Vektor repräsentiert werden -> Repräsentationsproblem • Wie könnte eine Vektorrepräsentation im Falle des Beispiels der Klassifikation von Zeitungsartikeln aussehen?

Repräsentation • Schach: Liste von Koordinaten mit Spielfigur und schwarz/weiss • Handschrifterkennung: Pixelkoordinaten, Graustufe

Repräsentation • Schach: Liste von Koordinaten mit Spielfigur und schwarz/weiss • Handschrifterkennung: Pixelkoordinaten, Graustufe • Textklassifikation: „Bag-of-Words“

Zielfunktion • Schach: – Brett-Koordinaten -> nächster Zug • Handschrifterkennung: – Pixelkoordinaten -> Wort

Zielfunktion • Schach: – Brett-Koordinaten -> nächster Zug • Handschrifterkennung: – Pixelkoordinaten -> Wort • Textklassifikation: – Wortmenge -> Kategorie • Problem: es gibt in der Regel beliebig viele Funktionen h, die auf einer gegebenen Trainingsmenge mit f übereinstimmen – Einschränkung auf bestimmte Typen von Funktionen!

Input-Output-Funktionen • Evaluierung der Hypothese h: – Erfordert weitere Samples für das Verhalten von

Input-Output-Funktionen • Evaluierung der Hypothese h: – Erfordert weitere Samples für das Verhalten von f: Testset – Typisches Vorgehen: splitte Samplemenge in • Trainingsset (typischerweise 80%) • Testset (typischerweise 20%) – Zur Verbesserung: Variation von Trainings/Testset

Design Entscheidungen • • Art des Trainings? Definition der Zielfunktion? Repräsentation der gelernten Funktion?

Design Entscheidungen • • Art des Trainings? Definition der Zielfunktion? Repräsentation der gelernten Funktion? Welcher Lernalgorithmus?

Wichtige Punkte • Welche Lernalgorithmern sind für welche Funktionen geeignet? • Wie groß muß

Wichtige Punkte • Welche Lernalgorithmern sind für welche Funktionen geeignet? • Wie groß muß das Trainingsset sein? • Welchen Einfluß hat die Komplexität der Hypothesen? • Was passiert, wenn das Trainingsset fehlerhafte Daten enthält? • Was sind die Grenzen von maschinellem Lernen? • Wie kann Zusatzwissen genutzt werden? • Was können wir von biologischem Lernen ableiten?

Aufgaben • Klassifikation von Zeitungsartikeln in elektronischer Form danach, ob sie Sportartikel sind oder

Aufgaben • Klassifikation von Zeitungsartikeln in elektronischer Form danach, ob sie Sportartikel sind oder nicht. – Definieren Sie eine geeignete Repräsentation der Daten – Definieren Sie eine geeignete Zielfunktion – Versuchen Sie auf der Basis der gewählten Repräsentation möglichst operative Regeln zu formulieren, wann ein Artikel ein Sportartikel ist. – Spielen Sie das Verfahren an einem Beispielartikel durch