Maschinelles Lernen und automatische Textklassifikation Einfhrung maschinelles Lernen
- Slides: 20
Maschinelles Lernen und automatische Textklassifikation Einführung: maschinelles Lernen
Warum maschinelles Lernen? • Fortschritte bei Algorithmen und Theorie • Unüberschaubare Menge online verfügbarer Daten • Rechenkapazität verfügbar • Kommerzielle Anwendungen gefragt • Menschliche Arbeitskraft oft zu teuer oder nicht verfügbar
Warum maschinelles Lernen? • Probleme, bei denen die exakten Mechanismen oder Regeln nicht bekannt sind • Beispiel: automatische Klassifikation von Zeitungsartikeln nach Ressort – Versuchen Sie operationale Regeln anzugeben, wann ein Artikel zum Ressort „Sport“ gehört!
Typische Anwendungen • Data Mining: – Verwendung historischer Daten um Entscheidungen zu verbessern • Patientendaten • Sofware Applikationen, die nicht von Hand programmiert werden können – Roboter, automatische Steuerung – Erkennung gesprochener Sprache • Selbstlernende Programme – Newsreader, der Anwender-Interessen lernt
Weitere Beispiele • Spiele, z. B. Schach • Komplexe Entscheidungen, z. B. – Betriebswirtschaftl. Entscheidungen – Expertensysteme • Mustererkennung, z. B. – OCR – Bilderkennung • Vorhersagen von best. Verhalten/Ereignissen – Wettervorhersage – Aktienkurse
Beispiel: Medizin
Was ist Lernen? • Lernen = verbesserte Bewältigung einer Aufgabe A durch Übung/Erfahrung Ü – Verbesserung bei Aufgabe A – In Bezug auf ein bestimmtes Qualitätsmaß Q – Aufgrund der Übung/Erfahrung Ü • Beispiel 1: Schach – A: Schach spielen – Q: Anteil der gewonnenen Spiele – Ü: Möglichkeit gegen sich selbst zu spielen • Beispiel 2: Handschriftenerkennung – A: korrekte Erkennenung handschriftlicher Wörter in Bildern – Q: Anteil korrekt erkannter Wörter – Ü: große Menge handgeschriebener Wörter mit korrekter Transkription
Erfahrung/Übung • Direkt: – was ist optimaler nächster Zug – Welches Wort • Indirekt: – Ausgang des Spiels – Korrekt erkannter Text, . . . • Trainer: – Anleitung
Maschinelles Lernen • Betrachte maschinelles Lernen als Lernen von Input-Output-Funktionen • Idee: – gegeben Trainingsmenge, z. B. Menge vorklassifizierter Zeitungsartikel – gesucht Funktion f, die für jeden Input den gewünschten Output liefert – Vorgehen: finde Funktion h, die auf der Trainingsmenge mit f bestmöglich übereinstimmt
Input-Output-Funktionen • Im ML werden Input-Output-Funktionen typischerweise als Funktionen auf Vektoren betrachtet: – F: (x 1, x 2, x 3, . . . , xn) -> (y 1, y 2, y 3, . . . , ym) • D. h. Input und Output müssen als Vektor repräsentiert werden -> Repräsentationsproblem • Wie könnte eine Vektorrepräsentation im Falle des Beispiels der Klassifikation von Zeitungsartikeln aussehen?
Repräsentation • Schach: Liste von Koordinaten mit Spielfigur und schwarz/weiss • Handschrifterkennung: Pixelkoordinaten, Graustufe • Textklassifikation: „Bag-of-Words“
Zielfunktion • Schach: – Brett-Koordinaten -> nächster Zug • Handschrifterkennung: – Pixelkoordinaten -> Wort • Textklassifikation: – Wortmenge -> Kategorie • Problem: es gibt in der Regel beliebig viele Funktionen h, die auf einer gegebenen Trainingsmenge mit f übereinstimmen – Einschränkung auf bestimmte Typen von Funktionen!
Input-Output-Funktionen • Evaluierung der Hypothese h: – Erfordert weitere Samples für das Verhalten von f: Testset – Typisches Vorgehen: splitte Samplemenge in • Trainingsset (typischerweise 80%) • Testset (typischerweise 20%) – Zur Verbesserung: Variation von Trainings/Testset
Design Entscheidungen • • Art des Trainings? Definition der Zielfunktion? Repräsentation der gelernten Funktion? Welcher Lernalgorithmus?
Wichtige Punkte • Welche Lernalgorithmern sind für welche Funktionen geeignet? • Wie groß muß das Trainingsset sein? • Welchen Einfluß hat die Komplexität der Hypothesen? • Was passiert, wenn das Trainingsset fehlerhafte Daten enthält? • Was sind die Grenzen von maschinellem Lernen? • Wie kann Zusatzwissen genutzt werden? • Was können wir von biologischem Lernen ableiten?
Aufgaben • Klassifikation von Zeitungsartikeln in elektronischer Form danach, ob sie Sportartikel sind oder nicht. – Definieren Sie eine geeignete Repräsentation der Daten – Definieren Sie eine geeignete Zielfunktion – Versuchen Sie auf der Basis der gewählten Repräsentation möglichst operative Regeln zu formulieren, wann ein Artikel ein Sportartikel ist. – Spielen Sie das Verfahren an einem Beispielartikel durch
- Maschinelles lernen definition
- Lineare regression maschinelles lernen
- Automatische rittenplanning
- Dysfunktionale kognitionen beispiele
- Duwband
- Filme sehen lernen
- Sensomotorisches lernen
- 10 gebote für gehirngerechtes lernen
- Sich abgrenzen lernen
- Mathe lernen regensburg
- Www sehen und handeln ch lernen
- Kas lernen
- Induktive und deduktive methode
- Urgermanisch lernen
- Bistra andreeva
- Hund klingel experiment
- Programmiersprache go
- Hamster programmieren lernen
- Elvish sindarin alphabet
- Warum deutsch lernen
- Differenzielles lernen schule