Inverted Index Visualizer n n n Inverted Index

  • Slides: 9
Download presentation
Inverted Index Visualizer

Inverted Index Visualizer

n n n Inverted Index wird im Bereich des Information Retrievals Grundlage für die

n n n Inverted Index wird im Bereich des Information Retrievals Grundlage für die Durchführung verschiedener Suchanfragen benötigt. Information Retrieval (IR) ist ein Fachgebiet, das sich mit Computergestütztem, inhaltsorientiertem Suchen beschäftigt Dazu wird ein Index für eine Dokumentensammlung angelegt, der den einzelnen suchbaren Begriffen jeweils die entsprechenden Dokumente zuordnet. Inverted Index zu einem (Such-) Begriff verweist auf alle Dokumente, die mit diesem bestimmten Begriff verknüpft sind. Dazu erhält der Inverted Index Informationen wie beispielsweise die Dokumentnummern und eine Angabe, wie häufig der Begriff in der Gesamtdatenbank (score) vorkommt und möglicherweise andere statistische Werte.

n n n Vorteile dieses Systems: Ein rascher Zugriff auf Dokumente, da nur der

n n n Vorteile dieses Systems: Ein rascher Zugriff auf Dokumente, da nur der Index (und nicht die Dokumente selbst) durchsucht werden muss. Der Index lässt sich gut für die Erstellung von verschiedenen Retrievalsystemen nutzen. Suchmöglichkeiten können ausgeschöpft und die Suchoberfläche relativ frei gestaltet werden. Der große Nachteil: Enormer Aufwand, den die Erstellung eines solchen Indexes erfordert und benötigt große Mengen Speicherplatz. Zudem muss der Index jedes Mal aktualisiert werden, sobald neue Dokumente hinzukommen.

Beispiele für Information Retrieval Anwendungen: n Suche nach Textinhalten, Bilder und Fotos: Derartige Suchdienste

Beispiele für Information Retrieval Anwendungen: n Suche nach Textinhalten, Bilder und Fotos: Derartige Suchdienste erlauben sowohl die Suche nach einzelnen Begriffen als auch nach Phrasen und Sätzen. Beispiele dafür sind Google, MSN Search oder Yahoo Search. n Suche im E-Commerce und Intranet: Zum Beispiel in Online-Shops zur Artikelauffindung und in Firmen zur Dokumentenauffindung. n Suche in weiteren Medientypen. Sowohl die großen Suchmaschinenbetreiber wie auch zahlreiche kleine Anbieter unterstützen neben Text mittlerweile die Suche in Video- oder Radioausstrahlungen. Bisher werden dazu vorwiegend die gesprochenen Texte erfasst.

Erstellung von inverted indexes: 1. 2. 3. 4. Sammlung der Dokumente, die indiziert werden

Erstellung von inverted indexes: 1. 2. 3. 4. Sammlung der Dokumente, die indiziert werden sollen. Darstellung jedes Dokumentes als eine Liste der Tokens (einzelne Wörter der Dokumente, bereinigt von Satzzeichen). Linguistische Aufbereitung und Erstellung einer Liste der normalisierten Tokens, die dann Terms heißen. Zuordnung von Dokumenten zu ihren zugehörigen Terms in der Datenbank.

Warum eine Visualisierung: n n n Vorgänge in einer Suche sind sehr komplex, deswegen

Warum eine Visualisierung: n n n Vorgänge in einer Suche sind sehr komplex, deswegen visuelle Darstellung der Vorgänge Leichteres Erkennen von Veränderung in der Suche durch andere oder eigene Algorithmen Erweiterung von Denk- und Operationsmöglichkeiten Leichtere Analyse von großen Datenmengen Leichteres Verständnis von Vorgängen in einer Suchmaschine auch für Laien

Arbeitsteilung: n Aperture: Aufbereitung der Dokumente (Philipp) n Index-Speicherung: My. SQL (Philipp) n Darstellung:

Arbeitsteilung: n Aperture: Aufbereitung der Dokumente (Philipp) n Index-Speicherung: My. SQL (Philipp) n Darstellung: Java Swing-Framework (Philipp, Oxana, Sven, Max, Fadi) n n n Erweiterbarkeit: Eigene Pluginschnittstelle (Fadi) Präsentation (Oxana, Max) Protokoll (Oxana) Java-Doc (Sven) Manual (Max)

Darstellung: Java Swing-Framework n Entscheidung für eigene Visualisierung, da kein Framework unsere Bedürfnisse erfüllte

Darstellung: Java Swing-Framework n Entscheidung für eigene Visualisierung, da kein Framework unsere Bedürfnisse erfüllte n Darstellung der Dokumente und Dokumentgruppen durch einfache JButtons n Animationen selbst erstellt Plugin-Schnittstelle: n Selbstgeschrieben, da andere zu überladen

Die gesammelten Erfahrungen: n Praktischer Einsatz des im Studium Erlernten n Anwendung eines praxisnahen

Die gesammelten Erfahrungen: n Praktischer Einsatz des im Studium Erlernten n Anwendung eines praxisnahen Softwareentwicklungsprozesses n Teamarbeit - Wie im Team gearbeitet wird - Kommunikation im Team - Wie groß der Zeitaufwand ist n Erlernen von Präsentationstechniken