Information Retrieval HHU Dsseldorf SS 2003 Information Retrieval

  • Slides: 106
Download presentation
Information Retrieval HHU Düsseldorf, SS 2003 Information Retrieval

Information Retrieval HHU Düsseldorf, SS 2003 Information Retrieval

Information Retrieval Wer befasst sich mit Information Retrieval? Konferenzen – Messen Zeitschriften Wie findet

Information Retrieval Wer befasst sich mit Information Retrieval? Konferenzen – Messen Zeitschriften Wie findet man Literatur? Kurze Geschichte des Information Retrieval Grundlagen: Relevanz – Pull / Push – konkreter vs. problemorientierter Informationsbedarf – Recall und Precision – Suche nach Datensätzen („Nadel-im-Heuhaufen“-Syndrom) – Berrypicking informetrische Suchen – Informationsfilter – Informationsbarrieren – Typologie von Retrievalsystemen: Boolesche Systeme und natürlichsprachige Systeme – Weltregionen im Internet - invertierte Dateien HHU Düsseldorf, SS 2003 Information Retrieval 2

Information Retrieval Funktionalität Boolescher Retrievalsysteme: Datenbankaufruf - feldspezifische Suche - Suche im Basic Index

Information Retrieval Funktionalität Boolescher Retrievalsysteme: Datenbankaufruf - feldspezifische Suche - Suche im Basic Index Blättern im Wörterbuch - Fragmentierung - mengentheoretische Operatoren - Abstandsoperatoren - Häufigkeitsoperatoren hierarchische Suche – datenbankübergreifende Suche Umformulierung von Suchergebnissen zu Suchargumenten – Anzeigen von Suchergebnissen - Bestellen von Volltexten Suchprofile / SDI – Menüführung vs. Befehlssprache Gewichtetes Retrieval: Intellektuelles Gewichten von Schlagworten – Gewichten durch „Cracken“ von Ketten beim syntaktischen Indexieren – Termähnlichkeiten – Themencluster – variierbarer Thesaurus HHU Düsseldorf, SS 2003 Information Retrieval 3

Information Retrieval Informationslinguistik: Erkennen von Worten – Stoppworte – Wortstammanalyse – Lemmatisierung - Phrasenerkennung

Information Retrieval Informationslinguistik: Erkennen von Worten – Stoppworte – Wortstammanalyse – Lemmatisierung - Phrasenerkennung – Homonyme – Synonyme – Pronomina-Analysen – Fehlertoleranz – SOUNDEX Besonderheiten der deutschen Sprache – MILOS/KASCADE Textstatistik (Relevance Ranking I): Worthäufigkeiten – dokumentspezifische Wortgewichtung – Position im Dokument – inverse Dokumenthäufigkeit – FREESTYLE - Vektorraummodell – probabilistisches Modell – INQUERY – Anreichern von Suchargumenten - ALTAVISTA Relevance Feedback HHU Düsseldorf, SS 2003 Information Retrieval 4

Information Retrieval Link-Topologie (Relevance Ranking II): Zitationsindexierung - Link-Analyse – Hubs und Authorities Page.

Information Retrieval Link-Topologie (Relevance Ranking II): Zitationsindexierung - Link-Analyse – Hubs und Authorities Page. Rank – kontextspezifischer Page. Rank – Nutzungsanalyse GOOGLE Automatische Indexierung mit Vorzugsbennungen: Indexierung mit Deskriptoren und Notationen – FACTIVA ortsabhängiges Ranking (GIS / regionale Klassifikation) Automatische Indexierung mit freien Schlagworten: Schlagwortvergabe bei SMART – automatische Klassifikation – Northern Light Assoziative Suche / „More like this“: linguistische Variante – zitatenanalytische Variante HHU Düsseldorf, SS 2003 Information Retrieval 5

Information Retrieval Informationsextraktion: bereichsspezifisches Retrieval – Faktenextraktion aus Volltexten – Faktenextraktion aus Literaturdatenbanken CLIR

Information Retrieval Informationsextraktion: bereichsspezifisches Retrieval – Faktenextraktion aus Volltexten – Faktenextraktion aus Literaturdatenbanken CLIR (Cross-Language Information Retrieval): Sprachidentifikation – maschinelles Übersetzen – wörterbuchunabhängige Verfahren Sponsored Links („Einkaufen“ in Ausgabelisten): Ersteigern von Listenpositionen – Ad. Words (GOOGLE) OVERTURE Informationsvisualisierung: Formulierung des Sucharguments – Ausgabe von Nicht-WWWDokumenten – Ausgabe von WWW-Dokumenten – KARTOO Ausgabe informetrischer Ergebnisse HHU Düsseldorf, SS 2003 Information Retrieval 6

Information Retrieval Basisliteratur: Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining. Verfahren für Textsammlungen und

Information Retrieval Basisliteratur: Reginald Ferber: Information Retrieval. Suchmodelle und Data-Mining. Verfahren für Textsammlungen und das Web. – Heidelberg: dpunkt. verlag, 2003. William B. Frakes; Ricardo Baeza-Yates (Hrsg. ): Information Retrieval. Data Structure & Algorithms. – Upper Saddle River, NJ: Prentice Hall, 1992. Eleonore Poetzsch: Information Retrieval. Einführung in Grundlagen und Methoden. – Potsdam: Verl. für Berlin-Brandenburg, 3. Aufl. , 2002. Eleonore Poetzsch: Wirtschaftsinformation. Online – CD-ROM - Internet. – Potsdam: Verl. für Berlin-Brandenburg, 2001. Karen Sparck-Jones; Peter Willett (Hrsg. ): Readings in Information Retrieval. – San Francisco: Morgan Kaufmann, 1997. Wolfgang G. Stock: Informationswirtschaft. Management externen Wissens. – München; Wien: Oldenbourg, 2000. HHU Düsseldorf, SS 2003 Information Retrieval 7

Information Retrieval Wer befasst sich mit Information Retrieval? HHU Düsseldorf, SS 2003 Information Retrieval

Information Retrieval Wer befasst sich mit Information Retrieval? HHU Düsseldorf, SS 2003 Information Retrieval 8

Information Retrieval Linguistik Informatik Retrievalsoftware Kommerzielle Datenbanken und Hosts Suchmaschinen im Internet Informationswissenschaft HHU

Information Retrieval Linguistik Informatik Retrievalsoftware Kommerzielle Datenbanken und Hosts Suchmaschinen im Internet Informationswissenschaft HHU Düsseldorf, SS 2003 Information Retrieval 9

Information Retrieval Konferenzen • ACM SIGIR Conference on Research and Development in Information Retrieval

Information Retrieval Konferenzen • ACM SIGIR Conference on Research and Development in Information Retrieval (seit 1977; Fokus: informatische, computerlinguistische und informationswissenschaftliche Grundlagen) – ACM: Association for Computing Machinery – SIGIR: Special Interest Group on Information Retrieval • TREC (seit 1992; Fokus: Evaluation von Retrievalsystemen) – Text REtrieval Conference • World Wide Web Conference (seit 1994; Fokus: Retrievalsysteme im Internet) HHU Düsseldorf, SS 2003 Information Retrieval 10

Information Retrieval Messen (mit Tagungen) • Online Information (London) • National Online Meeting (USA)

Information Retrieval Messen (mit Tagungen) • Online Information (London) • National Online Meeting (USA) • Com. Info / DGI-Online-Tagung (Frankfurt/M. ) (Fokus: jeweils auf kommerzielle Datenbanken und Hosts) Verbände in Deutschland • Fachgruppe Information Retrieval der Gesellschaft für Informatik • Online-Benutzergruppe in der DGI (OLBG) – DGI: Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis HHU Düsseldorf, SS 2003 Information Retrieval 11

Information Retrieval Zeitschriften: • Journal of the American Society for Information Science and Technology

Information Retrieval Zeitschriften: • Journal of the American Society for Information Science and Technology (JASIST) • Communications of the ACM • Information Processing & Management • Information Retrieval • Journal of Documentation Spezialsuchmaschine: • Cite. Seer von NEC Research Institute (citeseer. com) C. Lee Giles; Kurt D. Bollacker; Steve Lawrence: Cite. Seer: An Automatic Citation Indexing System. – In: HHU Düsseldorf, SS 2003 Information Retrieval 12 Digital Libraries 98. – New York: ACM, 1998, 89 -98.

Information Retrieval Eine kurze Geschichte des Information Retrieval: Beginn der Forschungen: Anfang der 60

Information Retrieval Eine kurze Geschichte des Information Retrieval: Beginn der Forschungen: Anfang der 60 er Jahre – Experimente mit natürlichsprachigen Systemen: Gerard Salton (1927 – 1995) – Vektorraummodell, SMART – Vorbereitungen kommerzieller Online-Systeme: Roger Kent Summit (geb. 1930) – DIALOG HHU Düsseldorf, SS 2003 Information Retrieval 13

Information Retrieval Eine kurze Geschichte des Information Retrieval: Theoriebildungen / erste Anwendungen: 70 er

Information Retrieval Eine kurze Geschichte des Information Retrieval: Theoriebildungen / erste Anwendungen: 70 er Jahre – Erstes Online-System: DIALOG 1972 – Theoretische Grundlagen, Gewichtungsverfahren: Karen Sparck. Jones / Donna Harman / C. J. „Keith“ van Rijsbergen (geb. 1943) – Probabilistisches Modell: Stephen E. Robertson van Rijsbergen Robertson Sparck-Jones HHU Düsseldorf, SS 2003 Information Retrieval 14

Information Retrieval Eine kurze Geschichte des Information Retrieval: Erfolg der Booleschen Online-Systeme in Praxis

Information Retrieval Eine kurze Geschichte des Information Retrieval: Erfolg der Booleschen Online-Systeme in Praxis einsetzbare natürlichsprachige Systeme (nur moderat erfolgreich): 80 er Jahre – diverse Online-Hosts, auch in Deutschland: GENIOS, GBI u. a. – natürlichsprachige Systeme: OKAPI, INQUERY; in Deutschland: AIR/PHYS: Gerhard Lustig, Norbert Fuhr, Gerhard Knorz Fuhr HHU Düsseldorf, SS 2003 Knorz Information Retrieval 15

Information Retrieval Eine kurze Geschichte des Information Retrieval: Boom durch Word Wide Web: 90

Information Retrieval Eine kurze Geschichte des Information Retrieval: Boom durch Word Wide Web: 90 er Jahre – großangelegte Retrievaltests: TREC (Donna Harman) – natürlichsprachige Oberflächen auch bei Online-Hosts: Freestyle, WIN – Retrievaltechniken für‘s Web: Technologieführer bei „klassisch“ orientierten Systemen: Alta. Vista (Louis Monier) – Technologieführer bei Systemen unter Nutzung der Web-Topologie: Google (Lawrence „Larry“ Page; Sergey Brin; Monika R. Henzinger) Monier Brin (li. ) Page Henzinger HHU Düsseldorf, SS 2003 Information Retrieval 16

Grundlagen des Information Retrieval HHU Düsseldorf, SS 2003 Information Retrieval

Grundlagen des Information Retrieval HHU Düsseldorf, SS 2003 Information Retrieval

Grundlagen des Information Retrieval DE Treffer Informationsbedarf Frage Information Retrieval HHU Düsseldorf, SS 2003

Grundlagen des Information Retrieval DE Treffer Informationsbedarf Frage Information Retrieval HHU Düsseldorf, SS 2003 Dokumentationseinheiten DBE Dok. Bezugseinheiten Vergleich der Begriffe Information Indexing Information Retrieval

Grundlagen des Information Retrieval Relevanz - Pertinenz Relevanz: Wann ist ein Dokument für ein

Grundlagen des Information Retrieval Relevanz - Pertinenz Relevanz: Wann ist ein Dokument für ein Suchargument relevant? – (1) wenn es objektiv zur Vorbereitung einer Entscheidung dient – (2) wenn es objektiv eine Wissenslücke schließt – (3) wenn es objektiv eine Frühwarnfunktion erfüllt Pertinenz: Wann ist ein Dokument für einen Nutzer pertinent? – (1) wenn es subjektiv zur Vorbereitung der Entscheidung eines Nutzers dient – (2) wenn es subjektiv eine Wissenslücke des Nutzers schließt – (3) wenn es subjektiv eine Frühwarnfunktion für den Nutzer erfüllt HHU Düsseldorf, SS 2003 Information Retrieval 19

Grundlagen des Information Retrieval Relevanz - Pertinenz Ziele des Information Retrieval: – Gewinnung relevanter

Grundlagen des Information Retrieval Relevanz - Pertinenz Ziele des Information Retrieval: – Gewinnung relevanter / pertinenter Dokumente, die objektives Wissen enthalten – Umwandlung des gefundenen objektiven Wissens in subjektives Wissen beim Nutzer (was auch heißt: der Nutzer muss die Fähigkeit haben, das entsprechende Wissen zu verstehen) – Ableitung von Handlungen – aus dem gefundenen Wissen auf der Basis der eigenen Vorkenntnisse neues, handlungsrelevantes Wissen zu kreieren HHU Düsseldorf, SS 2003 Information Retrieval 20

Grundlagen des Information Retrieval Relevanz - Pertinenz Voraussetzungen für erfolgreiches Retrieval: – – –

Grundlagen des Information Retrieval Relevanz - Pertinenz Voraussetzungen für erfolgreiches Retrieval: – – – das richtige Wissen zum richtigen Zeitpunkt („just in time“) am richtigen Ort im richtigen Umfang in der richtigen Form mit der richtigen Qualität, wobei „richtig“ heißt: – (1) Wissen, Zeitpunkt usw. haben (objektiv betrachtet) Relevanz – (2) Wissen, Zeitpunkt usw. werden vom Nutzer (subjektiv betrachtet) als passend eingeschätzt: haben Pertinenz HHU Düsseldorf, SS 2003 Information Retrieval 21

Grundlagen des Information Retrieval: Pull und Push – Pull-Service: zur Befriedigung von ad-hoc auftretendem

Grundlagen des Information Retrieval: Pull und Push – Pull-Service: zur Befriedigung von ad-hoc auftretendem Informationsbedarf sucht ein Nutzer aktiv in Informationssystemen nach Wissen – Push-Service: zur Befriedigung eines (über einen gewissen Zeitraum) andauernden Informationsbedarf wird ein Nutzer vom Informationssystem mit jeweils aktuellem, neuem Wissen versorgt. Push-Services sorgen für current awareness • Arbeitsschritt 1: Festlegen eines Informationsprofils (führt Nutzer durch) • Arbeitsschritt 2: Periodische Lieferung von Wissen (führt Informationssystem automatisch durch) – „SDI“ (selective dissemination of information) oder „Alert“ HHU Düsseldorf, SS 2003 Information Retrieval 22

Grundlagen des Information Retrieval Pull. Service freier Zugang Passwörter Benutzersichten allgemeine Informationen exklusive Informationen

Grundlagen des Information Retrieval Pull. Service freier Zugang Passwörter Benutzersichten allgemeine Informationen exklusive Informationen zielgruppenspezifische Informationen (a) E-Mail-Verteiler (b) personalisiert auf Homepage Push. Service HHU Düsseldorf, SS 2003 Information Retrieval 23

Grundlagen des Information Retrieval t 2 erhalten durch Push-Service t 1 bekannte Informationen gedeckter

Grundlagen des Information Retrieval t 2 erhalten durch Push-Service t 1 bekannte Informationen gedeckter Informationsbedarf erhalten durch Pull-Service unbekannte Informationen ungedeckter Informationsbedarf Themenbearbeitungszeit R. Schönfelder: Inhaltliche einer rationellen HHU Düsseldorf, SS 2003 und methodische Probleme Information Retrieval Informationsplanung in Forschung und Entwicklung. – In: Informatik 22 (1975) 6, 49 -52.

Grundlagen des Information Retrieval Frage- und Antworttypen – Konkreter Informationsbedarf (Faktenfrage) • Welchen Umsatz

Grundlagen des Information Retrieval Frage- und Antworttypen – Konkreter Informationsbedarf (Faktenfrage) • Welchen Umsatz hatte Unternehmen X im Dezember 1998 in der Region Z? • Wo liegt der Schmelzpunkt von Kupfer? • Wie schloß der Dollarkurs letzten Freitag an der Frankfurter Börse? • Wann hat mein Geschäftspartner X Geburtstag? – Problemorientierter Informationsbedarf (Literatur) • Welche Methoden der fuzzy logic lassen sich beim Data Mining einsetzen? • Wie hängen Marketing und Qualitätsmanagement zusammen? • Wie bewerten Analysten das Unternehmen X? • Wie beschreiben Marktforscher das Konsumklima für ausländischen Wein in Ungarn? Valery I. Frants; Jacob Shapiro; Vladimir G. Voiskunskii: Automated Information Retrieval. – San Diego [u. a. ]: Press, 1997. - Kap. 2. 3: The. Retrieval information need, 34 -40. HHU Düsseldorf, SS Academic 2003 Information 25

Grundlagen des Information Retrieval Problemorientierter Informationsbedarf Konkreter Informationsbedarf – 1. Thematische Grenzen sind klar

Grundlagen des Information Retrieval Problemorientierter Informationsbedarf Konkreter Informationsbedarf – 1. Thematische Grenzen sind klar angesteckt. – 2. Die Suchfrageformulierung ist durch exakte Terme ausdrückbar. – 3. Eine Faktenfrage reicht aus, um den Bedarf zu decken. – 4. Mit der Übermittlung der Fakteninformation ist das Informationsproblem erledigt. HHU Düsseldorf, SS 2003 – 1. Thematische Grenzen sind nicht exakt. – 2. Die Suchfrageformulierung läßt terminologische Varianten zu. – 3. Es müssen diverse Dokumente aus unterschiedlichen Quellen beschafft werden. – 4. Mit der Übermittlung der Literaturinformation wird ggf. das Informationsproblem modifiziert oder ein neuer Bedarf entdeckt. Information Retrieval 26

Grundlagen des Information Retrieval Aspekte der Relevanz: – Haben wir alle Datensätze gefunden, die

Grundlagen des Information Retrieval Aspekte der Relevanz: – Haben wir alle Datensätze gefunden, die handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall) Recall = a / a + c – Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision) Precision = a / a + b a =: gefundene relevante Treffer b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast) c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden HHU Düsseldorf, SS 2003 Information Retrieval 27

Grundlagen des Information Retrieval • Recall und Precision beim konkreten Informationsbedarf Recall = 1

Grundlagen des Information Retrieval • Recall und Precision beim konkreten Informationsbedarf Recall = 1 Precision = 1 • Recall und Precision beim problemorientierten Informationsbedarf inverse Relation zwischen Recall und Precision – bei Erhöhung des Recall: Absinken der Precision – bei Erhöhung der Precision: Absinken des Recall empirischer Schätzwert: Recall + Precision = 1 • Achtung Problem: dies ist ein theoretisches Modell; genaue Messergebnisse sind unmöglich, da der Wert c in großen Datenbanken prinzipiell unbekannt ist. HHU Düsseldorf, SS 2003 Information Retrieval 28

Grundlagen des Information Retrieval Der “heilige Gral” der Rechercheure 100 R e c a

Grundlagen des Information Retrieval Der “heilige Gral” der Rechercheure 100 R e c a l l Zugewinn durch elaborierte „durchschnittliches“ Information Retrieval P r e c i s i o n Suche 100 Ross Evans: Beyond Boolean: Relevance ranking, natural language and the New Search Paradigm. – In: Proceedings of the National Online Meeting. – Medford: HHU Düsseldorf, SSFifteenth 2003 Information Retrieval. Learned Information, 1994, 121 -128.

Grundlagen des Information Retrieval Suchansätze – (1) Suche nach Datensätzen (oder Teilen davon) „Nadel-im-Heuhaufen-Syndrom“

Grundlagen des Information Retrieval Suchansätze – (1) Suche nach Datensätzen (oder Teilen davon) „Nadel-im-Heuhaufen-Syndrom“ – Strategie beim problemorientierten Informationsbedarf: Berrypicking Marcia J. Bates: The design of browsing and berrypicking techniques for the online search interface. – In: Online Review 13 (1989), 407 -424. HHU Düsseldorf, SS 2003 Information Retrieval 30

Grundlagen des Information Retrieval Suchansätze – (2) informetrische Suche Charakterisierung ganzer „Heuhaufen“, d. h.

Grundlagen des Information Retrieval Suchansätze – (2) informetrische Suche Charakterisierung ganzer „Heuhaufen“, d. h. von Treffermengen – Faktenextraktion aus Datenbanken. Generierung von neuartigen Informationen durch das Retrieval • • Rangordnungen Zeitreihen semantische Netze Informationsflussgraphen • Hinweis: informetrische Suchen werden in der Vorlesung „Empirische Informationswissenschaft“ behandelt. Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für Dokumentation 43 (1992), 301 -315. HHU Düsseldorf, SS 2003 Information Retrieval 31

Grundlagen des Information Retrieval Informationsfilterung (erwünschte Einschränkung auf relevante / pertinente Dokumente) • durch

Grundlagen des Information Retrieval Informationsfilterung (erwünschte Einschränkung auf relevante / pertinente Dokumente) • durch Strukturierung der Dokumente • durch Indexieren (Informationsfilter i. e. S. ) – – – Thesaurus Klassifikation Textwortmethode Zitationsindexierung usw. • durch Informationsverdichtung – Abstracts – Ontologien – Topic Maps HHU Düsseldorf, SS 2003 Information Retrieval 32

Grundlagen des Information Retrieval Informationsbarrieren (unerwünschte Einschränkung auf Teilmengen der relevanten / pertinenten Dokumente)

Grundlagen des Information Retrieval Informationsbarrieren (unerwünschte Einschränkung auf Teilmengen der relevanten / pertinenten Dokumente) • • • politisch-ideologische Barriere Eigentumsbarriere Gesetzesbarriere Zeitbarriere Effektivitätsbarriere Heinz Engelbert: Der Informationsbedarf in der Finanzierungsbarriere Wissenschaft. – Leipzig: Bibliographisches Institut, 1976. – Terminologiebarriere Kap. 4: Informationsbarrieren, 59 -72. Fremdsprachenbarriere Zugangsbarriere Barrieren durch Mängel beim Information Retrieval Bewusstheitsbarriere Resonanzbarriere HHU Düsseldorf, SS 2003 Information Retrieval 33

Grundlagen des Information Retrieval Informationsbarrieren HHU Düsseldorf, SS 2003 Wolfgang G. Stock: Informationswissenschaft und

Grundlagen des Information Retrieval Informationsbarrieren HHU Düsseldorf, SS 2003 Wolfgang G. Stock: Informationswissenschaft und –praxis in der Deutschen Demokratischen Republik. – Frankfurt: IDD Verl. Werner Flach, 1986, S. 64. 34 Information Retrieval

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (1) Boolesche Systeme George Boole

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (1) Boolesche Systeme George Boole (1815 – 1864), englischer Mathematiker und Logiker („Boolesche Algebra“) – Boolesche Systeme erfordern die Übersetzung einer Anfrage in eine formale Sprache. – Country AND Western ANDNOT „Garth Brooks“ HHU Düsseldorf, SS 2003 Information Retrieval 35

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (2) Natürlichsprachige Systeme erwarten Anfragen

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (2) Natürlichsprachige Systeme erwarten Anfragen in gewöhnlicher Sprache (mittels ganzer Sätze, einzelner Terme oder auch ganzer Musterdokumente). Beispiele: kommerzielle Content-Aggregatoren mit natürlichsprachiger Suche: WIN (Westlaw), Target (DIALOG), Freestyle (Lexis-Nexis); Content-Aggregatoren mit natürlichsprachiger automatischer Indexierung: FACTIVA, Dialog Profound, Dialog News. Edge; alle Suchmaschinen im WWW Komponenten: a) Informationslinguistik (Abgleich Suchargument – Dokumente) b) Informationsstatistik (Relevance Ranking) c) nicht immer: Ordnungssysteme (terminologische Kontrolle) HHU Düsseldorf, SS 2003 Information Retrieval 36

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (3) Kombinierte Systeme Boolesches und

Grundlagen des Information Retrieval • Typologie von Retrievalsystemen – (3) Kombinierte Systeme Boolesches und natürlichsprachiges Retrieval in Kombination (a) zuerst Boolesches Retrieval, danach in Treffermenge Relevance Ranking Beispiele: diverse Content-Aggregatoren, Alta. Vista (b) zuerst Informationslinguistik, danach in Treffermenge Feinrecherche mittels Boolescher Operatoren Beispiel: Lexis-Nexis HHU Düsseldorf, SS 2003 Information Retrieval 37

Grundlagen des Information Retrieval Weltregionen des Internet: Die „Oberfläche“ – digitale Dokumente im Web

Grundlagen des Information Retrieval Weltregionen des Internet: Die „Oberfläche“ – digitale Dokumente im Web – (prinzipiell) auffindbar durch Suchwerkzeuge – Dokumente sind u. U. unerwünschter Ballast („Spam“) • Suchwerkzeuge / Typen: – – Suchmaschinen Webkataloge Meta-Suchmaschinen Portale HHU Düsseldorf, SS 2003 Information Retrieval 38

Grundlagen des Information Retrieval Suchmaschinen (Search Engines) Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und

Grundlagen des Information Retrieval Suchmaschinen (Search Engines) Mechtild Stock; Wolfgang G. Stock: Informationslinguistik und -statistik: Alta. Vista, FAST und Northern Light. – In: Password Nr. 1 (2001), 16 -24. - Mechtild Stock; Wolfgang G. Stock: Relevance Ranking nach „Popularität“ von Webseiten: Google. – In: Password Nr. 2 (2001), 20 -27. HHU Düsseldorf, SS 2003 Information Retrieval 39

Grundlagen des Information Retrieval Suchmaschinen (Search Engines) • Gegenstand: Dokumente im Internet (WWW, Newsgroups),

Grundlagen des Information Retrieval Suchmaschinen (Search Engines) • Gegenstand: Dokumente im Internet (WWW, Newsgroups), gerichtet auf einzelne Webseiten • automatisches Einsammeln der Dokumente mittels Crawler • automatisches Aktualisieren der Datenbasis • Kopieren der Dokumente (oder von Teilen) in die eigene Datenbank • automatisches Indexieren der kopierten Dokumente • eher große Datenbasis (mehrere Mrd. Dokumente) • Suchsystem mit natürlichsprachiger Eingabe und mit Profi. Oberfläche HHU Düsseldorf, SS 2003 Information Retrieval 40

Grundlagen des Information Retrieval Webkataloge (Web-Directories) Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologische

Grundlagen des Information Retrieval Webkataloge (Web-Directories) Mechtild Stock; Wolfgang G. Stock: Klassifikation und terminologische Kontrolle: Yahoo!, Open Directory und Oingo im Vergleich. – In: Password Nr. 12 (2000), 26 -33. HHU Düsseldorf, SS 2003 Information Retrieval 41

Grundlagen des Information Retrieval Webkataloge (Web-Directories) • Gegenstand: Dokumente im WWW (z. T. zusätzlich

Grundlagen des Information Retrieval Webkataloge (Web-Directories) • Gegenstand: Dokumente im WWW (z. T. zusätzlich exklusive Dokumente, z. B. News), gerichtet vor allem auf Einstiegsseiten in Websites • intellektuelle Auswahl • intellektuelles Indexieren (i. d. R. Klassifikation) • Datenbasis: „Titel“ der Dokumente (vom Webkatalog oder vom Anmeldenden vergeben) und URL • eher kleine Datenbasis (einige Mio. Dokumente) • unregelmäßiges Update • Suchsysteme mit Klassifikationshierarchien und natürlichsprachiger Suche (über die Klassenbezeichnungen und die Dokumenten“titel“) HHU Düsseldorf, SS 2003 Information Retrieval 42

Grundlagen des Information Retrieval Meta-Suchmaschinen HHU Düsseldorf, SS 2003 Information Retrieval 43

Grundlagen des Information Retrieval Meta-Suchmaschinen HHU Düsseldorf, SS 2003 Information Retrieval 43

Grundlagen des Information Retrieval Meta-Suchmaschinen • keine Datenbasis; greifen auf die Datenbasen anderer Suchwerkzeuge

Grundlagen des Information Retrieval Meta-Suchmaschinen • keine Datenbasis; greifen auf die Datenbasen anderer Suchwerkzeuge zurück („Schmarotzer“) – a) Metasuchmaschinen ohne eigenen informationellen Mehrwert (außer der Abfrage diverser Suchwerkzeuge und ggf. Dublettenelimination) – b) Metasuchmaschinen mit Angebot von Dokumentationssprachen (z. B. Thesaurus) – c) mit Bearbeitung eingesammelter Dokumente HHU Düsseldorf, SS 2003 Information Retrieval 44

Grundlagen des Information Retrieval Portal • • einheitlicher Einstiegspunkt in das WWW (allgemein: „horizontales

Grundlagen des Information Retrieval Portal • • einheitlicher Einstiegspunkt in das WWW (allgemein: „horizontales Portal“; fachspezifisch: „vertikales“ Portal) Simplizität Bereitstellung von Suchwerkzeugen (Suchmaschine und Katalog) allgemein interessierende bzw. fachspezifische (möglichst) exklusive Inhalte (News, Aktienkurse) Zusatzfunktionalitäten (Tools mit benutzerspezifischem Gebrauchswert, z. B. Übersetzungsprogramme, Kalender, Adressbuch) Personalisierung (Verwalten von Informationsprofilen – „My. XXX“) Hermann Rösch: Internetportal, Unternehmensportal, Kommunikation (E-Mail-Accounts, Wissenschaftsportal. – In: Gerhard Knorz; Rainer Kuhlen (Hrsg. ): Informationskompetenz – Basiskompetenz in themenspezifische Chatrooms, Platz für benutzereigene Homepage o. ä. ) HHU Düsseldorf, SS 2003 der Informationsgesellschaft. – Konstanz: UVK, 2000, 245 -264. Information Retrieval 45

Grundlagen des Information Retrieval Weltregionen des Internet: Das „Deep Web“ (oder „Invisible Web“) –

Grundlagen des Information Retrieval Weltregionen des Internet: Das „Deep Web“ (oder „Invisible Web“) – digitale Dokumente, die nicht direkt im Web liegen, aber via Web erreichbar sind – derzeit nicht auffindbar durch Suchwerkzeuge – Dokumente sind (meist) qualitätsgeprüft – Terminologie: „invisible Web“ – Sherman & Price „Deep Web“ – Bergman (Schätzung: Deep Web ist 500 mal größer als das Oberflächenweb – wahrscheinlich stark überschätzt) • Typen: – Kostenfreie singuläre Datenbanken – Kommerzielle Informationsanbieter • Selbstvermarkter • Content-Aggregatoren (Online-Hosts) Chris Sherman; Gary Price: The Invisible Web. – Medford: Information Today, 2001. Michael K. Bergman: The Deep Web: Surfacing Hidden Value. – In: The Journal of Electronic Publishing 7 (2001) Iss. 1 HHU Düsseldorf, SS 2003 Information Retrieval 46

Grundlagen des Information Retrieval (Kostenfreie) Singuläre Datenbanken im Web – thematisch orientierte Datenbanken –

Grundlagen des Information Retrieval (Kostenfreie) Singuläre Datenbanken im Web – thematisch orientierte Datenbanken – (i. d. R. ) aufgebaut von öffentlichen Einrichtungen (durch öffentliche Mittel bereits finanziert) – mehrere tausend Datenbanken via Web erreichbar HHU Düsseldorf, SS 2003 Information Retrieval 47

Grundlagen des Information Retrieval (Kommerzielle) Singuläre Datenbanken im Web – „Selbstvermarkter“ – thematisch orientierte

Grundlagen des Information Retrieval (Kommerzielle) Singuläre Datenbanken im Web – „Selbstvermarkter“ – thematisch orientierte Datenbanken – (i. d. R. ) aufgebaut von Privatunternehmen mit dem Zweck der Erzielung von Gewinnen – teilweise auch zusätzlich bei Content-Aggregatoren aufgelegt Mechtild Stock; Wolfgang G. Stock: Professionelle Informationen über deutsche Unternehmen im Internet. – In: Password Nr. 11 (2001), 26 -33, und Nr. 12 (2001), 18 -25. HHU Düsseldorf, SS 2003 Information Retrieval 48

Grundlagen des Information Retrieval Content-Aggregatoren Wirtschaft – Bündelung wirtschaftsrelevanter Datenbasen unter einer Oberfläche –

Grundlagen des Information Retrieval Content-Aggregatoren Wirtschaft – Bündelung wirtschaftsrelevanter Datenbasen unter einer Oberfläche – Wirtschaftsnachrichten, Firmeninformationen, Wirtschaftswissenschaft, Marktdaten usw. Mechtild Stock: GBI – the contentmachine. Wirtschaftsinformationen für Hochschulen, Unternehmen und Internet. Surfer. – In: Password Nr. 2 (2003), 8 -17; Mechtild Stock; Wolfgang G. Stock : Dialog / Data. Star. One-Stop. Shops internationaler Fachinformationen. – In: Password Nr. 4 (2003), 22 -29. - Mechtild Stock; Wolfgang G. Stock : Dialog Profound / News. Edge: Dialogs Spezialmärkte für Marktforschung und News. – In: Password Nr. 5 (2003). HHU Düsseldorf, SS 2003 Information Retrieval 49

Grundlagen des Information Retrieval Content-Aggregatoren News – Bündelung von Nachrichten-Datenbasen unter einer Oberfläche –

Grundlagen des Information Retrieval Content-Aggregatoren News – Bündelung von Nachrichten-Datenbasen unter einer Oberfläche – (real-time)-Informationen von Nachrichtenagenturen, Zeitungen, Zeitschriften Mechtild Stock: Factiva. com. Neuigkeiten auf der Spur. – In: Password Nr. 5 (2002), 31 -40. - Mechtild Stock; Wolfgang G. Stock: Von Factiva. com zu Factiva Fusion. Globalität und Einheitlichkeit mit Integrationslösungen. – In: Password Nr. 3 (2003), 19 -28. – Mechtild Stock: ASV Infopool. Boulevard online. – In: Password Nr. 10 (2002), 22 -27. HHU Düsseldorf, SS 2003 Information Retrieval 50

Grundlagen des Information Retrieval Content-Aggregatoren WTM (Wissenschaft – Technik – Medizin) – Bündelung von

Grundlagen des Information Retrieval Content-Aggregatoren WTM (Wissenschaft – Technik – Medizin) – Bündelung von Wissenschaftsdatenbasen unter einer Oberfläche – disziplinspezifische bibliographische Datenbasen, Volltexte von Wissenschaftszeitschriften, Zitationsdatenbanken Wolfgang G. Stock: Web of Science. Ein Netz wissenschaftlicher Informationen – gesponnen aus Fußnoten. – In: Password Nr. 7+8 (1999), 21 -25. HHU Düsseldorf, SS 2003 Information Retrieval 51

Grundlagen des Information Retrieval Content-Aggregatoren Recht – Bündelung von juristischen Datenbasen unter einer Oberfläche

Grundlagen des Information Retrieval Content-Aggregatoren Recht – Bündelung von juristischen Datenbasen unter einer Oberfläche – Urteile, Volltexte juristischer Zeitschriften, bibliographische Datenbanken HHU Düsseldorf, SS 2003 Information Retrieval 52

Grundlagen des Information Retrieval Weltregionen des Internet Grenzüberschreitungen – Hybrid-Suchmaschine (Content-Aggregator und WWW-Suchmaschine) HHU

Grundlagen des Information Retrieval Weltregionen des Internet Grenzüberschreitungen – Hybrid-Suchmaschine (Content-Aggregator und WWW-Suchmaschine) HHU Düsseldorf, SS 2003 Information Retrieval 53

Grundlagen des Information Retrieval Weltregionen des Internet / Grenzüberschreitungen – Querweltein-Ergänzungen Suchmaschinen mit Links

Grundlagen des Information Retrieval Weltregionen des Internet / Grenzüberschreitungen – Querweltein-Ergänzungen Suchmaschinen mit Links ins Deep Web. Beispiel: Alta. Vista (Oberflächenweb) – Wer liefert was? (Deep Web) HHU Düsseldorf, SS 2003 Information Retrieval 54

Grundlagen des Information Retrieval Weltregionen des Internet / Grenzüberschreitungen – Querweltein-Ergänzungen Deep Web-Datenbank mit

Grundlagen des Information Retrieval Weltregionen des Internet / Grenzüberschreitungen – Querweltein-Ergänzungen Deep Web-Datenbank mit Links ins Oberflächenweb Beispiel: HWWA-Wirtschaftsdatenbank HHU Düsseldorf, SS 2003 Information Retrieval 55

Grundlagen des Information Retrieval Weltregionen des Internet / Überblick Wolfgang G. Stock: Weltregionen des

Grundlagen des Information Retrieval Weltregionen des Internet / Überblick Wolfgang G. Stock: Weltregionen des Internet: Digitale Informationen im WWW und via WWW. – In: Password Nr. 2 (2003), 26 -28. HHU Düsseldorf, SS 2003 Information Retrieval 56

Grundlagen des Information Retrieval Weltregionen des Internet und die Welt gedruckter Dokumente. . .

Grundlagen des Information Retrieval Weltregionen des Internet und die Welt gedruckter Dokumente. . . wenn die benötigten Dokumente nur in Printausgaben vorliegen: Nutzung von Document Delivery Services HHU Düsseldorf, SS 2003 Information Retrieval 57

Grundlagen des Information Retrieval Typische Dokumente: Wirtschaftsinformation Beispiel: Firmendossier (Creditreform Online) - 1 -

Grundlagen des Information Retrieval Typische Dokumente: Wirtschaftsinformation Beispiel: Firmendossier (Creditreform Online) - 1 - HHU Düsseldorf, SS 2003 Information Retrieval 58

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 2 - HHU Düsseldorf, SS

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 2 - HHU Düsseldorf, SS 2003 Information Retrieval 59

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 3 - HHU Düsseldorf, SS

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 3 - HHU Düsseldorf, SS 2003 Information Retrieval 60

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 4 - HHU Düsseldorf, SS

Grundlagen des Information Retrieval Beispiel: Firmendossier (Creditreform Online) - 4 - HHU Düsseldorf, SS 2003 Information Retrieval 61

Grundlagen des Information Retrieval Typische Dokumente: News Beispiel: Zeitungsartikel bei Factiva -1 - HHU

Grundlagen des Information Retrieval Typische Dokumente: News Beispiel: Zeitungsartikel bei Factiva -1 - HHU Düsseldorf, SS 2003 Information Retrieval 62

Grundlagen des Information Retrieval Beispiel: Zeitungsartikel bei Factiva -2 - HHU Düsseldorf, SS 2003

Grundlagen des Information Retrieval Beispiel: Zeitungsartikel bei Factiva -2 - HHU Düsseldorf, SS 2003 Information Retrieval 63

Grundlagen des Information Retrieval Typische Dokumente: WTM (1) Beispiel: Bibliographischer Nachweis / MEDLINE bei

Grundlagen des Information Retrieval Typische Dokumente: WTM (1) Beispiel: Bibliographischer Nachweis / MEDLINE bei DIMDI HHU Düsseldorf, SS 2003 Information Retrieval 64

Grundlagen des Information Retrieval Typische Dokumente: WTM (2) Beispiel: Patentnachweis Derwent bei DIALOG -

Grundlagen des Information Retrieval Typische Dokumente: WTM (2) Beispiel: Patentnachweis Derwent bei DIALOG - 1 - HHU Düsseldorf, SS 2003 Information Retrieval 65

Grundlagen des Information Retrieval Beispiel: Patentnachweis Derwent bei DIALOG - 2 - HHU Düsseldorf,

Grundlagen des Information Retrieval Beispiel: Patentnachweis Derwent bei DIALOG - 2 - HHU Düsseldorf, SS 2003 Information Retrieval 66

Grundlagen des Information Retrieval Typische Dokumente: Rechtsinformation Beispiel: Grundsatzurteil (Juris) - 1 - HHU

Grundlagen des Information Retrieval Typische Dokumente: Rechtsinformation Beispiel: Grundsatzurteil (Juris) - 1 - HHU Düsseldorf, SS 2003 Information Retrieval 67

Grundlagen des Information Retrieval Beispiel: Grundsatzurteil (Juris) - 2 - HHU Düsseldorf, SS 2003

Grundlagen des Information Retrieval Beispiel: Grundsatzurteil (Juris) - 2 - HHU Düsseldorf, SS 2003 Information Retrieval 68

Grundlagen des Information Retrieval Typische Dokumente: WWW HHU Düsseldorf, SS 2003 Information Retrieval 69

Grundlagen des Information Retrieval Typische Dokumente: WWW HHU Düsseldorf, SS 2003 Information Retrieval 69

Grundlagen des Information Retrieval Dateien – Dokumentenspeicher (sequentielle Aufnahme aller Daten eines Dokumentes) –

Grundlagen des Information Retrieval Dateien – Dokumentenspeicher (sequentielle Aufnahme aller Daten eines Dokumentes) – Zuordnung einer eindeutigen Dok. -Nr. – Invertierte Dateien: feldspezifische (i. d. R. alphabetische) Listen aller Einträge eines Feldes aller Dokumente – unter Zuordnung der Dok. -Nr. und weiterer Angaben – Basic Index: Invertierte Datei über bestimmte Felder (je nach System alle Felder oder Auswahl) – Wortindex: jedes einzelne Wort ist Indexeintrag Phrasenindex: zusammengehörige Phrasen bilden einen Indexeintrag HHU Düsseldorf, SS 2003 Information Retrieval 70

Grundlagen des Information Retrieval Invertierte Dateien. Jeder Eintrag enthält: – eigene Adresse im Speicher

Grundlagen des Information Retrieval Invertierte Dateien. Jeder Eintrag enthält: – eigene Adresse im Speicher – Dokumentnummer(n) bzw. deren Adresse(n) – Häufigkeit in Gesamtdatenbank • Anzahl der Dokumente, in denen der Eintrag (min. einmal) vorkommt • Gesamtanzahl des Vorkommens in der Datenbank – Position(en) im Dokument • • Wortnummer(n) Vorkommen in Satz/Sätzen Nummer(n) X, X‘, . . . Vorkommen in Absatz/Absätzen Nummer(n) Y, Y‘, . . . beim Einsatz syntaktischen Indexierens: Vorkommen in Themenkette(n) T, T‘, . . . – ggf. : Kennzeichen auf Position (z. B. Größe des Druckerfonts) – ggf. : Gewichtungswert – ggf. jeder Eintrag zweimal: normale Buchstabenfolge und zusätzlich rückläufig HHU Düsseldorf, SS 2003 Information Retrieval 71

Grundlagen des Information Retrieval Invertierte Dateien. Beispiel (Textbody) Eintrag: Unternehmen / nemhenretn. U Dok.

Grundlagen des Information Retrieval Invertierte Dateien. Beispiel (Textbody) Eintrag: Unternehmen / nemhenretn. U Dok. -Nr. # Dok. # insg. Wort-Nr. Satz-Nr. Absatz-Nr. Font 2, 23, 45, 56 4 7 (2: 4, 28), (23: 99), (45: 13, 17, 55), (56: 432) (2: 1, 3), (23: 15), (45: 9, 9, 15), (56: 58) (2: 1, 1), (23: 1), (45: 1, 2), (56: 4) (2. 4: 28), (2. 28: 10), (23. 99: 12), (45. 13: 72), (45. 17: 12), (45. 55: 12), (56. 432: 20) HHU Düsseldorf, SS 2003 Information Retrieval 72

Grundlagen des Information Retrieval Invertierte Dateien. Beispiel (Deskriptorfeld) Eintrag: Just in Time-Logistik / kitsigo.

Grundlagen des Information Retrieval Invertierte Dateien. Beispiel (Deskriptorfeld) Eintrag: Just in Time-Logistik / kitsigo. L-emi. T ni tsu. J Dok. -Nr. # Dok. # insg. Kette-Nr. Gewichtung 44, 1204 2 8 (44: 1, 3, 10), (1204: 1 -5) (44: 33), (1204: 100) HHU Düsseldorf, SS 2003 Information Retrieval 73

Grundlagen des Information Retrieval Wie kommen die Datenbanken zu ihren Dokumenten? – (1) intellektuelle

Grundlagen des Information Retrieval Wie kommen die Datenbanken zu ihren Dokumenten? – (1) intellektuelle Auswahl nach Kriterien der Dokumentationswürdigkeit – (2) automatisches Einsammeln durch Crawler (Spider, Robots) • Verfolgen der Links in bereits gesammelten Dokumenten • Beachtung von Robot Exclusion Standards HHU Düsseldorf, SS 2003 Information Retrieval 74

Grundlagen des Information Retrieval Crawler. Beispiel: Scooter von Alta. Vista Louis M. Monier: System

Grundlagen des Information Retrieval Crawler. Beispiel: Scooter von Alta. Vista Louis M. Monier: System for adding a new entry to a web page table upon receiving a web page including a link to another web page not having a corresponding entry in the web page table. – Patent Nr. US 6. 032. 196. – Assignee: Digital Equipment Corp. – Priorität: 28. August 1998; erteilt: 29. Februar 2000. HHU Düsseldorf, SS 2003 Information Retrieval 75

Funktionalität Boolescher Retrievalsysteme HHU Düsseldorf, SS 2003 Information Retrieval

Funktionalität Boolescher Retrievalsysteme HHU Düsseldorf, SS 2003 Information Retrieval

Funktionalität Boolescher Retrievalsysteme Einsatz boolescher Systeme bei: • • bibliographischen Datenbanken Volltextdatenbanken Faktendatenbanken z.

Funktionalität Boolescher Retrievalsysteme Einsatz boolescher Systeme bei: • • bibliographischen Datenbanken Volltextdatenbanken Faktendatenbanken z. T. bei Suchmaschinen im WWW Varianten: • befehlsorientiert (für Information Professionals) • menügeführt (für Laien) Wolfgang G. Stock: Informationswirtschaft. – München; Wien: Oldenbourg. 2000. - Kap. 4: Retrieval von elektronischen Informationen: Techniken und Strategien, 90 -118. HHU Düsseldorf, SS 2003 Information Retrieval 77

Funktionalität Boolescher Retrievalsysteme Menügeführtes Boolesches Retrievalsystem Beispiel: Profound HHU Düsseldorf, SS 2003 Information Retrieval

Funktionalität Boolescher Retrievalsysteme Menügeführtes Boolesches Retrievalsystem Beispiel: Profound HHU Düsseldorf, SS 2003 Information Retrieval 78

Funktionalität Boolescher Retrievalsysteme Befehlsorientiertes Boolesches Retrievalsystem Beispiel: Dialog. Web HHU Düsseldorf, SS 2003 Information

Funktionalität Boolescher Retrievalsysteme Befehlsorientiertes Boolesches Retrievalsystem Beispiel: Dialog. Web HHU Düsseldorf, SS 2003 Information Retrieval 79

Funktionalität Boolescher Retrievalsysteme Arbeiten mit booleschen Retrievalsystemen – Suchen nach den bestpassenden Datenbanken (Nadel-im.

Funktionalität Boolescher Retrievalsysteme Arbeiten mit booleschen Retrievalsystemen – Suchen nach den bestpassenden Datenbanken (Nadel-im. Heuhaufen-Syndrom – Phase 1) Derzeit existieren mehrere zehntausend fachspezifische Datenbanken. (Hinweis: recht vollständig ist der Datenbankführer von GALE) – Suchen nach den bestpassenden Dokumenten (Nadel-im. Heuhaufen-Syndrom – Phase 2) Derzeit existieren (außerhalb des WWW) mehrere zehnmilliarden Dokumente. – Ausgeben der gefundenen Dokumente – Initiierung eines Pushdienstes HHU Düsseldorf, SS 2003 Information Retrieval 80

Funktionalität Boolescher Retrievalsysteme Suchen nach bestpassenden Datenbanken (Nadel-im. Heuhaufen-Syndrom – Phase 1) – „Bluesheets“:

Funktionalität Boolescher Retrievalsysteme Suchen nach bestpassenden Datenbanken (Nadel-im. Heuhaufen-Syndrom – Phase 1) – „Bluesheets“: Detaillierte Datenbankbeschreibungen HHU Düsseldorf, SS 2003 Information Retrieval 81

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Suchen der bestpassenden Datenbanken (befehlsorientierte Variante) • Öffnen der Indexdatenbank

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Suchen der bestpassenden Datenbanken (befehlsorientierte Variante) • Öffnen der Indexdatenbank (bei DIALOG: b 411) • Einschränken auf thematischen Bereich / SET FILES (sf papersmj, 47, not 703) • Suchargument eingeben / SELECT (s XXX) • ggf. Suchargument speichern / SAVE TEMP (save temp Name) • Rangordnung der Datenbanken nach Treffern zum Suchargument / RANK FILES (rf) • Aussuchen der Datenbanken; Aufrufen entweder mit File. Name oder mit Ausgabenummer (N 1, N 2, . . . ) / BEGIN (b N 1 -N 9) HHU Düsseldorf, SS 2003 Information Retrieval 82

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Beispiel DIALOG (1) HHU Düsseldorf, SS 2003 Information Retrieval 83

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Beispiel DIALOG (1) HHU Düsseldorf, SS 2003 Information Retrieval 83

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Beispiel DIALOG (2) HHU Düsseldorf, SS 2003 Information Retrieval 84

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Beispiel DIALOG (2) HHU Düsseldorf, SS 2003 Information Retrieval 84

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Suchen der bestpassenden Datenbanken (menügeführte Variante) Beispiel: GBI (CROSS) HHU

Funktionalität Boolescher Retrievalsysteme Datenbankindex: Suchen der bestpassenden Datenbanken (menügeführte Variante) Beispiel: GBI (CROSS) HHU Düsseldorf, SS 2003 Information Retrieval 85

Funktionalität Boolescher Retrievalsysteme Suchen nach bestpassenden Dokumenten (Nadelim-Heuhaufen-Syndrom – Phase 2) Zugang zu Datenbanken

Funktionalität Boolescher Retrievalsysteme Suchen nach bestpassenden Dokumenten (Nadelim-Heuhaufen-Syndrom – Phase 2) Zugang zu Datenbanken – Öffnen einer Datenbank / BEGIN 3 – Öffnen von Segmenten einer Datenbank (etwa: nur die letzten zwei Jahrgänge) / BEGIN 3 CURRENT 2 – Öffnen mehrerer (gleich strukturierter) Datenbanken gleichzeitig / Einzelauswahl / BEGIN 3, 45, 47 – Öffnen mehrerer Datenbanken eines vordefinierten Datenbankclusters / BEGIN PAPERS HHU Düsseldorf, SS 2003 Information Retrieval 86

Funktionalität Boolescher Retrievalsysteme Feldspezifische Suche – alphanumerische Felder (wie AU, CT, TI, . .

Funktionalität Boolescher Retrievalsysteme Feldspezifische Suche – alphanumerische Felder (wie AU, CT, TI, . . . ) / SELECT S AU=Marx, Karl (bei Phrasenindex) S AU=Marx AND AU=Karl (bei Wortindex) – numerische Felder (wie YR, UM, PL, . . . ) / algebraische Operatoren (gleich, größer, kleiner) YR=2003; YR>1999; YR<1999 – Basic Index / Suchen ohne Feldkürzel S Marx Blättern im Wörterbuch – Einstieg in die invertierten Dateien / EXPAND E AU=Marx – Anzeige der (alphabetischen) Umgebung mit lfd. Nr. (etwa: T 3 Marx, Karl) – Übernahme der lfd. Nr. / S T 3 HHU Düsseldorf, SS 2003 Information Retrieval 87

Funktionalität Boolescher Retrievalsysteme Schreibvarianten (Beispiele: Lexis-Nexis) – ohne weitere Befehle: je nach System: nicht

Funktionalität Boolescher Retrievalsysteme Schreibvarianten (Beispiele: Lexis-Nexis) – ohne weitere Befehle: je nach System: nicht zeichensensitiv, automatische Pluralbildung, automatische Weiterleitung zum Deskriptor – nur Großbuchstaben suchen: ALLCAPS aids (findet AIDS) – nur Kleinbuchstaben suchen: NOCAPS aid (findet aid) – erster Buchstabe groß: CAPS aid (findet Aid) – nur Pluralform suchen: PLURAL job (findet jobs) – nur Singularform suchen: SINGULAR job (findet job) HHU Düsseldorf, SS 2003 Information Retrieval 88

Funktionalität Boolescher Retrievalsysteme Fragmentierung (Truncation) – Links-, Mitte-, Rechtsfragmentierung – offene Fragmentierung (beliebig viele

Funktionalität Boolescher Retrievalsysteme Fragmentierung (Truncation) – Links-, Mitte-, Rechtsfragmentierung – offene Fragmentierung (beliebig viele Zeichen werden ersetzt) / $ Unternehm$ findet Unternehmen, Unternehmung, Unternehmensgeschichtsschreibungstheorie, . . . $unternehmen findet Bauunternehmen, Chemieunternehmen, Stahlunternehmen – begrenzte Fragmentierung (genau ein Zeichen wird ersetzt) / * Unternehm*** findet Unternehmen, Unternehmung, aber nicht längere Terme Ma*er findet Maier, Mayer, Majer (aber auch Maler) – Je nach System müssen n Zeichen (oft: 3 oder 5) vor oder nach dem Jokerzeichen vorhanden sein – Achtung bei großzügiger Fragmentierung: $affe$ HHU Düsseldorf, SS 2003 Information Retrieval 89

Funktionalität Boolescher Retrievalsysteme Schnittmenge A UND B 1. Invertierter Index: Suche nach A nebst

Funktionalität Boolescher Retrievalsysteme Schnittmenge A UND B 1. Invertierter Index: Suche nach A nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 1“. 2. Invertierter Index: Suche nach B nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 2“. 3. Bestimme Schnittmenge aus „Menge 1“ und „Menge 2“. Entstehende Menge sei „Menge 3“. 4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe! Gerard Salton; Michael Mc. Gill: Information Retrieval – Grundlegendes für Informationswissenschaftler. – Hamburg [u. a. ]: Mc. Graw-Hill, 1983. – Kap. 2: Invertierte Dateisysteme, 27 -55. HHU Düsseldorf, SS 2003 Information Retrieval 90

Funktionalität Boolescher Retrievalsysteme Vereinigungsmenge A ODER B 1. Invertierter Index: Suche nach A nebst

Funktionalität Boolescher Retrievalsysteme Vereinigungsmenge A ODER B 1. Invertierter Index: Suche nach A nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 1“. 2. Invertierter Index: Suche nach B nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 2“. 3. Bestimme Vereinigungsmenge aus „Menge 1“ und „Menge 2“. Entstehende Menge sei „Menge 3“. 4. Folge den Verweisen aus „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe! HHU Düsseldorf, SS 2003 Information Retrieval 91

Funktionalität Boolescher Retrievalsysteme Exklusionsmenge A UND NICHT B 1. Invertierter Index: Suche nach A

Funktionalität Boolescher Retrievalsysteme Exklusionsmenge A UND NICHT B 1. Invertierter Index: Suche nach A nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 1“. 2. Invertierter Index: Suche nach B nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 2“. 3. Lösche sämtliche Elemente aus „Menge 1“, die auch Elemente aus „Menge 2“ sind! 4. Folge den Verweisen aus der verbleibenden „Menge 1“ zu den Dokumenten, kopiere diese zur Ausgabe! HHU Düsseldorf, SS 2003 Information Retrieval 92

Funktionalität Boolescher Retrievalsysteme Ausschließende Exklusionsmenge A XOR B 1. Invertierter Index: Suche nach A

Funktionalität Boolescher Retrievalsysteme Ausschließende Exklusionsmenge A XOR B 1. Invertierter Index: Suche nach A nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 1“. 2. Invertierter Index: Suche nach B nebst Dok. -Nr. Die Menge der Dok. -Nummern sei „Menge 2“. 3. Bestimme Vereinigungsmenge aus „Menge 1“ und „Menge 2“. Entstehende Menge sei „Menge 3“. 4. Bestimme Schnittmenge aus „Menge 1“ und „Menge 2“. Entstehende Menge sei „Menge 4“. 5. Lösche alle Elemente aus „Menge 3“, die auch Element von „Menge 4“ sind! 6. Folge den Verweisen aus der verbleibenden „Menge 3“ zu den Dokumenten, kopiere diese zur Ausgabe! HHU Düsseldorf, SS 2003 Information Retrieval 93

Funktionalität Boolescher Retrievalsysteme Boolesche Funktoren in aussagenlogischer Deutung A B w w f f

Funktionalität Boolescher Retrievalsysteme Boolesche Funktoren in aussagenlogischer Deutung A B w w f f w f A UND B w f f f Konjunktion „beides“ A ODER B A UND NICHT B A XOR B w w w f f Disjunktion „mindestens eines“ f w w f Postsektion „das eine Kontravalenz „entweder das eine oder ohne das andere“ I. M. Bochenski; Albert Menne: Grundriß der Logistik. – Paderborn: Schöningh, 1973, 27 -35. HHU Düsseldorf, SS 2003 Information Retrieval das 94

Funktionalität Boolescher Retrievalsysteme Abstandsoperatoren (Verschärfung des Booleschen UND) – (1) direkte Nachbarschaft: • Phrasen:

Funktionalität Boolescher Retrievalsysteme Abstandsoperatoren (Verschärfung des Booleschen UND) – (1) direkte Nachbarschaft: • Phrasen: „Miranda Otto“ • benachbarte Worte in Reihenfolge: Miranda ADJ Otto findet Miranda Otto • benachbarte Worte ohne Beachtung der Reihenfolge: Miranda (N) Otto findet Miranda Otto und Otto, Miranda – (2) numerische Abstandsoperatoren: • Suche nach Worten im Abstand von n Worten (n frei wählbar): Miranda (N) Otto W/25 Eowyn findet alle Texte, in denen die Namen im Abstand von max. 25 Worten vorkommen – mehrfache Anwendung von W/n findet (bei geschickt gewähltem n) hochrelevante Texte: Auenland W/25 Auenland • Suche nach Worten im Abstand von n Worten (n fest, i. d. R. 10): Eowyn NEAR Aragorn findet Texte, in denen die Namen im Abstand von max. 10 Worten vorkommen HHU Düsseldorf, SS 2003 Information Retrieval 95

Funktionalität Boolescher Retrievalsysteme Abstandsoperatoren (Verschärfung des Booleschen UND) – (3) grammatische Nachbarschaft: • (nicht)

Funktionalität Boolescher Retrievalsysteme Abstandsoperatoren (Verschärfung des Booleschen UND) – (3) grammatische Nachbarschaft: • (nicht) im gleichen Satz (auch bei thematischen Ketten des syntaktischen Indexierens) – A UND. S B – A NICHT. S B • (nicht) im gleichen Absatz – A UND. P B – A NICHT. P B • (nicht) im gleichen Feld – A UND. F B – A NICHT. F B • Satzanfang: #A (A steht am Satzanfang) Häufigkeitsoperator (Angabe der Minimalhäufigkeit) – ATLEAST 20 (A): A muss min. 20 mal vorkommen HHU Düsseldorf, SS 2003 Information Retrieval 96

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche Marketing UB 1 UB 2 Werbung HHU Düsseldorf, SS

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche Marketing UB 1 UB 2 Werbung HHU Düsseldorf, SS 2003 UB 3 Dienstleister UND UB 1 UB 2 Consultant Information Retrieval UB 3

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche • bei Klassifikationen durch Rechtsfragmentierung – DDC=382 findet alles

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche • bei Klassifikationen durch Rechtsfragmentierung – DDC=382 findet alles zur Klasse 382 – DDC=382* findet alles zu 382 und zu den Unterbegriffen der nächsten Hierarchieebene – DDC=382** findet alles zu 382 und zu den Unterbegriffen der nächsten zwei Hierarchieebenen – DDC=382$ findet alles zu 382 nebst allen Unterbegriffen • bei Thesauri – DOWN-Operator (findet alles zum Deskriptor nebst aller Unterbegriffe) DE DOWN Hepatitis findet alles zu Hepatitis und zu allen Unterbegriffen (bis zu den Bottomterms) im unterlegten Thesaurus – NÄCHSTE EBENE (findet alles zum Deskriptor sowie zu den Unterbegriffen der nächsten Hierarchieebene) HHU Düsseldorf, SS 2003 Information Retrieval 98

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche Beispiel: GBI HHU Düsseldorf, SS 2003 Information Retrieval 99

Funktionalität Boolescher Retrievalsysteme Hierarchische Suche Beispiel: GBI HHU Düsseldorf, SS 2003 Information Retrieval 99

Funktionalität Boolescher Retrievalsysteme Klammersetzung / Bindungsstärke der Operatoren – je nach System binden die

Funktionalität Boolescher Retrievalsysteme Klammersetzung / Bindungsstärke der Operatoren – je nach System binden die Operatoren jeweils stärker als andere; Beispiel: UND stärker ODER – Umgehen der Bindungsstärke durch Klammern; die Systeme arbeiten die Klammern von innen nach außen ab – Gesucht: Artikel von Ernst Meier (oder Maier? ) aus den Jahren 1998 und 1999 über Mineralwasser sowie Soft Drinks: AU=M*ier, Ernst UND (YR=1998 ODER YR=1999) UND (DE=Mineralwasser ODER DE=Soft Drinks) – Gesucht: Unternehmen im Postleitzahlbereich Köln, die Anwendersoftware anbieten und die entweder mehr als 30 Mitarbeiter oder mehr als 20 Mio. EURO Jahresumsatz haben. Wir wollen dabei nichts mit Unternehmen zu tun haben, die Software für militärische Zwecke erstellen. (PL=5$ UND PC=7372002 UND (MI>30 ODER UM>20)) UND NICHT PC=7372003 HHU Düsseldorf, SS 2003 Information Retrieval 100

Funktionalität Boolescher Retrievalsysteme Datenbankübergreifende Suche – Dubletten können vorkommen und sollten gelöscht werden –

Funktionalität Boolescher Retrievalsysteme Datenbankübergreifende Suche – Dubletten können vorkommen und sollten gelöscht werden – Aufruf der Datenbanken in der Reihenfolge ihrer Qualität (damit die besten Datensätze erhalten bleiben) – nach Abschluss der Suche: • Identifizieren der Dubletten / IDENTIFY DUPLICATES • Löschen der Dubletten / REMOVE DUPLICATES – ggf. Aufsplitten der Ergebnisse in die einzelnen Datenbanken – Beispiel: Data. Star HHU Düsseldorf, SS 2003 Information Retrieval 101

Funktionalität Boolescher Retrievalsysteme Umformulierung von Suchergebnissen zu Suchargumenten (MAPPING) – Suchschritt 1: Suche nach

Funktionalität Boolescher Retrievalsysteme Umformulierung von Suchergebnissen zu Suchargumenten (MAPPING) – Suchschritt 1: Suche nach Argumenten für (den eigentlich erwünschten) Suchschritt 2 – Interesse besteht nur an den gefundenen Inhalten gewisser Felder; Zwischenspeichern / MAP (ggf. Feldkürzel verändern) – Suchschritt 2: ggf. Aufruf einer neuen Datenbank, Ausführen des gespeicherten Sucharguments – Beispiel: Suche nach Literatur zu „Aspirin“ – chemische Bezeichnungen unbekannt: (1) Aufruf einer Synonymdatenbank für chemische Bezeichnungen; Suche nach Aspirin; MAP RN (RN: Feld mit den Bezeichnungen) Suchergebnis wird zwischengespeichert – (2) Aufruf einer Chemie. Literaturdatenbank; Auslösen des Zwischenspeichers EXECUTE STEPS HHU Düsseldorf, SS 2003 Information Retrieval 102

Funktionalität Boolescher Retrievalsysteme Ausgeben der gefundenen Dokumente – Anzeigen / TYPE [Suchschritt]/[Format]/[Dokumente] TYPE S

Funktionalität Boolescher Retrievalsysteme Ausgeben der gefundenen Dokumente – Anzeigen / TYPE [Suchschritt]/[Format]/[Dokumente] TYPE S 3/5/1 -5, 9 – bisherige Suchgeschichte / DISPLAY SET – Sortieren / SORT [Suchschritt]/[Dokumente]/[Feld(er)]/ [Sortierrichtung] / SORT S 3/all/yr, au/d – Bilden einer Rangordnung nach Feldinhalten / RANK – Bestellen von Volltexten (die nicht direkt im PDF-Format vorliegen) / ORDER HHU Düsseldorf, SS 2003 Information Retrieval 103

Funktionalität Boolescher Retrievalsysteme Einrichten eines Pushdienstes – Suchargument ist vorhanden; Treffermenge zufriedenstellend – Name

Funktionalität Boolescher Retrievalsysteme Einrichten eines Pushdienstes – Suchargument ist vorhanden; Treffermenge zufriedenstellend – Name des Suchprofils definieren – Periodizität festlegen – Lieferanschrift eingeben hier: E-Mail (GBI) HHU Düsseldorf, SS 2003 Information Retrieval 104

Funktionalität Boolescher Retrievalsysteme Einrichten eines Pushdienstes – auf Homepage ausliefern (Beispiel: Factiva) HHU Düsseldorf,

Funktionalität Boolescher Retrievalsysteme Einrichten eines Pushdienstes – auf Homepage ausliefern (Beispiel: Factiva) HHU Düsseldorf, SS 2003 Information Retrieval 105

Funktionalität Boolescher Retrievalsysteme Auslieferung des Pushdienstes auf Homepage HHU Düsseldorf, SS 2003 Information Retrieval

Funktionalität Boolescher Retrievalsysteme Auslieferung des Pushdienstes auf Homepage HHU Düsseldorf, SS 2003 Information Retrieval 106