Praxisteil Seminar experimentelle Evaluierung in IR WS 0506

  • Slides: 27
Download presentation
Praxisteil Seminar „experimentelle Evaluierung in IR“ WS 05/06 Gruppe A

Praxisteil Seminar „experimentelle Evaluierung in IR“ WS 05/06 Gruppe A

Experimental setup • Collections: TREC-123, wt 10 g • Index: BM 25 und TFIDF

Experimental setup • Collections: TREC-123, wt 10 g • Index: BM 25 und TFIDF • Queries: Topics 51 -100 aus trec 123. topics (für den ersten Teil) Topics 736083, . . . Aus wt 10 g. topics. 1000 (100 aus 1000 Topics für den zweiten Teil)

Aufgabenstellung ¨ Experiment (1) DTF vs. DTF max. 5 DL vs. DTF max. 10

Aufgabenstellung ¨ Experiment (1) DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF. IDF c=0. 5 P 0=0. 5 vs. P 0=1 ¨ Experiment (2) DTF vs. DTF max. 10 DLs c=0. 5 vs. c=1 P 0=1

Vorgehensweise • • Indexierung Resource description Kostenberechnung Resource selection

Vorgehensweise • • Indexierung Resource description Kostenberechnung Resource selection

Vorgehensweise • Indexierung eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Vorgehensweise • Indexierung eigentliche Inhalte rausnehmen und zusammen mit Dokument-ID in PIRE speichern

Vorgehensweise • Indexierung (cont. ) • Show tables from exp_a like ‚ap 88%‘; |

Vorgehensweise • Indexierung (cont. ) • Show tables from exp_a like ‚ap 88%‘; | ap 88_8 c_text_stemen_bm 25_dl | | ap 88_8 c_text_stemen_bm 25_docid | | ap 88_8 c_text_stemen_bm 25_expectation | | ap 88_8 c_text_stemen_bm 25_idb_rd | | ap 88_8 c_text_stemen_bm 25_tf | | ap 88_8 c_text_stemen_bm 25_tmp 1 | | ap 88_8 c_text_stemen_bm 25_variance | | ap 88_8 c_text_stemen_bm 25_weight | | ap 88_8 c_text_stemen_tfidf_df | | ap 88_8 c_text_stemen_tfidf_dl | | ap 88_8 c_text_stemen_tfidf_docid | | ap 88_8 c_text_stemen_tfidf_expectation | | ap 88_8 c_text_stemen_tfidf_idb_rd | | ap 88_8 c_text_stemen_tfidf_max. TF | | ap 88_8 c_text_stemen_tfidf_rd | | ap 88_8 c_text_stemen_tfidf_tf | | ap 88_8 c_text_stemen_tfidf_tmp 1 | | ap 88_8 c_text_stemen_tfidf_variance | | ap 88_8 c_text_stemen_tfidf_weight | +-------------------------------+

Vorgehensweise • Resource description

Vorgehensweise • Resource description

Vorgehensweise • Resource selection

Vorgehensweise • Resource selection

Vorgehensweise • Resource selection Resource. Selection{ Generic. DL[ap 88_4 c]=[num=50, costs=0. 15566352713854062], Generic DL[ap

Vorgehensweise • Resource selection Resource. Selection{ Generic. DL[ap 88_4 c]=[num=50, costs=0. 15566352713854062], Generic DL[ap 88_4 a]=[num=71, costs=0. 2210565707566304], Generic. DL[ap 88_2 c]=[num=41, costs= 0. 12752493057416925], Generic. DL[ap 88_3 a]=[num=42, costs=0. 13079528016015488], Generic. DL[ap 88_4 b]=[num=96, costs=0. 29874969566379744]} Resource. Selection{ Generic. DL[ap 88_3 b]=[num=62, costs=0. 1706536429720925], Generic. D L[ap 88_4 a]=[num=55, costs=0. 15093146996168677], Generic. DL[ap 88_2 c]=[num=56, costs= 0. 15418909002719608], Generic. DL[ap 88_3 a]=[num=58, costs=0. 1593030015695942], Gene ric. DL[ap 88_1 b]=[num=69, costs=0. 18973110056079268]}. . .

Vorgehensweise • Resource selection (Durchlaufen von 100 Topics): Relevanzurteile: (DTF 5, bm 25) 051

Vorgehensweise • Resource selection (Durchlaufen von 100 Topics): Relevanzurteile: (DTF 5, bm 25) 051 0 AP 880212 -0020 1 0. 999999978 1 051 0 AP 880212 -0093 1 0. 673631123919296 1 051 0 AP 880212 -0120 1 0. 655220742817087 1 052 0 AP 880212 -0060 1 1. 0 1 052 0 AP 880212 -0009 1 0. 970960077124136 1 052 0 AP 880212 -0056 1 0. 438141643714791 1 052 0 AP 880212 -0019 1 0. 400958727204647 1 …

BM 25 vs. TFIDF • BM 25 Ein Ranking Modell Die Performance von BM

BM 25 vs. TFIDF • BM 25 Ein Ranking Modell Die Performance von BM 25 Ranking Algorithmus ist sehr abhängig von der Auswahl der Parameter. Dieses Modell ist nur dann möglich wenn die Dokumentkollektionen, die Anfragenmenge und die Menge von dem Relevanzurteil vorher schon vorhanden sind. • TF-IDF TF: Term Frequency IDF: Inverse Document Frequency log(N/DF) N: Gesamtzahl der Dokumente der Kollektion DF: Dokumentfrequenz = Anzahl Dokumente, in denen Term i auftritt

BM 25 vs. TFIDF (cont. ) • BM 25 • TFIDF

BM 25 vs. TFIDF (cont. ) • BM 25 • TFIDF

Trec_eval (Bsp. ) • • • • • • • • Queryid (Num): 100

Trec_eval (Bsp. ) • • • • • • • • Queryid (Num): 100 Total number of documents over all queries Retrieved: 29157 Relevant: 48365 Rel_ret: 2030 Interpolated Recall - Precision Averages: at 0. 00 0. 3369 at 0. 10 0. 0481 at 0. 20 0. 0120 at 0. 30 0. 0022 at 0. 40 0. 0000 at 0. 50 0. 0000 at 0. 60 0. 0000 at 0. 70 0. 0000 at 0. 80 0. 0000 at 0. 90 0. 0000 at 1. 00 0. 0000 Average precision (non-interpolated) for all rel docs(averaged over queries) 0. 0142 Precision: At 5 docs: 0. 1580 At 10 docs: 0. 1460 At 15 docs: 0. 1493 At 20 docs: 0. 1525 At 30 docs: 0. 1450 At 100 docs: 0. 1095 At 200 docs: 0. 0836 At 500 docs: 0. 0406 At 1000 docs: 0. 0203 R-Precision (precision after R (= num_rel for a query) docs retrieved): Exact: 0. 0480

Ergebnisse

Ergebnisse

Evaluation: fixed number of selected DLs (BM 25) DTF vs. DTF 5 vs. DTF

Evaluation: fixed number of selected DLs (BM 25) DTF vs. DTF 5 vs. DTF 10 (BM 25, c = 0. 5, P 0=1)

Evaluation: fixed number of selected DLs (BM 25) DTF vs. DTF 5 vs. DTF

Evaluation: fixed number of selected DLs (BM 25) DTF vs. DTF 5 vs. DTF 10 (BM 25, c = 0. 5, P 0=1)

Evaluation: fixed number of selected DLs (BM 25)

Evaluation: fixed number of selected DLs (BM 25)

DTF vs. DTF 5 vs. DTF 10 (TFIDF, c = 0. 5, P 0=1)

DTF vs. DTF 5 vs. DTF 10 (TFIDF, c = 0. 5, P 0=1)

Evaluation: fixed number of selected DLs (TFIDF)

Evaluation: fixed number of selected DLs (TFIDF)

Evaluation: fixed number of selected DLs (TFIDF)

Evaluation: fixed number of selected DLs (TFIDF)

Ergebnisse (BM 25 vs. TFIDF) Run Number of retrieved relevant documents Average Precision R

Ergebnisse (BM 25 vs. TFIDF) Run Number of retrieved relevant documents Average Precision R Precision BM 25, DTF 2489 out of 29176 0. 0200 0. 0575 TFIDF, DTF 2030 out of 29157 0. 0142 0. 0480 BM 25, DTF 10 1754 out of 28939 0. 0140 0. 0419 TFIDF, DTF 10 1081 out of 19884 0. 0082 0. 0280 BM 25, DTF 5 1172 out of 28769 0. 0103 0. 0284 TFIDF, DTF 5 767 out of 19218 0. 0063 0. 0189

Parameterauswahl • Die Veränderung von dem Parameter p 0 wird die gesamten Retrievalergebnisse nicht

Parameterauswahl • Die Veränderung von dem Parameter p 0 wird die gesamten Retrievalergebnisse nicht beeinflussen. • Die Veränderung von c führt aber zur Änderung der Retrievalqualität. Run Number of retrieved relevant documents Average Precision R Precision TFIDF, DTF 10 c = 0. 5 1081 out of 19884 0. 0082 0. 0280 TFIDF, DTF 10 c=1 1434 out of 28871 0. 0104 0. 0348

Experiment Teil 2 • Fast gleicher Code für Retrieval • Unterschiedliche Topics • Änderung

Experiment Teil 2 • Fast gleicher Code für Retrieval • Unterschiedliche Topics • Änderung von Operator (plain statt stemen_bm 25 oder stemen_tfidf) • Größere Kollektionsmenge

Probleme • (1) Array. Index. Out. Of. Bounds Exception bei Compute. For. Topic Grund:

Probleme • (1) Array. Index. Out. Of. Bounds Exception bei Compute. For. Topic Grund: Ohne Indexierung und Resource Description können Kosten nicht berechnet werden und somit ist costs leer. Intern löst das dann die Array. Index. Out. Of. Bounds. Exception aus. Lösung: Erst Indexierung, um die Datenbanken zu erzeugen. • (2) Bei jedem Durchlauf des Programms erscheint immer dasselbe Ergebnis in der Result Datei. Grund: Jedes mal werden die Ergebnisse immer wieder an der Datei angehängt. Lösung: Man muss die Datei jedes mal leeren oder man kann bei jedem Durchlauf eine neue Datei mit anderem Namen auswählen.

Probleme (cont. ) • (3) Bei dem zweiten Teil wurden nur leere Menge bei

Probleme (cont. ) • (3) Bei dem zweiten Teil wurden nur leere Menge bei Resource Selection geliefert. Grund: Zu jeder Kollektion wurden PIRE nicht richtig erzeugt, so dass Resource Description nicht richtig funktioniert hat. Lösung: Bei DTFPDatalog. Config „exp_“ durch „wt 10 g_“ ersetzen • (4) Nachdem die codes geändert worden sind, wurde komischerweise ein java. lang. Out. Of. Memory. Error geliefert. . . Grund: Das hat irgendwie mit Speicher von Heap zu tun. . . Lösung: ?

Zusammenfassung • DTF: - guter Ranking Algorithmus - abhängig von der Anzahl der zu

Zusammenfassung • DTF: - guter Ranking Algorithmus - abhängig von der Anzahl der zu selektierenden DLs - bessere Ergebnisse – ohne Beschränkung auf die Anzahl der zu selektierenden DLs • Bei BM 25 können im Vergleich zu TFIDF bessere Ergebnisse geliefert werden. • Die Recall-Precision Funktion p 0 hat keinen Einfluss auf die Retrievalergebnisse. • Eine Erhöhung von der linearen mapping Funktion c führt aber zur Verbesserung der Retrievalqualität. • Wie kann man die Ergebnisse noch verbessern? -> Relevance Feedback, DTF-cori

Vielen Dank für die Aufmerksamkeit!

Vielen Dank für die Aufmerksamkeit!