Informacijska zbrka na Webu traenje i vrednovanje informacijskih
Informacijska zbrka na Webu: traženje i vrednovanje informacijskih izvora Tefko Saracevic, Ph. D Rutgers University tefko@scils. rutgers. edu http: //www. scils. rutgers. edu/people/faculty/tefko. html Tefko Saracevic, Rutgers University 1
Web & informacije: ključni problemi † TRAŽENJE informacija na Webu: kako? † Pronalaženje UPOTREBLJIVE KOLIČINE informacija: koliko? † Odabir NAJRELEVANTNIJIH izvora: šta? † VREDNOVANJE izvora i informacija Tri zakona za informacije na Webu: 1. VREDNOVATI 2. VREDNOVATI 3. VREDNOVATI Tefko Saracevic, Rutgers University 2
Svojstva informacija na Webu † RAZNOLIKOST - izvanredna 4 kvalitetni izvori za mnoštvo tema & predmeta † RASPROSTRANJENOST - globalna 4 raširene po mnogobrojnim siteovima; svukuda † POVEZANOST - mnogi hyperlinkovi, hypertext 4 razgranata mreža veza, puteva i labirinata † KOLIČINA - ogromna, eksponencijalan rast 4 milijuni siteova, miljarde stranica Tefko Saracevic, Rutgers University 3
Svojstva… (nast. ) † SADRŽAJNA VRIJEDNOST NEUTRALNA - sve prolazi 4 nema kontrole sadržaja 4 neki sadržaji su točni, pouzdani, provjereni 4 neki su pristrani, sami su sebi svrhom, propagandni, promotivni 4 neki su slučajno netočni 4 neki su namjerno netočni, ponekad i sa zlom nakanom Dakle, tri zakona Weba Tefko Saracevic, Rutgers University 4
Veličina Weba † Više od 16 milijuna web servera; 800 milijuna stranica 883% komercijalne, 6% znanstvene ili obrazovne; 3% o zdravstvu 82. 5% osobne; 2% društva i udruge; 1. 5% vladine, 8 oko 1% pojedine zajednice, religije; 81. 5% pornografija 8 porast od 97 do 99 javnih siteova +179% 8 povecan rast u Europi i drugdje Tefko Saracevic, Rutgers University 5
Veličina. . . (nast. ) 4 Zastupljene države: 8 SAD 55% (59% 1997. ), Njemačka 6%, Kanada 5%, GB 5%, Japan 3%, Australija, Brazil, Francuska, Italija po 2% svaka, sve ostale 18% 8 Jezici: 80% engleski (84% 1997. ) âPrevladavaju američki sajtovi i engleski jezik, ali % neprestano pada Izvori: Lawrence & Giles, Nature (1999): http: //www. wwwmetrics. com/ OCLC Web Characterization Project http: //oclc. org/oclc/research/projects/webstats/index. htm Tefko Saracevic, Rutgers University 6
Organizacija Web siteova † Metaoznake - omogućavaju pretraživanje po poljima - slabo se koriste 4 HTML “ključne riječi”, “opis” 8 koristi ih 34% siteova 4 Dublin Core - koristi ga 0. 3% siteova † Nema standardizacije po izvorima Tefko Saracevic, Rutgers University 7
Organizacija … (nast. ) † Klasifikacija prevladavajućeg pristupa 4 koriste se mnoge vrste † Neorganiziranost najveća prepreka pretraživanju 4 postoje i “lažni” sadržaji koji hotimićno krivo pronalaze Tefko Saracevic, Rutgers University 8
Usporedba: Web i knjižnica ili informacijsko pretraživanje † SLIČNOSTI u pretraživanju 4 Osnovna načela pristupa istom 8čovjek-čovjek interakcija - posredna ili samostalna â da bi se odredio sadržaj, istražila informacijska potreba za zadatkom 8 priprema koncepta, termina, logike pretraživanja 8 određivanje opsega, ograničenja 8 procjena relevantnosti Tefko Saracevic, Rutgers University 9
Razlike † Vrlo različiti izvori s obzirom 4 na sadržaj, autorstvo, pouzdanost, trajnost 4 razliku u količini, dubini, širini † Vrlo različita organizacija 4 niski stupanj standardizacije, mali broj polja † † Vrlo različiti pretraživači (search engines) Potrebne različite strategije pretraživanja Prisutnost mnogih linkova; složene veze Vrednovanje je složenije Tefko Saracevic, Rutgers University 10
Potrebno za pretraživanje Weba † Znanja & vještine 4 o velikoj raznolikosti izvora 4 velika raznolikost u njihovoj organizaciji 4 pretraživači; strategije pretraživanja; dinamika pretraživanja 4 istraživanje i korištenje veza i mreža 4 ostajanje u tijeku: stalne promjene, noviteti 4 ekonomija Weba - nema besplatnog ručka † Učinkovitost proporcionalna tom znanju Tefko Saracevic, Rutgers University 11
Kriteriji za vrednovanje http: //www. otterbein. edu/learning/libpages/subeval. htm † Autorstvo 4 Author - moguća pristranost? Izdavač - ugled? âStručno udruženje? Akademski izvor? 8 Razlog zbog kojeg je na Webu? âSamodopadnost? Sponzorstvo? Posrednička društva? 4 Naziv domene - tko je postavio site? † Točnost - moguća neovisna provjera? Izvori? Tefko Saracevic, Rutgers University 12
Kriteriji … (nast. ) † Aktualnost - provjera † Prethodne recenzije, iskustva - provjera izvora recenzija † Kritičko razmišljanje i stalna provjera † Upotreba u tri zakona Weba Tefko Saracevic, Rutgers University 13
Načini traženja & pronalaženja † Najpopularniji: pretraživači 4 globalni, nacionalni, regionalni, specijalizirani † Praćenje linkova sa glavnih siteova & ulaza 8 npr. s Kongresne knjižnice na mnoge druge knjižnice 8 s novina na arhive Tefko Saracevic, Rutgers University 14
Načini traženja … (nast. ) † Referentni siteovi - u porastu † Knjižnični siteovi - postaju sve bogatiji izvori † Web adrese u tiskanim izvorima, novinama † Reference, elektronska pošta, bookmarkovi Tefko Saracevic, Rutgers University 15
Web stranice & pretraživači † Indeksiraju ih pretraživači (javni siteovi) 4 po ključnim riječima, klasifikaciji, linkovima, registraciji † Teško za pronaći 4 mnogi izvori neće se pronaći, npr. digitalne knjižnice, online časopisi, referentni izvori 4 mnogi komercijalni siteovi Tefko Saracevic, Rutgers University 16
Pretraživači … (nast. ) † Različiti pristupi odabiru 4 uglavnom automatski; također pribavljaju općenite izvore 4 sve se više koristi ljudsko vrednovanje † Svaka zemlja ima svojstvene pretraživače 4 veliki europski: Wanadoo (Francuska), Tonline (Njemačka) 4 najkorišteniji pretraživači u tim državama Tefko Saracevic, Rutgers University 17
Koliko pretraživač pokriva † Niti jedan američki pretraživač na pokriva više od 16% Weba 4 Vrlo je teško ustanoviti koliko koji pokriva 411 najvecih pretraživača pokriva ( % zajednog): 8 Northern Light 38. 3%, Snap 37. 1, Alta. Vista 37. 1, Hot. Bot 27. 1 MS 20. 3 Infoseek 19. 2, Google 18. 6, Yahoo 17. 6 Excite 13. 5, Lycos 5. 9, Euro. Seek 5. 2 âHot. Bot, MS, Snap & Yahoo koriste Inktomi kao provider za traženje, ali imaju različite baze podataka Inktomi i različito filtriranje Tefko Saracevic, Rutgers University 18
Jedinstveni pretraživači † Novi se razvijaju za posebne upotrebe † Postoje specijalizirani pretraživači dobri za znanstvena, tehnička i stručna pretraživanja, na pr. 4 Northern Light ima “posebne zbirke” koje nisu javno dostupan www. northernlight. com 4 Oingo ima povezane riječi, vrednovanja - obuhvaća razrađenu klasifikaciju www. oingo. com Tefko Saracevic, Rutgers University 19
Svojstva pretraživača † Određena svojstva imaju svi pretraživači, ali razlikuju se u detaljima - pogotovo u složenom (advanced) pretraživanju 4 Booleovo pretraživanje 8 no, ponekad su I i ILI po defaultu 4 Razlike se mogu naći u: 8 frazama, srodnosti, trunkaciji, osjetljivosti na nastavke, relevantnosti povratne informacije, pretraživanju polja, posebnim svojstvima 8širenju pojmova na koncepte (latentno semantičko indeksiranje) Tefko Saracevic, Rutgers University 20
Strategije pretraživanja i rezultati † Rangiranje rezultata prema relevantnosti 4 različito i nejasno računanje relevantnosti † Vrlo kratka pretraživanja 4 velika većina traži 2 -3 pojma (u prosjeku 2. 5) 4 velika većina korisnika pogleda samo jednu stranicu; ograničena samo na prve rangirane rezultate † Traženje velike složenice Tefko Saracevic, Rutgers University 21
Meta pretraživači † Pretraživači koji pokrivaju druge pretraživače, npr. 4 All 4 one http: //all 4 one. com/ 8četiri prozora - dobro za usporedbu 4 Savvy Search http: //www. savvysearch. com/ 8 daje podatak o tome koji je pretraživač izvor † Više meta pretraživača u razvoju † Search Engine Watch - dobar izvor http: //www. searchenginewatch. com/ 4 ispisi, recenzije, ocjene, testiranja, izvori Tefko Saracevic, Rutgers University 22
Referentni siteovi - činjenice † Referentne usluge i pristup drastično se mijenjaju † Nekoliko modela u referentnim službama: 4 Martindale’s Reference Desk - sveobuhvatan http//www-sci. lib. uci. edu/~martindale/Ref. html 4 Ask Jeeves! - prirodni jezik 8 http: //www. ask. com/ 8 preko 2 milijuna upita po danu; raste 46% po tromjesečju 4 Electric Library - članstvo 8 http: //www. elibrary. com/ Tefko Saracevic, Rutgers University 23
Reference … (nast. ) 4 Information Please - almanasi http: //www. infoplease. com/ 4 Reference Desk - bogat izvor http: //www. refdesk. com/ 4 Encyclopedia Britannica - preuredjena http: //www. britannica. com/ 8 mnoštvo unakrsnih referenci & drugih izvora 4 Webhelp - “real people, real answers, real time” 8 razgovor u živo s jednim od 1000+ “Web čarobnjaka” www. webhelp. com Tefko Saracevic, Rutgers University 24
Knjižnice kao izvori na Webu † Knjižnice koje daju na raspolaganje otvorene zbirke i usluge 4 porast digitalnih knjižnica i pristupa putem Weba 4 modeli su razni; neki su dijelovi otvoreni svima, a neki samo za svoje korisnike Tefko Saracevic, Rutgers University 25
Knjižnice … (nast. ) Jedan od mnogih primjera: 4 Rutgers knjižnice - velik i dugotrajan trud http: //www. libraries. rutgers. edu/ 4 obuhvaćaju razne izvore i linkove 8 npr. za informacije o područjima i izvorima vidite: âElectronic Ready Reference Shelf; Research Guides; Social Sciences & Law; Library & Information Science Tefko Saracevic, Rutgers University 26
Virtualne knjižnice na Webu † Knjižnice koje postoje samo na Webu 4 Sve je više takvih knjižnica i ustanova Primjeri knjižnica bogatih sadržajem i linkovima 4 Virtualna knjižnica - Švicarska, SAD, GB i druge države, počevši s Tim Berners-Lee, stvoriteljem Weba http: //vlib. org. Tefko Saracevic, Rutgers University 27
Virtualne knjižnice … (nast. ) 4 Toronto Public Library http: //vrl. tpl. toronto. on. ca/ 4 Internet Public Library, Michigan http: //www. ipl. org/ 4 Academic Info - “Gateway to Quality Educational Resources. ” Internacionalni izvori http: //academicinfo. net/ Tefko Saracevic, Rutgers University 28
Novi načini pristupa † Knjižnice, ustanove, tvrtke koje razvijaju referentne i uslužne modele - nove, bogate, inventivne, npr. 4 Za djecu i o djeci Los Angeles Public Library - vrlo zabavno! http: //www. lapl. org/kidsweb/ 4 Za roditelje: Parenttime http: //www. parenttime. com/homepage. cgi Tefko Saracevic, Rutgers University 29
Novi načini … (nast. ) 4 Fathom - konzorcij šest vodećih usluga u US & UK 8 beta testiranje - vrhunski kvalitetno obuhvaća istraživanja http: //www. fathom. com/ 4 Tečaj Interneta s linkovima 8 http: //www. newbie. org/ † Veliki broj sličnih siteova Tefko Saracevic, Rutgers University 30
Siteovi za pojedina područja (domain sites) † Mnogi siteovi za pojedina područja/pitanja 4 bogati izvori i često jedinstvene usluge 4 različiti pristupi i zahtjevi † Primjeri u području zdravstva: 4 Medscape - potrebna pretplata http: //www. medscape. com/ 4 Rxlist - The Internet Drug Index http: //www. rxlist. com/ 4 Mayo Clinic Health. Oasis http: //www. mayohealth. org/ Tefko Saracevic, Rutgers University 31
Udruženja, ustanove, izdavači † Mnogi bogati izvori 4 razlike u zahtjevima, dubini, bogatstvu Primjeri iz raznih ustanova: 4 Assoc. for Computing Machinery http: //www. acm. org/ 8 Digitalna knjižnica; preplata, pretraživ 4 State department http: //www. state. gov/ 8 o SAD-u i drugim državama 4 R. R. Bowker http: //www. bowker. com/ 8 besplatni dijelovi - Library Resource Guide 4 Genealogy: http: //www. familysearch. org/ Tefko Saracevic, Rutgers University 32
Časopisi, novine † Razni modeli online časopisa nude više od samih primjerka na Webu 4 pretplata; linkovi; arhivi; proširene priče. . . 4 e. g. San Francisco Examiner - http: //examiner. com/ 8članci, projekti, vodič za regiju, arhiva. . . † Pronalaženje priča: Excite News Tracker. World Newspapers Resources http: //nt. excite. com/ † Popis nekih najvećih svjetskih časopisa (iz Novog Zelanda) http: //www. ccc. govt. nz/Library/Resources/Newspapers/index. asp Tefko Saracevic, Rutgers University 33
Sažetak † Web: 4 se brzo razvija, mijenja, raste 4 je nepredvidiv, bogat i vrijedan izvor † Za njegovo učinkovito korištenje potrebno je znanje, vještine te zdrav razum i fleksibilnost † Tri zakona Weba uvijek vrijede! † Web ekonomija 4 zarade su velike, ali troškovi pozamašni Tefko Saracevic, Rutgers University 34
Ali … ograničenja † Javni Web nema sve † Mnogi kvalitetni izvori nisu dostupni besplatno 4 DIALOG pokriva mnoga područja i veći je od Weba 4 slično je i s Lexis - Nexis, Data Star itd. † Većina knjižničnih sadržaja NIJE na Webu † Većina arhiva, starih časopisa NIJE na Webu WEB JEST BOGAT, ALI NIJE POČETAK I KRAJ INFORMACIJSKIH IZVORA Tefko Saracevic, Rutgers University 35
WEB JEST JAKO BOGAT, ALI NIJE POČETAK I KRAJ INFORMACIJSKIH IZVORA Zapamtiti: tri zakona!!!! Tefko Saracevic, Rutgers University 36
Tefko Saracevic, Rutgers University 37
- Slides: 37