Keuzes in het zoekproces en structuur van het

  • Slides: 26
Download presentation
Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 16 november

Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 16 november 2010 Wageningen 1

2

2

3

3

Kenmerken zoekexpert • • • Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica •

Kenmerken zoekexpert • • • Kennis onderwerp Bronnenkennis Kennis zoektools Talenkennis, taalcreativiteit Logica • Zorgvuldig gebruik zoektools • Snelheid • Reflectie op eigen zoekproces 4

Zoeksystematiek 1. Vraaganalyse 2. Aanbod 3. Match 4. Nabewerking per relevante bron 5. Nabewerking

Zoeksystematiek 1. Vraaganalyse 2. Aanbod 3. Match 4. Nabewerking per relevante bron 5. Nabewerking zoekactie geheel 6. Vervolg op zoekactie • • • Wensen ‘opdrachtgever’ Verkenning Opstellen zoekprofiel: waaraan moet de informatie voldoen, genereren zoektermen • Keuze ingang(en): zoekmachines, databases, gidsen, bookmarksites • • Daadwerkelijk zoeken Selecteren • • • Evaluatie Opslaan, printen, delen Eventueel doorzoeken via auteurs en verwijzingen uit gevonden bronnen • • Bij doorlopende interesse evt. web en page alerts/feeds instellen Expliciete reflectie op zoekproces en zoekresultaat • Eventueel andere ingangen of geheel andere typen bronnen (gedrukte literatuur, deskundigen) 5

Vraaganalyse 1: wensen opdrachtgever • Opdrachtgever: wat wil men met de informatie? • Voorwaarden

Vraaganalyse 1: wensen opdrachtgever • Opdrachtgever: wat wil men met de informatie? • Voorwaarden aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc. ) • Randvoorwaarden: tijd, geld, vertrouwelijkheid • Rapportagevorm (inhoudelijk, technisch) 6

Vraaganalyse 2: Verkenning • Welke vraag/onderwerp • Wat ligt er al, nuttig als uitgangspunt?

Vraaganalyse 2: Verkenning • Welke vraag/onderwerp • Wat ligt er al, nuttig als uitgangspunt? • Inhoudelijk verkennen (via bv Wikipedia of ander naslagwerk of via korte zoekactie) • Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs 7

Vraaganalyse 3: Zoekprofiel • Onderscheiden elementen (variabelen) • Welke? • Allebei even belangrijk? •

Vraaganalyse 3: Zoekprofiel • Onderscheiden elementen (variabelen) • Welke? • Allebei even belangrijk? • Vooraf genereren zoektermen • Uit reeds gevonden bronnen • Uit naslagwerken/zoekacties van verkenningsfase • Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus) • Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen • Relevante typen informatie en publicaties • Relevante publicatieperiode 8

Aanbod: Keuze zoekingang • Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren

Aanbod: Keuze zoekingang • Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren • Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties • Bepaald door extra wensen: – Zoekmethode: catalogus-, bibliografische, sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks) – Zoeken in full-text, links naar full-text • Ook letten op volgorde ingangen (dekking, bekendheid, selectiviteit) • Zie voor links naar ingangen de ‘startpagina’ bij deze cursus 9

Match 1: Daadwerkelijk zoeken • Let op woordvarianten en spelling: • • Denken in

Match 1: Daadwerkelijk zoeken • Let op woordvarianten en spelling: • • Denken in termen van het te vinden document (jargon/slang), gebruik zinsnedes / exact phrase met “… …” Gebruik termsuggesties – – – • • • Varianten in OR-relatie of: Trunceren: alles wat met woordstam begint (alleen Exalead) Automatische “stemming” (enkel-/meervoud enz. bij Google? ) Oxford-English of American–English (s/z, ou/o) Samenstellingen in Engels los: kwaliteitscontrole > quality control voor zoekactie Yahoo, Google, Exalead, Quintura na zoekactie: Ask termen uit gevonden goede webpagina’s Gewicht aanbrengen met zoektermherhaling in Google Voorbeeldzoeken voor ‘lijstjes’ Iteratief proces: één of meer keren snelle beoordeling zoekresultaat en aanpassing termen/instellingen – Aantallen treffers: wel letten op veranderingen, niet op absolute niveau 10

Match 2: Selectie op relevantie • De rangorde: beïnvloeden, vertrouwen of alles bekijken? •

Match 2: Selectie op relevantie • De rangorde: beïnvloeden, vertrouwen of alles bekijken? • Meer dan titels, bij boeken/artikelen: • samenvattingen • citaties • omvang (bv Lexis. Nexis) • Bij web: • domein/organisatie • wel/niet PDF • omvang (in KB, vooral zinnig bij PDF) 11

Nabewerking per bron I: beoordeling • Beoordeling door anderen (vooral bij reguliere publicaties) –

Nabewerking per bron I: beoordeling • Beoordeling door anderen (vooral bij reguliere publicaties) – Status bron (peer reviewed, uitgever, gezaghebbende instantie) – Affiliatie auteur – Plaats in citatienetwerk (door wie, hoe vaak) • Inhoudelijk (vooral bij reguliere publicaties) – Bronvermelding (voldoende, geen kernpublicaties gemist) – Opbouw, argumentatie, methode, verantwoording • Formeel (vooral bij websites): – Aanduiding maker/auteur (“about us”) – Aanduiding postadres, telefoonnummer – Aanduiding doel/doelgroep – Goede opmaak – Geen reclame en pop-ups – Heldere navigatie – Interne zoekfunctie – Voldoende snelheid server – Backlinks door gezaghebbende organisaties – Up to date? – Zinnige datering inhoud – Geen grof taalgebruik – Geen kinderlijk taalgebruik – Geen storende taalfouten 12

Nabewerking per bron II: • opslaan (mail, document, endnote/refworks/mendeley/zotero e. d) • versturen (handmatig,

Nabewerking per bron II: • opslaan (mail, document, endnote/refworks/mendeley/zotero e. d) • versturen (handmatig, vanuit systeem) • bookmark (browser, delicious, connotea, cite. Ulike etc. ) • alert/spion • RSS-feed 13

Vervolg op zoekactie: Reflectie • Hoeveel gevonden in hoeveel tijd? • Voldoet oogst aan

Vervolg op zoekactie: Reflectie • Hoeveel gevonden in hoeveel tijd? • Voldoet oogst aan zoekprofiel? • Welke aspecten van zoekprofiel waren meest selectief? • Waren alle vooraf bedachte ingangen even nuttig? • Wat was de overlap tussen de ingangen? • Goede volgorde ingangen gehanteerd? • Iets geleerd over eigen sterke/zwakke punten? 14

Systematisch zoeken: toegepast op internetzoeken 15

Systematisch zoeken: toegepast op internetzoeken 15

domeinen • soorten top-level-domains (TLD) iso-3166 – generiek: • com / org / net

domeinen • soorten top-level-domains (TLD) iso-3166 – generiek: • com / org / net (vrij) • int / edu / gov / mil / arpa (beperkt) – landen: nl/be/au/at/de/uk/us (cc. TLD’s, 34%) – jump: tv / nu / to / tk – nieuw: biz/info/name/coop/pro/aero/museum/mobi • generieke ‘subtopleveldomeinen’: co / gob / ac / org etc. (zie http: //www. iana. org/domains/root/db/ en http: //www. whois 365. com/en/listtld/gtld) • per 2009 ook URL’s in niet-Latijns schrift 16

opbouw URL • protocol : // servernaam. subdomein. TLD / map / filenaam. extensie

opbouw URL • protocol : // servernaam. subdomein. TLD / map / filenaam. extensie • http : // www. library. uu. nl / geosource / index. html 17

URL’s van databasepagina’s • http: //aleph. library. uu. nl/F/HDRH 5 QK 8 UGC 775

URL’s van databasepagina’s • http: //aleph. library. uu. nl/F/HDRH 5 QK 8 UGC 775 UMSMU 4 4 VT 2 GSG 5 VD 5 VKEI 6 FMCCN 7 G 75 LG-04490? func=findb&find_code=WRD&request=geografische+huis&adjacent =N&x=43&y=11 • http: //www. google. nl/search? as_q=vogin+wageningen&h l=nl&rlz=1 R 2 MEDC_nl. NL 330&num=10&btn. G=Google+zoe ken&as_epq=&as_oq=&as_eq=&lr=lang_nl&cr=&as_ft=i& as_filetype=pdf&as_qdr=all&as_occt=any&as_dt=i&as_sit esearch=&as_rights=&safe=images 18

zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines •

zoektools: wanneer wat? • indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk: zoekmachines • indien zoekvraag breed, exploratief, inventariserend, met weinig voorkennis, met relatief veel tijd: onderwerpsgidsen 19

Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode

Onderwerpsgidsen: algemeen + geen zoektermen nodig vaak actueel annotaties weinig ruis - onvolledig dode links voorkeur maker houdt groei niet bij voor homepages 20

Onderwerpsgidsen • • • Alle onderwerpen: Open Directory, Yahoo Nederlands: startpagina, meta: startnederland Breed

Onderwerpsgidsen • • • Alle onderwerpen: Open Directory, Yahoo Nederlands: startpagina, meta: startnederland Breed wetenschappelijk: Intute, Infomine, BUBL Web 2. 0 -variant: Delicious, Furl etc. Zoeken: – via Yahoo (per onderwerp onder ‘webdirectories’) – via Open Directory – via Pinakes (wetenschappelijk) • Tijd besteden aan vinden van goede onderwerpsgidsen: – via collegae – via discussielijsten, twitter etc. 21

Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste

Zoekmachines: dekking • > 15% van de webpagina’s in geen enkele van de grootste zoekmachines • van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, Live 62% (http: //www. cs. uiowa. edu/~asignori/web-size/) • overlap eerste pagina slechts 10% (Spink studie 2006) • dekking zeer ongelijkmatig 22 • verschil in actualiteit

 • • Zoekmachines: ontwikkeling 1994 Webcrawler, Lycos, Alta Vista (10) 1995 concurrentie Hotbot,

• • Zoekmachines: ontwikkeling 1994 Webcrawler, Lycos, Alta Vista (10) 1995 concurrentie Hotbot, Excite, Yahoo (50) 1997 Northern Light, MSN, sterke groei web > 200 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern Light, AV, Excite, ILSE o. a. (100) 2002 komst Teoma, Wisenut, Gigablast (1000) 2003 renaissance AV, glorietijd Google (3000) 2004 consolidatie/concurrentie (4000): – – – Google+Blogger, verbreding: boeken, kritiek, beursgang Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW Microsoft: introductie MSNsearch beta: zelf indexeren – – – Samenwerking content providers-zoekmachines? Teoma wordt Ask en opkomst Amazon met A 9 Doorgroei Gigablast (2000) • 2005 verbreding/innovatie/content (5000 -10000) • 2006 -2007 puur zoeken raakt op achtergrond (20000 -40000) – Live gelanceerd, You. Tube gekocht – uploaden, web 2. 0 – gemengde content (Google universal, i. Google bv. ) – specifieke diensten (Google CSE bv) • 2008 Google universal verder ingevoerd (>100000) • 2009 Nieuwe zoekmachine van Microsoft: Bing • 2010 Instant search en preview bij Google 23

Zoekmachines: wat vind je niet? • • • recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie

Zoekmachines: wat vind je niet? • • • recente webpagina’s/wijzigingen dynamisch gegenereerde pagina’s informatie in databases pagina’s met no robots file pagina’s met toegangsrestricties verdwenen pagina’s (maar: cache en Wayback Machine archive. org) 24

Zoekmachines: beperkingen Google • genest Booleaans zoeken > Bing/Exalead • backlinksindex vrij klein >

Zoekmachines: beperkingen Google • genest Booleaans zoeken > Bing/Exalead • backlinksindex vrij klein > Yahoo site explorer • zeer grote pagina’s soms niet volledig geïndexeerd > Yahoo • truncatie, nabijheids- en fonetisch zoeken > Exalead • zoekgeschiedenis zonder inloggen: Bing • Delicious links: Yahoo • inperken op RSS format > Yahoo 25

Land/taalversies Google • Interfacetaal – beïnvloedt ook resultaat! • Taalinstelling zoekactie – voorkeuren eenmalig

Land/taalversies Google • Interfacetaal – beïnvloedt ook resultaat! • Taalinstelling zoekactie – voorkeuren eenmalig of ‘implied’ • Landsversie: – beïnvloedt ranking sterk – ncr: no country redirect – Let ook bij Bing op landsinstelling 26