1 vod do problematiky Reern strategie pro vdu
1. Úvod do problematiky Rešeršní strategie pro vědu a výzkum
Vyhledávání informací - základní pojmy � Hledání informací � Vyhledávání informací � Information seeking � Information retrieval � Online vyhledávání � Online retrieval, online searching
Základní pojmy Učení Hledání informací Vyhledávání informací Procházecí strategie Analytická strategie MARCHIONINI, 1998
Základní pojmy �Vyhledávání informací (TDKIV) = Činnost, jejímž cílem je identifikace relevantních dokumentů nebo informací v informačních zdrojích (např. plnotextové nebo bibliografické databáze). Vyhledávání informací probíhá obvykle na základě konkrétního požadavku uživatele za pomoci dotazovacích a selekčních jazyků.
Základní pojmy �Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). (Manning, 2008)
Proces vyhledávání informací Modely informačního chování Informační potřeba Dokumenty Formulace dotazu Indexace Dotaz Indexované dokumenty Porovnání Zpětná vazba (Upraveno podle Goker, 2009) Vyhledané dokumenty IR modely
Producenti a poskytovatelé informací �Producenti a vydavatelé primárních dokumentů (Elsevier, Springer, Chemical Abstracts Services) �Distributoři a prodejci (Amazon, EBSCO) �Služby dodávání dokumentů (British Library, Subito, VPK) �Knihovny (National Library of Medicine, Národní knihovna, Národní lékařská knihovna) �Bibliografické, referátové a dokumentační služby �Archivy, muzea a galerie �Instituce státní správy a samosprávy �Specializované informační instituce
Producenti a poskytovatelé informací �Databázová centra/agregátoři (STN International, Ovid, EBSCO, Pro. Quest, Lexis/Nexis, Questel/Orbit…) �Role producenta a poskytovatele často splývá
Zprostředkovatelé informací �Knihovny, instituce státní správy �Firmy – informační brokering, informační poradenství �Informační specialisté – rešeršéři �Obory – medicína/farmacie/chemie, právo, patenty, competitive intelligence �Např. Medistyl (http: //www. medistyl. info/index. php/cz/) �Asociace nezávislých informačních profesionálů (http: //www. aiip. org)
Zprostředkovatelé informací �Informační brokering Vyhledávání informací v tištěných a elektronických zdrojích Vyhledávání záznamů z veřejně přístupných registrů Vyhledávání informací z vládních a oficiálních zdrojů Průzkumy Dodávání plných textů dokumentů Competitive intelligence Informační management Školení, konzultační činnost Dokumentace (manuály, tutoriály)
Uživatel �Člověk komunikující s informačním systémem či informační službou, ale zároveň také člověk, který užívá získané informace �Informační potřeby, informační požadavky �Participace na zpracování rešerše Pouze zadání požadavku Přítomnost při zpracování Samostatné zpracování
Zdroje pro vyhledávání informací elektronické informační zdroje �Elektronický informační zdroj = informační zdroj, který je uchováván v elektronické podobě Zdroje volně dostupné na internetu Specializované databáze Elektronické časopisy a knihy Digitální knihovny
Klasifikace EIZ/databází �Podle formy dokumentu Textové Multimediální Hybridní �Podle typu poskytovaných informací Bibliografické Faktografické Plnotextové Typu rejstříků, adresářů, seznamů Hybridní – kombinace výše uvedených typů
Bibliografické databáze �Medline, Chemical Abstracts, Compendex, … �Získáme citace/abstrakty Medline/Pub. Med – bibliografická databáze
Bibliografické databáze Medline Complete – bibliografická databáze Medline doplněná o fulltexty
Fulltextové databáze • Součástí databáze jsou i plné texty • Denní tisk, patenty, zákony. .
Faktografické databáze • Obsahují fakta • Ekonomické informace, léčiva…
Faktografické databáze
Databáze typu adresářů, rejstříků
Rešeršní služby �Rešeršní služby (TDKIV) Dokumentografické nebo faktografické služby spočívající ve zpracování a poskytování rešerší uživatelům odborných informací. Rešerše mohou být průběžné nebo retrospektivní. Průběžné rešerše v dávkovém režimu představuje adresní rozšiřování informací. K rešeršním službám patří také online informační služby. �Online x offline �Retrospektivní x průběžné �Orientační, výběrové, vyčerpávající
Rešeršní proces Výběr informačního zdroje Analýza požadavku Zkušenost Intuice Analytické schopnosti Kreativita Uživatel Relevance Pertinence Zpětná vazba Dodání primárního dokumentu Výstup výsledků Rešeršní strategie
Analýza informačního požadavku Informační potřeba → informační požadavek → rešeršní dotaz(y) Řízené interview s uživatelem – snaha pochopit informační potřebu uživatele Jaké faktory mohou ovlivnit formulaci informačního požadavku?
Analýza informačního požadavku �Osobnost uživatele – faktory Demografické (věk, vzdělání) Spojené s rolí (profese) Prostředí �Účel rešerše Výběr zdroje a rešeršní strategie
Výběr informačního zdroje �Jádro informačních zdrojů �Faktory ovlivňující výběr zdroje Charakter a účel informačního požadavku Dostupnost zdrojů
Dostupnost zdrojů Volně dostupné zdroje Placené zdroje Předplacené zdroje • Obvykle konsorciální licence nebo individuální nákup • Knihovny, univerzity, nemocnice, firmy • Jednotlivé databáze podle zaměření organizace • Neomezený přístup Pay-as-you-go • Databázová centra • Platba za čas připojení, vstup do databáze, zobrazení dokumentu (záznamu, fulltextu), dodání dokumentu aj. • Přístup do všech databází v DBC.
Pomůcky pro výběr zdroje �Referenční příručky, Lib. Guides – pro koncové uživatele �Dokumentace dtb. center (kmenové listy databází) – pro rešeršéry �Automatizovaná podpora
Lib. Guides
Kmenové listy databází http: //www. stninternational. de/database_list. html? &no_cache=1&L=gnnbhqdmpu dpl
Automatizovaná podpora �Databázová centra – umožňují zjistit, jaké databáze tvoří jádro pro danou problematiku – příkaz STN index (dříve také DIALINDEX) �Doporučování databází v discovery systémech
Příkazy typu STNindex �Umožňují prohledat vybraný soubor databází (předem připravené clustery nebo uživatelský výběr) seřadit databáze podle výskytu klíčových slov deduplikovat výsledky použít provedený dotaz pro další vyhledávání
Příkazy typu STNindex
Rešeršní strategie �Způsob vedení dialogu s konkrétním informačním systémem �Uživatelské rozhraní podle typu interakce Příkazová řádka Menu Formulář Přímá manipulace �Uživatelské rozhraní se smíšeným typem interakce Textové uživatelské rozhraní Grafické uživatelské rozhraní – WIMP (Windows, Icons, Menus, Pointing device)
Typy rešeršní strategií Analytické vyhledávání Analytické strategie Využívají • stavebních kamenů • rostoucí perly • omezení/osekávání Sběr lesních • nejspecifičtější koncept plodů • nejméně zastoupený koncept • vynechání konceptu Booleovské operátory Proximitní operátory Zástupné znaky Rozšíření Tezaury, řízené slovníky Vyhledávání v polích Intuitivní vyhledávání Prohlížecí (browsing) strategie Prohlížení (browsing)
Booleovské operátory �AND, OR, NOT (AND NOT) AND informační chování AND vědci OR výzkumní pracovníci
Booleovské operátory NOT � Podobné operátory např. u webových vyhledávačů + dokument musí vědci NOT společenské vědy obsahovat dané slovo (+vědci) - dokument nesmí obsahovat dané slovo (-společenské)
Proximitní operátory �Fráze – obvykle „“ („informační chování“) �ADJn, NEAR/n, PRE/n, N/n, P/n, Nn, Wn (podoba se v jednotlivých systémech liší) Klíčová slova ve vzdálenosti n slov od sebe v předem určeném nebo libovolném pořadí �SENTENCE Klíčová slova v jedné větě v rámci jednoho pole �PARAGRAPH Klíčová slova v jednom odstavci v rámci jednoho pole (např. fulltext)
Numerické operátory �=, ≥, ≤, …
Rozšíření a zástupné znaky �Podoba se v jednotlivých systémech liší �Rozšíření – pravostranné ve všech systémech, levostranné nemusí být umožněno EBSCO OVID PROQUEST DIALOG STN International Jeden nebo žádný znak # ? [*1]/$1 # Právě jeden znak ? # ? ! *, $ * 0 -10 znaků [*n]/$n až do n ? PŘÍKLADY Rozšíření * znaků
Strategie stavebních kamenů �Building blocks �Dotaz je rozložen na jednotlivé části (koncepty, fazety), které se zpracují samostatně a následně se kombinují Koncept 1 AND Koncept 2 AND Koncept 3 AND Koncept n Synonyma OR OR OR paracetamol adverse effects liver acetaminophen adverse events hepatic* hydroxyacetanilide adverse reactions …
Strategie stavebních kamenů � Výhody Jednotlivé koncepty lze mezi sebou libovolně kombinovat Vidíme, kolik dokumentů se váže k jednotlivým konceptům � Nevýhody Může být zdlouhavé � Kdy použít Jsme seznámení s tématem, téma má jasnou strukturu � Příklad využití – formulace rešeršního dotazu pomocí metody PICO (Patient Intervention Comparison Outcome)
Strategie rostoucí perly �Pearl growing �Vyhledání relevantního dokumentu/dokumentů Postupné extrahování dalších klíčových slov a doplňování dotazu Vyhledání dalších dokumentů stejného autora Využití „related articles“ Využití „cited references“
Strategie rostoucí perly �Výhody Pomůže s orientací v tématu �Nevýhody Nemusí se dařit nalézt výchozí dokument Vyžaduje velkou interakci se systémem �Kdy použít Na začátku vyhledávání, seznamujeme se s tématem Pokud známe relevantní dokument
Strategie omezení/osekávání �Limits, successive fractions �Počáteční velkou množinu výsledků postupně omezujeme přidáváním dalších podmínek pro vyhledávání �Např. využití filtrů
Strategie omezení/osekávání �Výhody Přehled o jednotlivých krocích, možnost vracet se zpět �Nevýhody Počáteční množina může být příliš velká, nepřehledná �Kdy použít Na začátku vyhledávání, seznamujeme se s tématem Některé aspekty dotazu odpovídají možnostem filtrování v rešeršním systému Discovery systémy
Sběr lesních plodů �Model informačního chování �Soubor několika strategií Využívání poznámek v dokumentech (footnote chasing, backward chaining) Hledání citací (citation searching, forward chaining) Procházení časopisů (journal run) Skenování oblasti (area scanning) Vyhledávání v bibliografických databázích podle klíčových slov Hledání podle autora
Prohlížení (browsing) �Metoda zběžného prohlížení dokumentů, umožňující vidět další související dokumenty v kontextu (Papík, 2011) �Je více ovlivněno systémem �Využití vzrostlo s nástupem webu �Typy prohlížení (Fransson) Specifické (kontrolované) Prediktivní (částečně kontrolované) Všeobecné (nekontrolované)
Rešeršní metody �Klíčová slova x tezaury, řízené slovníky Specializované nástroje pro práci s tezaury �Vyhledávání ve fulltextech Specializované nástroje pro práci s fulltextem – strukturované dotazy, analýza textu
Klíčová slova x tezaury KLÍČOVÁ SLOVA + Jednodušší používání + vyhledávání ve více databázích současně Problém synonym Problém homonym Různé varianty slov, zkratky - Různé jazyky - Problém s vyhledáváním netextových informací - TEZAURY, ŘÍZENÉ SLOVNÍKY + konzistence + kontrola synonym + hierarchická struktura, kontext, vztahy mezi pojmy - Obtížnější používání Každá databáze má svůj tezaurus → problémy při vyhledávání ve více databázích současně
Nástroje pro práci s tezaury �Funkce „Mapping“ – přiřazení termínu tezauru ke klíčovému slovu uživatele Focus – odlišení hlavního a vedlejšího tématu (pouze i některých dtb. ) Explode – vyhledávání vybraného termínu tezauru nebo jeho podřazených termínů Subheadings – omezení termínu tezauru na podhesla (pouze u některých dtb. ) Rozšíření dotazu s využitím tezauru
Vyhledávání ve fulltextech �Fulltextové databáze, web �Nestrukturované informace �Problémy Význam slov - synonymie, homonymie, polysémie Vztahy mezi slovy (např. medicína a umění, medicína v umění, medicína jako umění) Různé jazyky Vyhledávání obecných konceptů
Vyhledávání ve fulltextech �Využití proximitních operátorů �Specializované nástroje pro vyhledávání ve fulltextu např. Tovek Tools – hierarchické dotazy s možností přidávání vah k termínům, analytické nástroje �Problematika vyhledávání v přirozeném jazyce Natural language processing
Vyhledávání v přirozeném jazyce �Typické pro dotazy koncových uživatelů, vyhledávání na webu �Nástroje Rozpoznávání jmenných entit (named entity recognition) – jména osob, organizací, geografické názvy… Rozšíření dotazu (query expansion) ▪ S využitím externí znalostní báze (Word. Net, ontologie) ▪ S využitím statistického zpracování
Výstup výsledků �Zobrazení dokumentu Různé formáty – výběr formátu v dtb. centrech ovlivňuje cenu Citace, citace+abstrakt, fulltext, struktury … �Hodnocení výsledků �Zpracování výsledků Formální úprava Citační manažery Analytická činnost
Hodnocení výsledků rešerše relevance � Posuzujeme relevanci dokumentů � Relevance, relevantní informace (TDKIV) = Informace formálně nebo věcně shodné s dotazem zadaným uživatelem v přirozeném či selekčním jazyku Formální - shoda formulace rešeršního dotazu se selekčními údaji dokumentu Věcná - shoda obsahu informačního dotazu s obsahem vyhledaného dokumentu � Pertinence, pertinentní informace (TDKIV) = Informace které vyhovují subjektivním požadavkům uživatele na obsah informace nebo dokumentu.
Formální relevance v booleovském modelu - příklad Dokument Klíčová slova Vyhledáno Výzkum Dětské* Čtenářství Mimočítanková četba a cíle literární výchovy na základní škole 1 1 Pedagogicko-didaktické a psychosociální aspekty pubescentního čtenářství 1 1 České děti jako čtenáři 0 1 1 0 Pro-čtenářsky orientované volnočasové aktivity českých předškolních dětí 0 1 1 0 Porozumění čtenému. II, Porozumění čtenému u dětí s rizikem čtenářských obtíží východiska, témata, zdroje kritická analýza a návrh výzkumu 1 0 Národní zpráva PIRLS 2011 1 0 0 0
Formální relevance v jiných modelech – zjednodušený příklad Dokument Klíčová slova Vyhledáno/ relevance Výzkum Dětské* Čtenářství Mimočítanková četba a cíle literární výchovy na základní škole 1 100% Pedagogicko-didaktické a psychosociální aspekty pubescentního čtenářství 1 100% České děti jako čtenáři 0 1 1 66% Pro-čtenářsky orientované volnočasové aktivity českých předškolních dětí 0 1 1 66% Porozumění čtenému. II, Porozumění čtenému u dětí s rizikem čtenářských obtíží východiska, témata, zdroje kritická analýza a návrh výzkumu 1 0 1 66% Národní zpráva PIRLS 2011 1 0 0 33%
Věcná relevance Dokument Klíčová slova Relevantní Research Children Reading A Survey of Young People's Reading in England: Borrowing and Choosing Books 1 1 1 Ano Reporting on Reading: A Survey into the Reading Attitudes and Personal Reading Habits of Year 2 Children 1 1 1 Ano How Would I Respond? 1 1 1 Ne Investigative Journalism and Big Data 1 1 1 Ne
Hodnocení relevance – úplnost a přesnost �Úplnost, koeficient úplnosti – poměr počtu nalezených relevantních záznamů k počtu všech relevantních dokumentů v databázi (vyjádřeno v procentech) �Přesnost, koeficient přesnosti – poměr počtu nalezených relevantních záznamů k celkovému počtu záznamů v rešerši
Úplnost a přesnost Vyhledané ANO NE Relevantní ANO NE A = Relevantní vyhledané B= Relevantní nevyhledané C= Nerelevantní vyhledané Nerelevantní nevyhledané Vyhledané dokumenty Relevantní dokumenty v databázi Úplnost = A/A+B x 100 B A C Přesnost = A/A+C x 100 Vyhledané relevantní dokumenty
Úplnost a přesnost Reálný vztah mezi úplností a přesností přesnost 1, 0 úplnost 1, 0
Zpracování výsledků – citační manažery �Citační manažer – systém pro správu citací �Samostatné aplikace x webové služby �Funkce Vkládání/import záznamů Práce se záznamy v osobní databázi Generování citací v různých citačních stylech Vkládání citací do textu �Příklady – Citace. PRO, Zotero, Mendeley, End. Note Basic, Ref. Works
Zpracování výsledků – analytická činnost �Analytické zpracování informací (dříve studijně-rozborová činnost) Situační zprávy – přehled tématu bez hodnocení Přehledové a srovnávací studie Výhledové studie – přehled tématu s odhadem vývoje Technicko-ekonomické rozbory Studijně-výzkumné zprávy
Dodání primárních dokumentů �DDS (document delivery service)/EDD (electronic document delivery) Databázová centra Knihovny, sdružení knihoven Nakladatelé �Papírová x elektronická podoba �Autorskoprávní a licenční omezení
- Slides: 63