Uvod v podatkovne zbirke 2 Tekstovne zbirke struktura
Uvod v podatkovne zbirke 2 Tekstovne zbirke, struktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji, zbirke polnih besedil.
Tekstovne zbirke - uvod v Velik del informacij, ki jih produciramo, je tekstovne narave. v v tiskane publikacije, e-publikacije, diagnoze, poročila o posegih v medicini, razlage nebesedilnih informacij. . . Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij. dr. Jure Dimec: Podatkovne zbirke 2 2
Tekstovne zbirke - uvod v v Najustreznejše informacijsko orodje je seveda podatkovna zbirka. V podatkovni zbirki so besedila shranjena na urejen način. Urejenost omogoča iskanje in druge postopke na besedilih. Vključevanje v podatkovno zbirko lahko nestrukturiranemu besedilu vsili neke vrste strukturiranost, v v naprimer polja bibliografskega zapisa ali oznake HTML pri postavitvi na splet. dr. Jure Dimec: Podatkovne zbirke 2 3
Zvrsti tekstovnih zbirk v v Bibliografske zbirke (primer močno strukturiranih tekstovnih zbirk). Zbirke polnih “besedil”: v v nestrukturirana besedila, hipertekst, multimedijski dokumenti. Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk. dr. Jure Dimec: Podatkovne zbirke 2 4
Razlike med relacijskimi in bibliografskimi zbirkami Relacijske zbirke: v podatki o pojavih smiselno razvrščeni v ločene tabele, v povezovanje tabel s pomočjo relacij, v načeloma kratki numerični in tekstovni podatki, v stalne dolžine podatkov. v dr. Jure Dimec: Podatkovne zbirke 2 5
Razlike med relacijskimi in tekstovnimi zbirkami v Bibliografske zbirke in bibliografski opisi v zbirkah polnih besedil: v podatki o pojavih grupirani v zapise v med zapisi ni relacij v tekstovni podatki o člankih, knjigah, referatih. . . v spremenljive dolžine podatkov v Tudi bibliografske zbirke pogosto urejamo z relacijskimi orodji – zaradi njihove razširjenosti in “moči” in ne zaradi zahtev materiala, ki ga urejamo. dr. Jure Dimec: Podatkovne zbirke 2 6
Poimenovanje gradnikov bibliografske zbirke dr. Jure Dimec: Podatkovne zbirke 2 7
Bibliografske zbirke v v v Najstarejša in v znanstveni in strokovni srenji še vedno najpogostejša oblika tekstovne podatkovne zbirke. Bibliografski zapis vsebuje osnovne podatke o dokumentu. Načini uporabe: v v v informacijska potreba vsebinske narave – t. i. retrospektivne poizvedbe, iskanje po imenih avtorjev ali inštitucij – bibliografije, vrednotenje raziskovalnega dela. . . dr. Jure Dimec: Podatkovne zbirke 2 8
Bibliografske zbirke v v Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe. Povezava s knjižnico: v v v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, dokument dobimo v knjižnici, lahko z medknjižnično izposojo. dr. Jure Dimec: Podatkovne zbirke 2 9
Bibliografske zbirke Bibliografska zbirka ni knjižnični katalog: v bistvo knjižničnega kataloga so t. i. lokacijski podatki - pozicija in zaloga enot gradiva v knjižnici, v knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih. v COBISS poskuša igrati obe funkciji – slabe in dobre posledice. dr. Jure Dimec: Podatkovne zbirke 2 10
Shematski prikaz strukture bibliografske zbirke dr. Jure Dimec: Podatkovne zbirke 2 11
Shematski prikaz strukture bibliografske zbirke dr. Jure Dimec: Podatkovne zbirke 2 12
Kriteriji oblikovanja strukture bibliografske zbirke v Osnovni kriterij delitve bibliografskega zapisa na polja je v v uporaba zbirke ali nek dogovor (standard). Podatki, ki jih uporabljamo za iskanje, morajo biti v samostojnih poljih. Delitev zapisa na polja je struktura bibliografske zbirke. dr. Jure Dimec: Podatkovne zbirke 2 13
Kriteriji oblikovanja strukture bibliografske zbirke v v Nekatera polja so ponovljiva (npr. avtorji) – vsaka ponovitev ima vlogo samostojnega polja. Nekatera polja so sestavljena iz podpolj manjših, smiselnih enot, ki šele skupaj sestavljajo samostojno polje ali ponovitev polja (npr. ime in priimek avtorja). dr. Jure Dimec: Podatkovne zbirke 2 14
Bibliografske zbirke: opisovanje vsebine dokumentov v v Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov. Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki. Opis vsebine - ključne besede ali deskriptorji. Postopek imenujemo indeksiranje. dr. Jure Dimec: Podatkovne zbirke 2 15
Bibliografske zbirke: opisovanje vsebine dokumentov v v Iskanje in indeksiranje - zrcalna postopka. Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument. Med iskanjem iskalec poskuša uganiti ključne besede ali deskriptorje, ki jih je indekser uporabil, ko je indeksiral dokumente, kakršni njega (iskalca) zanimajo. Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver. dr. Jure Dimec: Podatkovne zbirke 2 16
Tezaver v v Tezaver je seznam vsebinskih konceptov in navodil za njihovo uporabo. Vsebinski koncepti v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije. dr. Jure Dimec: Podatkovne zbirke 2 17
Tezaver v Kaj je vsebinski koncept? v v v najmanjša enota znanja, zapisana z besedami ali besednimi zvezami, koncept ima samostojen pomen, koncept opisuje nek konkreten objekt ali pojem. dr. Jure Dimec: Podatkovne zbirke 2 18
Primer iz medicine: tezaver Me. SH v Vsebinski koncept v Me. SH: v vsebinski koncept vključuje vse sinonime in leksične variante (načine zapisovanja), en sinonim je izbran kot “prednostno ime” koncepta in ga imenujemo deskriptor. Deskriptorji tvorijo umeten informacijski jezik: v v za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), vsak deskriptor opisuje en sam pojem (kontrola homonimov). dr. Jure Dimec: Podatkovne zbirke 2 19
Primer: tezaver Me. SH Vsebina je v bibliografskem zapisu opisana z v deskriptorji in kvalifikatorji, npr myocardial infarction / drug therapy v v deskriptor kvalifikator (kvalifikatorji podrobneje omejijo vsebinski obseg deskriptorja), pomožnimi koncepti, pretežno kemijske in farmakološke narave. dr. Jure Dimec: Podatkovne zbirke 2 20
Primer: tezaver Me. SH Hierarhije pogosto niso enostavne, ampak se približujejo mrežnim strukturam: Face [A 01] Cheek Chin Eye Forehead Mouth Nose Respiratory System [A 04] Larynx Lung Nose Nasal Bone Nasal Cavity Nasal Mucosa Nasal Septum Sense Organs [A 09] Ear Eye Nose Olfactory Mucosa Vomeronasal Organ Taste Buds Deskriptorji so zelo pogosto uvrščeni na različna mesta istega hierarhičnega drevesa – primer deskriptorja Nose v hierarhiji Anatomy. dr. Jure Dimec: Podatkovne zbirke 2 21
Primer: tezaver Me. SH Znanje na nekem strokovnem področju je težko urediti v eno samo hierarhično strukturo. v v v dr. Jure Dimec: Podatkovne zbirke 2 Deskriptorji (koncepti) v tezavru Me. SH so urejeni v 15 hierarhičnih dreves. En deskriptor je lahko uvrščen v več ločenih hierarhij, npr. Creutzfeldt-Jakob syndrome je lahko C 10 - Nervous System Diseases ali F 3 - Mental Disorders 22
Me. SH: primer hierarhične pozicije deskriptorja Norepinephrine dr. Jure Dimec: Podatkovne zbirke 2 23
Shematski prikaz poteka poizvedbe dr. Jure Dimec: Podatkovne zbirke 2 24
Merjenje kvalitete iskanja v Meri: v v Priklic (odziv, recall) je delež poiskanih relevantnih zapisov med vsemi relevantnimi zapisi v zbirki. Natančnost (precision) je delež relevantnih zapisov med vsemi poiskanimi zapisi. dr. Jure Dimec: Podatkovne zbirke 2 25
Merjenje kvalitete iskanja a b c d = = nepoiskani, nerelevantni zapisi, nepoiskani, relevantni zapisi, poiskani, nerelevantni zapisi, poiskani, relevantni zapisi. dr. Jure Dimec: Podatkovne zbirke 2 26
Logične trditve Iskalna zahteva je logična trditev, ki je resnična samo za nekatere zapise v zbirki. v V klasičnem Boolovem modelu iskanja ima trditev lahko samo dve vrednosti: resnično in neresnično. v Iskalni programi zapise v zbirki preverjajo glede na logično trditev v iskalni zahtevi. Zapise, pri katerih se trditev izkaže za resnično, imenujemo zadetki (rezultati iskanja). v dr. Jure Dimec: Podatkovne zbirke 2 27
Logične trditve Iskalne zahteve sestavljamo iz vsebinskih in povezovalnih elementov. v Povezovalne elemente imenujemo operatorji. v Poznamo relacijske in logične (Boolove) operatorje. v dr. Jure Dimec: Podatkovne zbirke 2 28
Logične trditve v Najenostavnejša iskalna zahteva je en sam vsebinski element, npr. bibliotekarstvo v Relacijske operatorje uporabljamo za določanje želenih vrednosti vsebinskih elementov, npr. Deskriptor = bibliotekarstvo v ‘=‘ je relacijski operator. dr. Jure Dimec: Podatkovne zbirke 2 29
Logične trditvi rezultat N in N R in R N ali N N ali R R ali R ne N ne R N N R R R N dr. Jure Dimec: Podatkovne zbirke 2 30
Relacijski operatorji dr. Jure Dimec: Podatkovne zbirke 2 31
SQL v SQL (Structured Query Language) je najbolj razširjen poizvedovalni jezik za relacijske zbirke. v Standard za relacijski poizvedovalni jezik. Primer: Poišči vse študente, rojene po letu 1975. select ime, priimek, d_rojstva from studenti where d_rojstva >= 01 -JAN-1976 order by priimek descending dr. Jure Dimec: Podatkovne zbirke 2 32
SQL v SQL je zelo močan, vendar tudi zapleten iskalni jezik, še posebno za informacijsko neizobražene uporabnike. v Iskalne zahteve dodatno zaplete povezovanje več tabel. v Oblikovanje zapletenih iskalnih zahtev olajša t. i. iskanje s primerom (query by example - QBE). dr. Jure Dimec: Podatkovne zbirke 2 33
Iskanje s primerom v Uporabnik v shematskem prikazu tabel v zbirki simbolično poveže atribute, ki bi jih sicer uporabil v SQL. v Nastane nova navidezna tabela in v ustrezne celice se vpišejo logični pogoji. dr. Jure Dimec: Podatkovne zbirke 2 34
Iskanje s primerom v Spodnja tabela bi se, kot QBE, napolnila z entitetami, za katere velja, da so študenti, s priimkom abecedno večjim od N, rojeni po letu 1974 in s povprečno oceno, višjo od 7. dr. Jure Dimec: Podatkovne zbirke 2 35
Uporaba logičnih (Boolovih) operatorjev Operator IN (AND) Zanimajo nas vsi dokumenti o filmski režiji. film IN režija dr. Jure Dimec: Podatkovne zbirke 2 36
Uporaba logičnih (Boolovih) operatorjev Operator ALI (OR) Zanimajo nas vsi dokumenti o filmu ali o režiji. film ALI režija dr. Jure Dimec: Podatkovne zbirke 2 37
Uporaba logičnih (Boolovih) operatorjev Operator NE (NOT) Zanimajo nas vsi dokumenti o filmu razen tistih o filmski režiji. film NE režija dr. Jure Dimec: Podatkovne zbirke 2 38
Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe. Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija dr. Jure Dimec: Podatkovne zbirke 2 39
Uporaba logičnih (Boolovih) operatorjev: vrstni red izvajanja členov poizvedbe Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija dr. Jure Dimec: Podatkovne zbirke 2 40
Zbirke polnih dokumentov v v Bibliografski zapis je nadomestek pravega nosilca informacij. Bibliografski zapis je kazalec na dokument. Informacijski potrebi lahko zadosti le polni dokument. V sodobnih tekstovnih zbirkah bibliografske nadomestke zamenjujejo polni dokumenti. dr. Jure Dimec: Podatkovne zbirke 2 41
Zbirke polnih dokumentov Strokovni dokument ima hipertekstne lastnosti! dr. Jure Dimec: Podatkovne zbirke 2 42
Zbirke polnih dokumentov Strokovni dokument ima multimedijske lastnosti! Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih gesel v dveh odstavkih na strani 611. dr. Jure Dimec: Podatkovne zbirke 2 43
Hipertekst, multimediji v v v Strokovni dokument ni linearno branje. Nevidna struktura strokovnega dokumenta je semantična mreža. Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo. Strokovni dokument ni samo besedilo. Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji. dr. Jure Dimec: Podatkovne zbirke 2 44
- Slides: 44