Digitalna knjinica 1 Osnovni tehnini pogoji za delovanje

  • Slides: 41
Download presentation
Digitalna knjižnica 1 Osnovni tehnični pogoji za delovanje d-knjižnice, načini organizacije dokumentov na spletu.

Digitalna knjižnica 1 Osnovni tehnični pogoji za delovanje d-knjižnice, načini organizacije dokumentov na spletu.

D-knjižnica v v Zbirka (lokalnih (? )) e-dokumentov, kazalcev na e-dokumente in institucija, ki

D-knjižnica v v Zbirka (lokalnih (? )) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja. Dokumenti so namenjeni rabi preko omrežja. Deluje po načelu virtualnosti: dokumenti dostopni brez prostorskih in časovnih omejitev. Internet ni d-knjižnica.

D-knjižnica Običajno v v je vsebinsko omejena (podobne funkcije, kot specialna ali deloma visokošolska

D-knjižnica Običajno v v je vsebinsko omejena (podobne funkcije, kot specialna ali deloma visokošolska knjižnica), ni omejena glede tipov dokumentov in tipov podatkov v dokumentih, vključuje le zaupanja vredne in stabilne dokumente, uporablja dobra iskalna in prikazovalna orodja.

D-knjižnica v Prednost organiziranja dokumentov v dknjižnici je tudi možnost storitev z dodano vrednostjo:

D-knjižnica v Prednost organiziranja dokumentov v dknjižnici je tudi možnost storitev z dodano vrednostjo: v v v lažje iskanje dokumentov in konkretnih mest v dokumentih, ki opisujejo želeno tematiko, personalizacija – poznavanje uporabnikovih zahtev (t. i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici, možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu. . .

Tehnični pogoji za gradnjo d-knjižnice v v v Internet logična infrastruktura za uporabo funkcij

Tehnični pogoji za gradnjo d-knjižnice v v v Internet logična infrastruktura za uporabo funkcij d-knjižnice. Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW). Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.

Tehnični pogoji za gradnjo d-knjižnice Zaradi odločitve za splet v v v Ni potreben

Tehnični pogoji za gradnjo d-knjižnice Zaradi odločitve za splet v v v Ni potreben razvoj specializirane programske opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici. Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi. Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.

Tehnični pogoji za gradnjo d-knjižnice v v v Vse te naloge so že razrešene

Tehnični pogoji za gradnjo d-knjižnice v v v Vse te naloge so že razrešene v spletu. Osnovna spletna programska oprema in aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti. Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.

Tehnični pogoji za gradnjo d-knjižnice v v Širjenje in posodobitev omrežne infrastrukture približno sledi

Tehnični pogoji za gradnjo d-knjižnice v v Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov. Naslavljanje dokumentov: v v prevladujoč standard je URL (Uniform Resource Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta, URL primeren le za osnovne funkcije rabe stabilnih dokumentov. Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo. Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).

Tehnični pogoji za gradnjo d-knjižnice Standardni transportni protokol HTTP v v v ustrezen za

Tehnični pogoji za gradnjo d-knjižnice Standardni transportni protokol HTTP v v v ustrezen za dostop do dokumentov in njihov transport na uporabnikov računalnik, manj ustrezen za delovanje iskalnikov - otežkoča implementacijo iskalne seanse in iskalne strategije. Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij dknjižnice.

Organizacija dokumentov na Internetu v v Internet in še posebej WWW omogoča ponudbo in

Organizacija dokumentov na Internetu v v Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov. Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.

Organizacija dokumentov na Internetu v Dokument je vsak samostojno dostopen informacijski objekt: v v

Organizacija dokumentov na Internetu v Dokument je vsak samostojno dostopen informacijski objekt: v v v članek, monografija, domača stran osebe ali inštitucije, seznam kazalcev na dokumente, rezultati poizvedbe…

Organizacija dokumentov na Internetu v v Dokument je najmanj ena samostojna datoteka. Vsak nebesedilni

Organizacija dokumentov na Internetu v v Dokument je najmanj ena samostojna datoteka. Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka. Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave. Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.

Organizacija dokumentov na Internetu v v Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja

Organizacija dokumentov na Internetu v v Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov. Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.

Organizacija dokumentov na Internetu v v V omrežnem okolju je kazalec na dokument informacija

Organizacija dokumentov na Internetu v v V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju. V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.

Organizacija dokumentov na Internetu v Dva prevladujoča načina organizacije dokumentov na Internetu: v v

Organizacija dokumentov na Internetu v Dva prevladujoča načina organizacije dokumentov na Internetu: v v v seznami kazalcev na dokumente, zbirke kazalcev na dokumente. Dva izpeljana načina organizacije: v v spletni portali in (kooperativni) spletni katalogi.

Seznami kazalcev na dokumente v Kriteriji urejanja kazalcev: v v kronološki, abecedni, geografski, glede

Seznami kazalcev na dokumente v Kriteriji urejanja kazalcev: v v kronološki, abecedni, geografski, glede na hierarhijo pojmov v stroki. . .

Seznami kazalcev na dokumente Prednosti seznamov kazalcev: v v v dokumenti urejeni po nekem

Seznami kazalcev na dokumente Prednosti seznamov kazalcev: v v v dokumenti urejeni po nekem kriteriju, npr. vsebinskih kategorijah, kar olajšuje iskanje, večinoma vsebujejo netrivialne dokumente, manjša možnost multiplikatov… Pomanjkljivosti seznamov kazalcev: v velik vložek intelektualnega dela, neažurnost. . . skratka, podobne pomanjkljivosti, kot jih ima intelektualno indeksiranje.

Seznami kazalcev na dokumente Nekateri seznami: v DMOZ http: //dmoz. org v Yahoo http:

Seznami kazalcev na dokumente Nekateri seznami: v DMOZ http: //dmoz. org v Yahoo http: //www. yahoo. com v Google Directory http: //directory. google. com/ v Best of the Web http: //botw. org/

Struktura direktorijev je podobna pri vseh seznamih kazalcev. Večina seznamov je usmerjenih v zabavo.

Struktura direktorijev je podobna pri vseh seznamih kazalcev. Večina seznamov je usmerjenih v zabavo.

Zanimiv primer je DMOZ, http: //dmoz. org s kolektivnim in prostovoljnim urejanjem.

Zanimiv primer je DMOZ, http: //dmoz. org s kolektivnim in prostovoljnim urejanjem.

Zbirke kazalcev in iskalniki v v v Seznami kazalcev postanejo preveliki za odkrivanje dokumentov

Zbirke kazalcev in iskalniki v v v Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem. Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne. Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.

Zbirke kazalcev in iskalniki v v Število spletnih dokumentov in njegova eksponentna rast onemogočata

Zbirke kazalcev in iskalniki v v Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine. Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.

Zbirke kazalcev in iskalniki v v v Velikost zbirk, ki jih uporabljajo internetski iskalniki,

Zbirke kazalcev in iskalniki v v v Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR. Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene. Dober povzetek lastnosti iskalnikov: http: //searchenginewatch. com/reports/sizes. html

Zbirke kazalcev in iskalniki v v v Ocena velikosti spleta, februar 2000: 1 milijarda

Zbirke kazalcev in iskalniki v v v Ocena velikosti spleta, februar 2000: 1 milijarda dokumentov Izjava iskalnika Google, februar 2002: Searching 2, 073, 418, 204 web pages Izjava iskalnika Google, februar 2003: Searching 3, 083, 324, 652 web pages Izjava iskalnika Google, februar 2004: Searching 4, 285, 199, 774 web pages Izjava iskalnika Google, januar 2005 Searching 8, 058, 044, 651 web pages

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http:

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http: //searchenginewatch. com/reports/sizes. html Zbirke kazalcev in iskalniki: feb. 2000

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http:

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http: //searchenginewatch. com/reports/sizes. html Zbirke kazalcev in iskalniki: jun. 2001

Legenda: GG=Google, ATW=All. The. Web, INK=Inktomi, TMA=Teoma, AV=Alta. Vista. Po: http: //searchenginewatch. com/reports/sizes. html

Legenda: GG=Google, ATW=All. The. Web, INK=Inktomi, TMA=Teoma, AV=Alta. Vista. Po: http: //searchenginewatch. com/reports/sizes. html Zbirke kazalcev in iskalniki: sep. 2003

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http:

Legenda: FAST=FAST, AV=Alta. Vista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po: http: //searchenginewatch. com/reports/sizes. html Zbirke kazalcev in iskalniki

Milijarde indeksiranih dokumentov (december 1995 – september 2003) Legenda: GG=Google, ATW=All. The. Web, AV=Alta.

Milijarde indeksiranih dokumentov (december 1995 – september 2003) Legenda: GG=Google, ATW=All. The. Web, AV=Alta. Vista, INK=Inktomi, TMA=Teoma Po: http: //searchenginewatch. com/reports/sizes. html Zbirke kazalcev in iskalniki

Zbirke kazalcev in iskalniki Uspešna plat - gradnja zbirke: v v zbiranje podatkov o

Zbirke kazalcev in iskalniki Uspešna plat - gradnja zbirke: v v zbiranje podatkov o obstoječih dokumentih z avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…), avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).

Delovanje avtonomnih programskih agentov v Agent 1. pregleda dokument, 2. shrani vse kazalce na

Delovanje avtonomnih programskih agentov v Agent 1. pregleda dokument, 2. shrani vse kazalce na druge dokumente v seznam, 3. če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira, 4. prikliče naslednji dokument iz seznama in opravi korake 1 - 3. v v Zbirko stalno polni več agentov. Zaradi eksponentne rasti števila dokumentov, splet nikoli ne more biti indeksiran v celoti.

Delovanje avtonomnih programskih agentov

Delovanje avtonomnih programskih agentov

Gradnja zbirk z avtonomnimi prog. agenti v v Razen frekvenčnih porazdelitev besednih krnov uporabljajo

Gradnja zbirk z avtonomnimi prog. agenti v v Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov. Višje povedne moči dobijo v v krni iz naslova, krni iz hipertekstnih kazalcev, krni z vrhnjih delov strani, krni iz poudarjenih delov dokumenta (mastni, poševni tisk). . .

Gradnja zbirk z avtonomnimi prog. agenti v Posebno učinkovit dodaten faktor računanja relevantnosti je

Gradnja zbirk z avtonomnimi prog. agenti v Posebno učinkovit dodaten faktor računanja relevantnosti je Page. Rank (Google): v v v Če avtor v svojem spletnem dokumentu postavi kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober. Dokumenti, na katere kaže mnogo kazalcev, dobijo visok Page. Rank (podobnost s citatnimi zbirkami – SCI). Page. Rank dokumenta se še poveča, če nanj kažejo dokumenti z visokim Page. Rank-om.

Zbirke kazalcev in iskalniki Analiza prekrivanja rezultatov iskanja (l. 1998): Analizirani iskalniki: Alta. Vista,

Zbirke kazalcev in iskalniki Analiza prekrivanja rezultatov iskanja (l. 1998): Analizirani iskalniki: Alta. Vista, Excite, Infoseek, Lycos. v Preverjeno po 20 najvišje uvrščenih kazalcev. v Prešteto število kazalcev, ki se pojavljajo pri več kot enem iskalniku. v

Zbirke kazalcev in iskalniki v v Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi

Zbirke kazalcev in iskalniki v v Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi. Priporočilo: v v poskusi oblikovati čim bolj specifično iskalno zahtevo, uporabi čimvečje število ključnih besed pri slabše definiranih informacijskih potrebah.