Digitln knihovny Miroslav Bartoek stav vpoetn techniky MU
Digitální knihovny Miroslav Bartošek Ústav výpočetní techniky MU, Brno bartosek@ics. muni. cz M. Bartošek: Digitální knihovny
2 M. Bartošek, Digitální knihovny Eur. Open 2009
3 Obsah přednášky 1. DL – co to je? 2. Oblasti a technologie DL 2. 1 Metadata 2. 2 Identifikátory 2. 3 Interoperabilita 3. SW pro tvorbu DL 4. DML-CZ: příklad DL M. Bartošek, Digitální knihovny Eur. Open 2009
DL – co to je? M. Bartošek: Digitální knihovny
5 1. 1 DL – obecné vymezení · Digitální knihovna je spravovaná sbírka informací spolu s odpovídajícími službami, přičemž informace jsou uloženy v digitální podobě a jsou dostupné prostřednictvím sítě. W. Y. Arms, 2000 - systematicky budovaná digitální sbírka výběr materiálu, důraz na kvalitu zaměření na určitou komunitu uživatelů služby efektivní přístup komplexní infrastruktura garantovaná dlouhodobá dostupnost M. Bartošek, Digitální knihovny Eur. Open 2009
6 1. 2 DL - landscape Digitalizace · knihovny - American Memory (Lo. C), Kramerius (NK) · historické fondy - Manuscriptorium (NK ČR) · nakladatelé - Elsevier Science. Direct, Springer. Link, DL IEEE, DL ACM, … · agregátoři - Pro. Quest, EBSCO · služby - JSTOR, Google Books M. Bartošek, Digitální knihovny Eur. Open 2009
7 1. 2 DL - landscape Harvesting · Sklízení dokumentů z webu (archivace) · Internet Archive · Web. Archiv (NK ČR) · Sklízení metadat (služby) · OAIster · Agregace (integrace DL) · NSDL (National Science Digital Library, STEM) M. Bartošek, Digitální knihovny Eur. Open 2009
8 1. 2 DL - landscape Born-digital · preprintové repozitáře (komunikace) · ar. Xiv. org · institucionální repozitáře (open access) · šedá literatura (kvalifikační práce) · vědecký výstup instituce · oborové repozitáře (oborové pokrytí) · specializované repozitáře (data z experimentů, …) M. Bartošek, Digitální knihovny Eur. Open 2009
Oblasti a technologie DL M. Bartošek: Digitální knihovny
10 budování sbírek digitalizace born digital harvesting obecný rámec a architektura DL intelektuální vlastnictví & ekonomika metadata vícejazyčný přístup k informacím interoperabilita (globální) vyhledávání zobecněný model dokumenu dlouhodobé uchovávání digitální informace M. Bartošek, Digitální knihovny Eur. Open 2009
11 Oblasti 1. Metadata 2. Identifikátory 3. Interoperabilita & vyhledávání - základní standardy/technologie M. Bartošek, Digitální knihovny Eur. Open 2009
12 2. 1 Metadata · Džungle aplikačních/oborových/… metadat · Metadata popisná, strukturální, administrativní, … · Poptávka po formátu, který by byl · · · jednoduchý univerzální flexibilní široce rozšířený … M. Bartošek, Digitální knihovny Eur. Open 2009
13 2. 1 Metadata · MARC · klasická knihovnická metadata · velmi podrobná, příliš složitá, tištěné dokumenty · Dublin Core · minimalistický přístup (core), popisná metadata · 15 prvků, jednoduchý x kvalifikovaný DC · MODS · kompromis mezi DC a MARC · modernizovaný MARC v XML kabátě M. Bartošek, Digitální knihovny Eur. Open 2009
14 2. 1 Příklad: řádkový UNIMARC 001 CASLIN 0000001 005 19960312 010 $a 80 -7050 -237 -1 100 $a 19960305 d 1996####k##y 0 czey 0103####ba 101 0# $acze 102 $a. CZ 200 1# $a. Záznam pro souborný katalog$e. UNIMARC$i. Tištěné monografie $f. Pracovní skupina CASLIN pro standardizaci a jmenné. . . 205 $a 1. vyd. 210 $a. Praha$c. Národní knihovna České republiky$d 1996 215 $a 31 s. 225 1# $a. Standardizace$vč. 4 675 $a 025. 3$9 v 711 02 $a. CASLIN$b. Pracovní skupina pro standardizaci a. . . 801 #0 $a. CZ$b. ABA 001$c 19960312$g. AACR 2$91 801 #3 $a. CZ$b. ABA 001$c 19960515 910 $a. ABA 001 M. Bartošek, Digitální knihovny Eur. Open 2009
15 2. 1 Příklad: DC v hlavičce HTML <html> <head> <title> Guidance on expressing the Dublin Core within the RDF </title> <link rel = "schema. DC" href = "http: //purl. org/DC/elements/1. 0/"> <meta name = "DC. Title" lang = "en" content = "Guidance on expressing…"> <meta name = "DC. Title" lang = "de" content = "Dublin Core in RDF: Eine…"> <meta name = "DC. Creator" content = "Miller, Eric"> <meta name = "DC. Creator" content = "Miller, Paul"> <meta name = "DC. Creator. Illustrator" content = "Brickley, Dan"> <meta name = "DC. Description. Abstract" content = "This paper describes work…"> <meta name = "DC. Date. Created" scheme = "ISO 8601" content = "1999 -07 -01"> <meta name = "DC. Format" content = "text/html"> <meta name = "DC. Language" content = "en"> <meta name = "DC. Type" content = “working draft"> <meta name = "DC. Subject" scheme = "LCSH" content = "Dublin Core; DC; RDF; XML"> </head> <body> … </body> </html> M. Bartošek, Digitální knihovny Eur. Open 2009
16 2. 1 Metadata · METS · Metadata Encoding and Transmission Standard (Lo. C) · kontejner (XML schéma) pro složité digitální objekty · struktura · všechny typy metadat (popisná, administrat, technická, …) · zdrojové soubory · TEI · · · Text Encoding Initiative značkovací schéma pro zápis embedded metadat nejrůznější typy e-textů (knihy, slovníky, bibliografie, …) vědecké práce v oblasti humanitních a sociálních věd teixlite M. Bartošek, Digitální knihovny Eur. Open 2009
17 2. 2 Identifikátory · · · globálně jednoznačné decentralizované univerzální (granularita) persistentní akční · „If there is one thing that distinquishes a digital library from a mere web site, it is that libraries do their best to provide reliable, persistent access through durable links. “ (J. A. Kunze, California Digital Library) M. Bartošek, Digitální knihovny Eur. Open 2009
18 2. 2 „Klasické“ knihovnické id Potřeba vícevrstvé propojené identifikace · organizace (knihovna) ISIL Intl Standard Identifier for Libraries and Related Organizations · sbírka, služba ISCI Intl Standard Collection Identifier · autor/korporace ISPI Intl Standard Party Identifier · dílo ISTC Intl Standard Textual Code ISWC Intl Standard Musical Work Code · projev ISBN Intl Standard Book Number ISSN Intl Standard Seriál Number ISMN Intl Standard Music Number již existuje návrh standardu v diskusi · komponenta SICI Seriál Item and Contribution Identifier M. Bartošek, Digitální knihovny Eur. Open 2009
19 2. 2 „Digitální“ id PURL – persistentní URL purl. oclc. org · URL s nepřímou adresací Handle www. handle. net · CNRI – Corporation for National Research Initiatives · non-TCP/IP, vlastní resoluční systém nezávislý na DNS – i násobná resoluce · přímá resoluce přes handle protokol (plug-in pro web-prohlížeč) <a href=“hdl: 10. 1045/january 99 -bearman”> · URL-resoluce přes proxy <a href=“http: //hdl. handle. net/10. 1045/january 99 -bearman”> DOI – Digital Object Identifier www. doi. org · aplikace nad handle (Asociace amerických nakladatelů) · samofinancující systém (IDF + registrační agentury) · velmi úspěšný, Cross. Ref M. Bartošek, Digitální knihovny Eur. Open 2009
20 2. 3 Interoperabilita · The common vision is one of tens of thousands of repositories of digital information that are autonomously managed yet integrated into what users view as a coherent digital library system. C. Lynch, H. García-Molina, IITA DL Workshop, 1995 · Různé úrovně (syntaktická, sémantická, …) · Oblasti interoperability · · data komunikace/vyhledávání prezentace řízení/přístup M. Bartošek, Digitální knihovny Eur. Open 2009
21 2. 3 Interoperabilita Z 39. 50 · · · Klasická knihovnická interoperabilita – search/retrieval Spolupráce mezi heterogenními knihovními systémy Meta-vyhledávání Těžkotonážní „dinosaurus“ (před webem) Mimo oblast klasických knihoven se nevyužívá (složitý) SRU/SRW · silně zjednodušená Z 39. 50 na webových technologiích · SRW – protokol nad SOAP (HTTP post + XML) · SRU – protokol nad URL (HTTP get) · CQL – Common Query Language M. Bartošek, Digitální knihovny Eur. Open 2009
22 2. 3 Interoperabilita OAI · Open Archive Initiative – nízkoprahová interoperabilita · Cross-repository search sklízení MD + federativní vyhledávání · Metadatový standard (nekvalifikovaný DC) · globální identifikační schéma · OAI-PMH – Protocol for Metadata Harvesting · Agregace webových zdrojů · Komunikace a využití složených objektů v e-science · OAI-ORE – Object Reuse and Exchange · ORE Primer http: //www. openarchives. org/ore/1. 0/primer M. Bartošek, Digitální knihovny Eur. Open 2009
23 2. 3 Interoperabilita Linkovací služby · dynamické kontextově citlivé vazby na webu · appropriate copy problem Open. URL · Standard pro kódování metadat zdroje do jeho URL · Příklad: citace článku v databázi Medline nakladatele Ebsco Publishing: Moll, JR. Attractive electrostatic interactions. J Biol Chem. 2000 Nov 3, 275(44): 34826 -32. doi: 10. 1074/jbc. M 004545200 http: //link. server. cz/demo? sid=ebsco: medline&aulast=Moll &auinit=JR&date=20001103&stitle=J%20 Biol%20 Chem&volume= 275&issue=44&spage=34826 M. Bartošek, Digitální knihovny Eur. Open 2009
24 Kontextově citlivé vazby · Linkovací služby - aplikační rámec nad Open. URL · princip: oddělení popisu zdroje od poskytování vazeb · klasická vazba: výchozí zdroj cílový zdroj (např. citace článku) kontextově citlivá vazba: výchozí zdroj · kooperační rámec: (např. plný text) Link server cílový zdroj (kontextový !) · linkovací služby (link resolvers) poskytují (dynamicky) vazby (Knowledge Base o zdrojích každého zákazníka) · producenti inf. zdrojů poskytující Open. URL-enabled zdroje · uživatelé se registrují u svých linkovacích služeb M. Bartošek, Digitální knihovny Eur. Open 2009
SW pro tvorbu DL M. Bartošek: Digitální knihovny
26 3. Open Source SW Greenstone · University of Waikato, Nový Zéland · jednoduchý, snadná instalace EPrints · University of Southampton · pre-/post-print repozitář DSpace · MIT + HP Labs · Institucionální repozitář FEDORA · Cornel University + University of Virginia · Flexibilní univerzální robustní repozitář M. Bartošek, Digitální knihovny Eur. Open 2009
27 3. Open Source SW CDS Invenio - CERN M. Bartošek, Digitální knihovny Eur. Open 2009
DML-CZ: příklad DL M. Bartošek: Digitální knihovny
29 4. 1 Co je DML-CZ 1. Projekt · pokročilá digitalizace · grant - Informační společnost, AV ČR · 2005 -2009 2. Digitální knihovna http: //dml. cz · prestižní česká matematická literatura · fulltexty + metadata - volně dostupné · listopad 2009 – finální verze M. Bartošek, Digitální knihovny Eur. Open 2009
30 11 časopisů sborníkové řady, monografie 270. 000 stran 25. 000 článků 10. 000 autorů M. Bartošek, Digitální knihovny Eur. Open 2009
31 4. 2 Projekt: cíle 1. zkoumání/vývoj technologií · OCR matematiky · nástroje pro tvorbu metadat – metadatový editor, DL 2. digitalizace · · časopisy, monografie, sborníky článkově orientovaná národní DML 3. začlenění do světové WDML · · mezinárodní standardy interoperabilita M. Bartošek, Digitální knihovny Eur. Open 2009
32 4. 3 Projekt: partneři AV – Matematický ústav · vedení, autorsko-právní aspekty, uživatelské požadavky MFF UK · matematika, metadata AV – Knihovna · digitalizace (Sirius, Kramerius) MU – FI · OCR + vyhledávání matematiky MU – ÚVT · integrace, implementace digitální knihovny (DSpace) M. Bartošek, Digitální knihovny Eur. Open 2009
33 4. 4 Knihovna: obsah tištěné dokumenty · 19. století – 1990 · předlohy pouze v tištěné podobě · klasická digitalizace retro-born-digital · 1991 – 2007 · předlohy v (částečně) digitální formě · různé formáty - konverze digital-online · 2008 – · automatizované přebírání nových čísel do DML-CZ M. Bartošek, Digitální knihovny Eur. Open 2009
34 4. 5 DML-CZ Workflow 1. 2. 3. 4. 5. 6. Příprava materiálů Digitalizace OCR Referenční metadata (MR, ZBL) Integrace -> články Digitální knihovna MR – Mathematical Reviews ZBL – Zentralblatt MATH M. Bartošek, Digitální knihovny Eur. Open 2009
35 M. Bartošek, Digitální knihovny Eur. Open 2009
- Slides: 35