Formati i metapodaci Cvetana Krstev Zato se koriste

  • Slides: 38
Download presentation
Formati i metapodaci Cvetana Krstev

Formati i metapodaci Cvetana Krstev

Zašto se koriste informatička sredstva u pripremi bibliografskih podataka? § Radi lakšeg kucanja §

Zašto se koriste informatička sredstva u pripremi bibliografskih podataka? § Radi lakšeg kucanja § Radi lakšeg štampanja i preštampavanja § Radi raznovrsnog prikazivanja § Radi višestrukog korišćenja § Radi razmene bibliografskih jedinica § Radi dugovečnosti podataka § Radi lakšeg pronalaženja podataka § Radi mogućnosti dalje transformacije i obrade. . . 2

Kako se ove potrebe mogu zadovoljiti informatičkim sredstvima? § Radi lakšeg kucanja § Radi

Kako se ove potrebe mogu zadovoljiti informatičkim sredstvima? § Radi lakšeg kucanja § Radi lakšeg štampanja i preštampavanja Programi za uređivanje teksta § Radi raznovrsnog prikazivanja § Radi višestrukog korišćenja Formati § Radi razmene bibliografskih jedinica § Radi dugovečnosti podataka Meta-podaci § Radi lakšeg pronalaženja podataka § Radi mogućnosti dalje transformacije i obrade. . . Standardi 3

Definicije pojmova § format - način na koji se podaci beleže i na koji

Definicije pojmova § format - način na koji se podaci beleže i na koji ih program (ili neka aplikacija) interpretira; § meta-podaci - šta se koristeći izabrani format može zabeležiti, koji se podaci prepoznaju; § standard - međunarodna ili strukovna organizacija propisuje format ili metapodatke i nadgleda njihovu primenu. 4

Metapodaci Pojam METAPODATAK vodi poreklo od grčke reči μετά što znači „iza“ Metapodaci su

Metapodaci Pojam METAPODATAK vodi poreklo od grčke reči μετά što znači „iza“ Metapodaci su podaci o podacima “Metapodaci su strukturirane informacije koje opisuju, objašnjavaju, lociraju ili na drugi način čine lakšim pronalaženje, korišćenje ili upravljanje nekim izvorom informacija” (Gejl Hodž) 5

Metapodaci “Metapodaci su konstruisane informacije, što znači da ih je stvorio čovek i da

Metapodaci “Metapodaci su konstruisane informacije, što znači da ih je stvorio čovek i da nisu nastali u prirodi. . . Metapodaci su razvili ljudi za neku potrebu ili funkciju. . . Oni nisu svet, to je način na koji vidimo svet u nekom trenutku za neke specifične potrebe” (Karen Coyle) Metapodatak je skup atributa potrebnih da se opiše neki resurs Metapodaci su strukturisani podaci koji opisuju karakteristike nekog objekta 6

Osnovna uloga metapodataka u opisivanju e-izvora je da omoguće i olakšaju: 1. pronalaženje izvora

Osnovna uloga metapodataka u opisivanju e-izvora je da omoguće i olakšaju: 1. pronalaženje izvora i to prema relevantnim kriterijumima, identifikovanjem izvora, okupljanjem sličnih izvora, razdvajanjem različitih izvora, pružanjem podataka o lokaciji izvora; 2. organizaciju različitih elektronskih izvora; 3. razmenu metapodataka između različitih sistema, struktura podataka i sumeđa uz minimalne gubitke na sadržaju i funkcionalnosti; 4. digitalnu identifikaciju (preko trajnih identifikatora kao što su URL adrese ili DOI brojevi); 5. arhiviranje i zaštitu digitalnih informacija. 7

Primeri bibliografskih formata, metapodataka i standarda format meta-podaci standard ISO 2709 -1981 (XML) US

Primeri bibliografskih formata, metapodataka i standarda format meta-podaci standard ISO 2709 -1981 (XML) US MARC UK MARC INTERMARC IFLA Unimarc Te. X (tekst) Bib. Te. X Users Group XML TEI preporuke TEI Consortium 8

Najjednostavniji primer - Te. X § autor Donald Knut § 80 -te godine XX

Najjednostavniji primer - Te. X § autor Donald Knut § 80 -te godine XX veka § omogućava autorima samostalno pripremanje složenih matematičkih i naučnih tekstova § jedan program - nekomercijalni proizvod § dalji razvoj i nadgradnja kooperacijom mnogobrojnih korisnika § primenjiv na mnogim računarima, operativnim sistemima, štampačima. . . 9

Bi. BTe. X - najrasprostranjenije bibliografije na Internetu @article{Balkanet, Tip bibliografske jedinice koja se

Bi. BTe. X - najrasprostranjenije bibliografije na Internetu @article{Balkanet, Tip bibliografske jedinice koja se opisuje author = "Cvetana Krstev and Gordana Pavlovi'{c}-Lav{z}eti'{c} and Duv{s}ko Vitas and Ivan Obradovi'{c}", title = "{Using Textual and Lexical Resources in Developing the Serbian Wordnet}", journal = {Romanian Journal of Information Science and Technology}, „Polja“ bibliografskog opisa year = {2004}, pages = {147 --162}, publisher = {Romanian Academy}, number = {1 --2}, volume = 7, ISSN = "1453 -8245" } 10

Primena različitih stilova na Bi. BTe. X bibliografsku bazu 11

Primena različitih stilova na Bi. BTe. X bibliografsku bazu 11

Upotreba Bi. BTe. X-a na Internetu – DBLP (Computer Science Bibliography) 12

Upotreba Bi. BTe. X-a na Internetu – DBLP (Computer Science Bibliography) 12

Upotreba Bi. BTe. X-a na Internetu – bibliografski opis rada u Bi. BTe. X

Upotreba Bi. BTe. X-a na Internetu – bibliografski opis rada u Bi. BTe. X formatu 13

DBLP (Computer Science Bibliography) – veza ka drugim bazama podataka 14

DBLP (Computer Science Bibliography) – veza ka drugim bazama podataka 14

Cite. Seer - scientific literature digital library focused on computer and information science 15

Cite. Seer - scientific literature digital library focused on computer and information science 15

Google Scholar @article{krstev 2004 using, title={Using textual and lexical resources in developing serbian wordnet},

Google Scholar @article{krstev 2004 using, title={Using textual and lexical resources in developing serbian wordnet}, author={Krstev, Cvetana and Pavlovic-Lazetic, Gordana and Vitas, Du{v{s}}ko and Obradovic, Ivan}, journal={Romanian Journal of Information Science and Technology}, volume={7}, number={1 -2}, pages={147 --161}, year={2004} } 16

Kobson - Članci naših autora u servisu Web of Science od 2000. godine @ARTICLE{

Kobson - Članci naših autora u servisu Web of Science od 2000. godine @ARTICLE{ author={Mladenovic Miljana, Mitrovic Jelena D, Krstev Cvetana, Vitas Dusko M}, year={2016}, title={Hybrid sentiment analysis framework for a morphologically rich language}, journal={JOURNAL OF INTELLIGENT INFORMATION SYSTEMS}, volume={46}, number={3}, pages={599 -620}, document_type={Article}, } 17

Domaći izvori - Infoteka 18

Domaći izvori - Infoteka 18

Domaći izvori - Infoteka 19

Domaći izvori - Infoteka 19

Najstariji primer - Marc § § § Marc - Machine Readable Cataloguing 60 -te

Najstariji primer - Marc § § § Marc - Machine Readable Cataloguing 60 -te godine XX veka Library of Congres & British National Bibliography IFLA, 1977, Unimarc, podržava ISBN Zasniva se na više formata: • ISO 2709 -1981 (Format for bibliographic information interchange on magnetic tape) • XML § Puno komercijalnih programa za obradu (COBISS, BISIS, Pergam, NISIS) 20

Cobiss - primer kataloškog listića 21

Cobiss - primer kataloškog listića 21

Cobiss – ISBD zapis 22

Cobiss – ISBD zapis 22

Pozadina kataloškog listića Comarc u formatu ISO 2709 23

Pozadina kataloškog listića Comarc u formatu ISO 2709 23

Jedan primer US-MARC metapodaci, format ISO 2709 01142 cam 2200301 a 4500 001 92005291

Jedan primer US-MARC metapodaci, format ISO 2709 01142 cam 2200301 a 4500 001 92005291 003 DLC 005 19930521155141. 9 008 920219 s 1993 caua j 000 0 eng 010 $a 92005291 020 $a 0152038655 : $c$15. 95. . 1001 $a. Sandburg, Carl, $d 1878 -1967. 24510$a. Arithmetic /$c. Carl Sandburg ; illustrated as an anamorphic adventure by Ted Rand. 250 $a 1 st ed. 260 $a. San Diego : $b. Harcourt Brace Jovanovich, $cc 1993. 300 $a 1 v. (unpaged) : $bill. (some col. ) ; $c 26 cm. 500 $a. One Mylar sheet included in pocket 520 $a. A poem about numbers and their characteristics. Features anamorphic, or distorted, drawings which can be restored to normal. . . 24

Isti primer - US MARC metapodaci, format XML <leader>01142 cam 2200301 a 4500</leader> <controlfield

Isti primer - US MARC metapodaci, format XML <leader>01142 cam 2200301 a 4500</leader> <controlfield tag="001"> 92005291 </controlfield> <controlfield tag="003">DLC</controlfield> <controlfield tag="005">19930521155141. 9</controlfield> <controlfield tag="008">920219 s 1993 caua j 000 0 eng </controlfield> <datafield tag="010" ind 1=" " ind 2=" "> <subfield code="a"> 92005291 </subfield></datafield> <datafield tag="020" ind 1=" " ind 2=" "> <subfield code="a">0152038655 : </subfield> <subfield code="c">$15. 95</subfield></datafield> <datafield tag="100" ind 1="1" ind 2=" "> <subfield code="a">Sandburg, Carl, </subfield> <subfield code="d">1878 -1967. </subfield></datafield> <datafield tag="245" ind 1="1" ind 2="0"> <subfield code="a">Arithmetic /</subfield> <subfield code="c">Carl Sandburg ; illustrated as an anamorphic. . . 25

Metapodaci § Reč „metapodatak“ znači „podaci o podacima“ § Metapodaci daju kontekst o objektima

Metapodaci § Reč „metapodatak“ znači „podaci o podacima“ § Metapodaci daju kontekst o objektima od interesa – resursima kao što su MP 3 datoteke, knjige ili satelitski snimci – u obliku „opisa resursa“. § Opis resursa ima korene u davnim arhivskim i bibliotečkim katalozima. § Savremeno shvatanje „metapodataka“ (koje je podstaklo razvoj Dablinskog jezgra i drugih standarda) nastalo sa veb-revolucijom iz 90. godina. 26

Vrste metapodataka Prema Gejl Hodž postoje tri osnovne vrste metapodataka: 1. opisni – opisuju

Vrste metapodataka Prema Gejl Hodž postoje tri osnovne vrste metapodataka: 1. opisni – opisuju izvor u cilju otkrivanja ili identifikacije. Mogu da uključuju elemente kao što su: naslov, apstrakt, autor, ključne reči, datum, izdavač, jezik jedinice; 2. administrativni – pružaju informacije potrebne za upravljanje izvorom, kada i kako je nastao, kog je tipa datoteka, ko ima pristup izvoru, detalje o broju zapisa, datumu kreiranja, identifikatoru zapisa, jeziku zapisa. Metapodaci za upravljanje pravima su vrsta administrativnih metapodataka koji se bave pravima intelektualne svojine; 3. strukturalni – pružaju informacije o tome kako su složeni objekti sastavljeni, na primer kako su stranice složene da bi činile poglavlja. 27

Kada se koriste metapodaci? § Za opis digitalnih objekata (dokumenata, zapisa) § Za opis

Kada se koriste metapodaci? § Za opis digitalnih objekata (dokumenata, zapisa) § Za opis podataka na veb stranicama • Kao deo samog izvora • Kao posebni HTML dokument koji je povezan sa izvorom koji se opisuje § U bazama podatka - povezani sa izvorom kojeg opisuju 28

Kreiranje metapodataka Metapodaci se mogu kreirati za bilo koji nivo agregacije objekta: §za zbirku

Kreiranje metapodataka Metapodaci se mogu kreirati za bilo koji nivo agregacije objekta: §za zbirku objekata §za pojedinačni objekat §za sastavni deo. Metazapis – skup metapodataka Izrada metazapisa koji se sastoji od mnoštva metapodataka liči na katalogizaciju bibliotečke, muzeološke i arhivske građe. 29

Šta je Dablinsko jezgro? § Dablinsko jezgro je standard za metapodatke koji se sastoji

Šta je Dablinsko jezgro? § Dablinsko jezgro je standard za metapodatke koji se sastoji od skupa elemenata za opis širokog spektra izvora na mreži. • Namenjen je pre svega ljudima koji nisu profesionalni katalogizatori. § Naziv potiče od mesta Dablin u Ohaju gde se u OCLC (Online Computer Library Center) 1995. godine održavala inicijativna radionica OCLC/NCSA Metadata Workshop • NCSA – Nacionalni centar za superračunarske primene § Reč jezgro ukazuje na to da je osnova skup elemenata metapodataka, ali da je taj skup proširiv po principu jezgra. 30

Dublin Core Metadata Initiative DCMI Dublin Core Metadata Initiative - DCMI je organizacija koja

Dublin Core Metadata Initiative DCMI Dublin Core Metadata Initiative - DCMI je organizacija koja se bavi izradom standarda i rečnika za opis informacija u cilju bolje i lakše manipulacije podacima i objektima. Fokus rada DCMI je izrada semantike standarda za metapodatke. http: //dublincore. org 31

Opisi u Dablinskom jezgru DC sadrži dva nivoa opisa: 1. Jednostavni 2. Kvalifikovani Jednostavni

Opisi u Dablinskom jezgru DC sadrži dva nivoa opisa: 1. Jednostavni 2. Kvalifikovani Jednostavni opis sadrži 15 elemenata Kvalifikovani opis sadrži tri dodatna elementa i kvalifikatore 32

Dablinsko jezgro - 15 osnovnih elemenata (1) § Elementi koji se odnose na sadržaj

Dablinsko jezgro - 15 osnovnih elemenata (1) § Elementi koji se odnose na sadržaj resursa: 1. 2. 3. 4. 5. 6. 7. Title (Naslov) – ime resursa (informacionog paketa); Subject or Keywords (Predmet i ključne reči) – tema resursa; preporučuje se korišćenje kontrolisanih rečnika i formalnih klasifikacionih šema; Description (Opis) – tekstualni opis sadržaja resursa; može da bude apstrakt ili opis saržaja; Source (Izvor) – informacije o originalnom izvoru iz koga je nastao resurs koji se opisuje, premda se preporučuje korišćenje veza ka povezanim elementima; Language (Jezik) – naznaka jezika na kome je sadržaj (tekst) resursa; Relation (Odnos) – identifikator drugog resursa zajedno s njegovim odnosom prema resursu koji se opisuje; ti odnosi mogu da budu; Is. Version. Of, Is. Based. On, Is. Part. Of, Is. Format. Of, itd. Coverage (Pokrivenost) – identifikacija prostornih (npr. geografsko područje) i vremenskih karakteristika sadržaja resursa; njih treba uzimati iz kontrolisanih lista ili ih ispisati u standardnom formatu (vreme YYYY-MMDD); 33

Dablinsko jezgro - 15 osnovnih elemenata (2) § Elementi koji se odnose na resurs

Dablinsko jezgro - 15 osnovnih elemenata (2) § Elementi koji se odnose na resurs sa stanovišta intelektualne svojine: 8. Author or Creator (Autor ili stvaralac) – ime osobe ili organizacije koja nosi primarnu odgovornost za intelektualni sadržaj resursa (autor, umetnik, kompozitor, itd. ); 9. Publisher (Izdavač) – ime entiteta koji je resurs učinio dostupnim (izdavačka kuća, univerzitet ili neki odsek, i sl. ); 10. Other Contributor (Drugi saradnici) – ime osobe ili organizacije koja je značajno doprinela intelektualnom sadržaju resursa ali čiji doprinos nije merljiv s doprinosom autora koji su navedeni u elementu Creator (urednik, ilustrator, itd. ); 11. Rights Management (Upravljanje pravima) – izjava, link ili identifikator koji daju infromacije o upravljanju pravima (da li su vremenski ograničena, i sl. ) ; 34

Dablinsko jezgro - 15 osnovnih elemenata (3) § Elementi koji se odnose na resurs

Dablinsko jezgro - 15 osnovnih elemenata (3) § Elementi koji se odnose na resurs kao primerak: 12. Date (Datum) – datum kreiranja resursa ili kada je postao dostupan; preporučuje se korišćenje standarda ISO 8601 (Date and Time Formats), kao npr. YYYY-MM-DD; 13. Resource type (Vrsta resursa) – oznaka vrste resursa, npr. Matična veb strana, pesma, tehnički izveštaj, rečnik, itd. ; 14. Format (Format) – naznaka softvera ili hardvera koji je potreban za korišćenje resursa; 15. Resource Identifier (Identifikator resursa) – niska ili broj koji jednoznačno identifikuju resurs (npr. URL, ISBN, itd. ). 35

Dablinsko jezgro - osobine § § § Elementi su neobavezni i ponovljivi Ređaju se

Dablinsko jezgro - osobine § § § Elementi su neobavezni i ponovljivi Ređaju se u proizvoljnom redosledu Preporučuje se korišćenje kontrolisanih vrednosti za neka polja (predmetno polje) ali to nije obavezno Usvojeni su profili primene za pojedine domene primene, npr. Profil primene za biblioteke (o ovome više kasnije) 36

Isti primer - Dablinsko jezgro, XML <title>Arithmetic / </title> <creator> Sandburg, Carl, 1878 -1967.

Isti primer - Dablinsko jezgro, XML <title>Arithmetic / </title> <creator> Sandburg, Carl, 1878 -1967. </creator> <creator> Samo jedna od mogućih sintaksi zapisa – Rand, Ted, ill. Više kasnije </creator> <publisher>San Diego : Harcourt Brace Jovanovich, </publisher> <date>c 1993. </date> <language>eng</language> <description>A poem about numbers and their characteristics. Features anamorphic, or distorted, drawings which can be restored to normal by viewing from a particular angle or by viewing the image's reflection in the provided Mylar cone. </description> <description>One Mylar sheet included in pocket. </description> <subject>Arithmetic</subject> <subject>Children's poetry, American. </subject> 37

Dablinsko jezgro – primer rada koji treba konsultovati 38

Dablinsko jezgro – primer rada koji treba konsultovati 38