HINA 2007 MEDIJI I DEMOKRACIJA baza podataka dubinsko
HINA 2007 MEDIJI I DEMOKRACIJA baza podataka, dubinsko pretraživanje, izravni pristup – digitalizacija novinskog arhiva i organizacija znanja u bazu podataka MEDIA AND DEMOCRACY Databasing, Datamining, On Line access – Digitalization of Newspaper - based Archive and Organization of Knowledge in Database Lana Žaja Željko Hodonj Hrvatska izvještajna novinska agencija HINA informacijska baza / HIB Croatian News Agency HINA Information Data base / HIB E-mail: zeljko. hodonj@hina. hr lana. zaja@hina. hr Hrvatska izvještajna novinska agencija HINA informacijska baza / HIB Croatian News Agency HINA Information Data base / HIB
Prijedlog Vlade RH n 2006. godine Hrvatski sabor je potvrdio zaštitu najveće novinske baze podataka u papirnatom i elektroničkom formatu – Vjesnikovu novinsku dokumentaciju / VND online. Tako su stvoreni preduvjeti da se VND proglasi razvojnim projektom HINA-e; te da se financira zaštita i razvoj baze podataka sredstvima državnog proračuna. The Government's proposition n in 2006, the Croatian Parliament ratified the preservation of the largest newspaper database of paper and electronic formats – Vjesnik's Newspaper Documentation / VND online. This formed the prerequisites for VND to become HINA's development project, and for the database preservation and development to be financed from the national budget.
Ciljevi projekta n n očuvanje primarne, recentne dokumentacijsko-informacijske vrijednosti gradiva Hinine baze EVA i VND kao baze podataka i kao povijesno-kulturnog dobra potpuna digitalizacija baze podataka stvaranje i razvoj novih, samostalnih i međusobno povezanih informacijskih usluga za različite skupine korisnika (media monitoring, online novinska dokumentacija i posebni projekti) Project objectives n n preservation of primary, recent documentation-information value of EVA and VND records as database and as historical and cultural heritage complete digitalization of database creation and development of new, independent and interrelated information services for various user groups (media monitoring, online news documentation, and special projects)
n n HINA se u svom strateškom opredjeljenju odlučila da sve svoje sadržaje i sadržaje drugih; i u dogovoru s njima; generira kao baze podataka Cilj: n “podržavajti umreženje svakog pojedinog građanina Hrvatske” n n HINA, in its strategic planning, has decided to generate its own material and material of others, with their consent, as databases The Goal: n “support network connection for every Croatian citizen”
Iz rasprave u Hrvatskom saboru lipanj 2007 n Pismohrana, citat: n » Vjesnikova novinska dokumentacija – VND online « novinski je dokumentacijski centar organiziran u računalnom mediju i jedini je u Hrvatskoj. Nastao je na temeljima Vjesnikove novinske dokumentacije koja je ustrojena 1964. godine. From Croatian Parliament's session June 2007: n Archive, citation: n » Vjesnik's Nespaper Documentation – VND online « is a news documentation center organized in computer media and the only one in Croatia. It developed from Vjesnik's Newspaper Documentation established in 1964.
n Pismohrana, citati: n Od tada do 2005. godine kreirano je više od 6000 zbirki dokumenata / izrezaka, članaka / tekstova iz novina s približno 12 milijuna pojedinačnih zapisa, a uza sve to je i posebna zbirka članaka za približno 100. 000 domaćih i inozemnih javnih osoba. Baza podataka u izrescima članaka, mjereno smještajem na policama, iznosi približno 480 dužnih metara. Baza podataka u računalnom mediju broji 600. 000 dokumenata. n Archive, citation: n Since then until 2005, more than 6000 collections of documents / clippings of newspaper articles / texts had been created, with approximately 12 million entries. Moreover, it is a special collection of articles on approximately 100. 000 domestic and foreign public figures. The size of the database of newspaper clippings, measured by its layout on shelves, is approximately 480 meters. The database in computer media has 600. 000 documents.
n Pismohrana, citat: n VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVDnosačima. n Archive, citation: n VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.
n Pismohrana, citat: n VND je projektirana za pohranu i organizaciju poveznica starjih i novih podataka. Tako su ostvarene, kao jedine u Hrvatskoj, posebne eksportne baze podataka tiskanih glasila na DVDnosačima. n Archive, citation: n VND was designed to store and organize links between old and new data. This generated specially exported databases of print media on DVD, unique in Croatia.
n Pismohrana, citat: n Sustav je ustrojen kao pouzdana informacijska paradigma za pretraživanje i razvrstavanje dokumenata na zahtjev korisnika dokumentacijske građe. (…) n Archive, citation: n The system is structured as reliable information paradigm for retrieval and categorization of documents upon request of documentation users. (. . . )
HINA Struktura organizacije baze HINA Structure of Organization of Database n n HINA informacijska baza Hina informacijsko dokumentacijski centar n n HIB/IDC HINA Information Base HINA Information Documentation Center HIB/IDC
HIB / IDC n n HINA informacijska baza je alat kojim se služi HINA u vlastitom organiziranju HIB Informacijsko dokumentacijski centar povezuje interese korisnika sadržaja n n HINA Information Data base is one of the tools used by HINA in its own organization HIB Information Documentation Center links the interests of clients using content generated by HINA
Opredjeljenja n n n HIB izražava multimedijsku razvojnu ambiciju HINA-e HIB osigurava dostupnost i pretraživost pohranjenog digitalnog zapisa tiskanih i AV sadržaja HIB svojim sustavom podržava umreženje svakog pojedinog građanina Hrvatske osiguravajući dostupnost podataka iz javnih glasila pomažući osviještenu obaviještenost o izabranim razinama javnog znanja u hrvatskom društvu HIB svojim sustavom osigurava dostupnost javnog znanja pomoću svojih 20 predmetno usmjerenih baza podataka HIB je podrška razvoju novih medija Determinants n n n HIB expresses a multimedia development ambition of HINA HIB ensures accessibility and searchability of digitally stored textual and AV data HIB system supports network connection for each individual Croatian citizen, providing accessibility of information from public media and contributing to conscious awareness of chosen levels of public knowledge in Croatian society HIB system provides accessibility of public knowledge, by means of its 20 subject-based databases HIB provides support for developing new media
HIB STRUKTURA: n n n EVA – elektronska baza podataka, 1, 5 milijun dokumenata dnevne proizvodnje HINA-e od 1991. godine VND – kolekcija 12 milijuna dokumenata u 6700 kolekcija novinskih isječaka predmetno organiziranih dokumenata kroz 15 područja VND – baza podataka s 300 tisuća dokumenata u elektronskom formatu HIB STRUCTURE: n n n EVA – electronic database, 1. 5 million documents of HINA’s daily production since 1991 VND – collection of 12 million documents in 6700 collections of newspaper clippings organized according to content into 15 categories VND – database with 300 thousand documents in electronic format
HIB izvori: HIB sources: HIB obrađuje HIB processes 1. produkciju HINA-e 2. devet dnevnih listova 3. 15 tjednih, dvotjednih, mjesečnih revija 4. 12 milijuna dokumenata novinskih isječaka iz baze VND kreirane u razdoblju od 1964/2003. godine Na godišnjoj razini HIB treba obraditi milijun dokumenata n n dnevna tekstualna proizvodnja HINA-e dnevna AV proizvodnja HINA-e dnevni, tjedni, mjesečni i povremeni tiskani izvori obrada baze novinskih isječaka baze VND prema posebnom programu 1. 2. 3. 4. 4. HINA’s production nine daily papers 15 weekly and monthly magazines 12 million documents of newspaper clippings from the VND database created since 1964 to 2003 On a yearly basis HIB should process a million documents n n daily textual HINA’s production daily AV HINA’s production daily, weekly, monthly and periodical press processing of newspaper clippings from VND database according to a special programme
Linkovi – link veza do medija on-line Mindmapping BAZE U OKRUŽENJU NEWS MEDIJI ON-LINE BAZA AV MEDIJA FAQ OGLAŠAVANJE BAZA OGLASA MEDIJSKA BAZA Homepage BAZA FOTOGRAFIJA HINA SEARCH A-Z PREGLEDNIK PRETPLATA WEB FILTER O NAMA PROJEKTI TOP VIJESTI TJEDNE VIJESTI ANALITIKA KONTAKT ARHIVA LOG IN
Razvojna opredjeljenja Development objectives Automatska kategorizacija sustava utemeljena na pojmovnicima i prepoznavanju oblika riječi ( lematizacija) Automatic categorization of the system, based on thesauruses and word-form recognition (lemmatization) Minimalno željene funkcije: Svrstavanje tekstova u predefinirane kategorije - pronalaženje kategorija prema unaprijed naučenim pravilima - sposobnost sustava da “uči” pravila prema već napravljenoj kategorizaciji - temeljem pravila sustav samostalno određuje koje od predefiniranih kategorija odgovaraju pojedinom novom tekstu - strojno dobiveni rezultati prijedlozi su za humanog kategorizatora Pronalaženje imenovanih entiteta - u obradi sadržaja niz je entiteta koji karakteriziraju tekst i nužno ih je prepoznati, izdvojiti za dalju obradu (osobe, institucije, toponimi. . . ) Frekvencijska analiza - služi kao baza podataka za naprednije oblike textmininga Minimal desired functions: Classifying texts into predefined categories - finding categories according to previously learned rules - ability of the system to “learn” rules according to predefined categories - according to rules, the system autonomously determines which of the predefined categories apply to a specific new text - mechanically acquired results are suggestions for human categorizer Finding labeled entities - content processing includes various entities which characterize the text and it is necessary to recognize them and single them out for further processing (person, institution, toponym. . . ) Frequency analysis - serves as database for advanced forms of textmining Automatska kategorizacija sustava razvojno je nužna zato što osigurava sposobnost sustava da prati, prepoznaje i donosi podlogu za odlučivanje na temelju realnih pokazatelja i koje je moguće prepoznati Automatic categorization of the system is a developmental necessity because it provides the ability of the system to track, recognize and create a base for decision-making according to realistic and recognizable indexes
Proces obrade VND n Opis procesa obrade po fazama Processing VND n Phase by phase description of processing
Workflow OCR and clipping, initial categorization, ABBYY Fine. Reader (VNDClipper) Scanning Adobe Photoshop Projects, export. . . Copying (File system) rt po Ex PDF, Editorial system n tio bu tri At Editorship rt po Ex ion ut b i tr At Clipping, initial categorization, Adobe Acrobat (PDFClipper) Col lect ion on ecti Coll al ov pr p A Categorization for specific requirements Publishing approval
Faze procesa obrade n n n Ulaz (preuzimanje sadržaja, skeniranje*) Clipping i inicijalna kategorizacija Obrada / kategorizacija Kategorizacija za specifične potrebe** Izlaz i korištenje (projekti / export / statistika / pretraga) * ** samo kod papirnatih materijala još nije kreirana Processing phases n n n Input (collecting material, scanning*) Clipping and initial categorization Processing / categorization Categorization for specific requirements** Output and usage (projects / export / statistics / search) * ** only for paper material not created yet
Ulaz n Sadržaj ulazi na 2 načina, ovisno o formatu: n n n Proces počinje sa pregledom sadržaja i odabirom relevantnih članaka Nastavlja se skeniranjem sadržaja i pripremom za clipping Elektronički format n n Papirnate novine Elektronički format (PDF) Mogući su i drugi načini ulaska sadržaja, poput informacijskih servisa ili redakcijskog sustava Papirnati format n Input Osim odabira relevantnih članaka, nije potrebna priprema za daljnju obradu 2 modes of content input, depending on the format: n n Paper format n n n Paper format Electronic format (PDF) Other types of input are also possible, such as information service or editorial system The process begins with reviewing material and selecting relevant articles It continues with scanning material and preparing for clipping Electronic format n Apart from selecting relevant articles, no preparations are necessary for further processing
Inicijalna obrada n n Uključuje clipping i inicijalnu kategorizaciju Ovisno o formatu ulaza, postoje 2 načina: n VNDClipper – slikovni ulaz, radi se OCR i clipping, uključena je i podrška za inicijalnu kategorizaciju n PDFClipper – PDF (elektronički ulaz), radi se samo clipping te inicijalna kategorizacija Inicijalna kategorizacija nastoji automatikom pročitati metapodatke (naslov, autor) iz teksta, nužno je ručno unijeti izvor, datum i područje Oba modula omogućavaju automatski eksport obrađenih sadržaja direktno u centralnu bazu za daljnju obradu, cjelovitih stranica kao i odabranih članaka Initial processing n n Includes clipping and initial categorization Depending on the input format, there are 2 modes: n VNDClipper – image input, OCR and clipping are performed, including the support for initial categorization n PDFClipper – PDF (electronic input), only clipping and initial categorization are performed Initial categorization aims for automatic recognition of metadata (title, author) from the text, manual input of source, date and category is necessary Both modes enable automatic export of processed data directly into the central database for further processing, whole pages as well as selected articles
Obrada / kategorizacija n n Sastoji se u preuzimanju materijala za daljnju obradu, obrade i spremanja obrađenih članaka Preuzimanje je moguće putem zadataka i pregleda po izvoru i datumu, gdje se odabiru neobrađeni članci koji odgovaraju inicijalnim kategorijama. Preuzeti članci za obradu imaju status u obradi Nakon obrade, članci se u statusu obrađeni nalaze u bazi i spremni su za daljnje korištenje Processing / categorization n n Consists of collecting material for further processing, processing and storage of processed articles Collection is possible through assignments and view by source and date, where unprocessed articles and those that are attributed to initial categories are selected Collected articles have the status in process After processing, the articles gain status processed and are stored in database for further usage
Kategorizacija za specifične potrebe n n Sljedeći korak u obradi omogućava dodatnu kategorizaciju sadržaja i grupiranje relevantnih sadržaja za pojedine korisnike sa posebno ugovorenim setom kategorija ili zahtjeva. Također se odnosi i na verifikaciju i odobravanje za daljnju objavu. Ovaj dio funkcionalnosti još nije realiziran u praksi Categorization for specific requirements n n Next step in processing enables additional categorization of content and grouping of material relevant to individual clients with a specific set of categories or requirements. It also includes verification and approval for further publishing. This part of functionality is not yet put into practice
Izlaz i korištenje n Korištenje materijala je moguće na sljedeće načine: n n n Output and usage n Pretraga sadržaja i grupiranje po metapodacima i punom tekstu sadržaja Projekti – grupiranje članaka pojedinačnim dodavanjem ili na temelju pretraga radi daljnje obrade Statistika – analiza pojavljivanja pojedinih entiteta unutar odabranog seta podataka unutar projekata Export – export seta podataka ili pojedinačnih podataka u Word, HTML ili DVDodgovarajući format Planirana je objava prema Internet korisniku koju tek treba provesti (pressclipping, pristup arhivi…) Possible usages of the material are: n n n Search through content and grouping according to metadata and full text Projects – grouping of articles by individual adding or based on search results for further processing Statistics – analysis of occurence of certain entities within a chosen set of data within projects Export – export of sets of data or individual data into Word, HTML or DVD – suitable format Public access for Internet users is planned and yet to be put into effect (pressclipping, access to archive…)
Što i kako What and how We are giving access to a selection of newspapers and other sources and authors; browsing texts according to the chosen news and date; according to people and subjects in which they appear; according to the selected person and chosen subject; searching by subject and type of article; database overview according to events; database search by keywords; institutions, location and time n n n osoba tema zemljopisna odrednica osoba tema zemlj. odr. vremenska odrednica osoba tema zemlj. odr. vrem. odr. ključna riječ osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor novinska vrsta osoba tema zemlj. odr vrem. odr. ključna riječ institucija izvor autor vrsta, full text search, medijska analiza n n n Person subject location date Person subject location date keywords institutions sources authors Person subject location date keywords institutions sources authors journalistic form full text search media analysis
LOKACIJA PRVI TEKST U BAZI EDUCATION Intellectual niche HRVATSKA REGIJA SVIJET KA S L IC PO LIT PO Birth, place, date I OR MI V U O Z TS UG RA AC S O R E SP NT ATI CO RE T HRVATSKA REGIJA, SVIJET CROATIA THE REGION, THE WORLD SJEDIŠTE/ADRESA CROATIA THE REGION THE WORD I IT Rođenje, datum, mjesto OBRAZOVANJE intelektualna niša FIRST TEXT IN THE DATABASE LOCATION / ADDRESS FI FI NA NA NC I NC JE E OSOBNA POVEZANOST OSOBA Ključna osoba PERSON Key person PERSONAL CONNECTION TVRTKA ZAPOSLENJE UDRUGE SLOBODNO VRIJEME COMPANY EMPLOYMENT ORGANIZATIONS LEISURE SUPRUGA/SUPRUG WIFE / HUSBAND SCIENTIFIC FIELDS: PODRUČJA ZNANOSTI: PUBLIC FIGURES COMMUNICATION / MEDIA JAVNE OSOBE CULTURE AND ART KOMUNIKACIJA / MEDIJI INTERNATIONAL RELATIONS KULTURA I UMJETNO. EDUCATION MEĐUNARODNI ODNOSI SOCIAL WELFARE ODGOJ I OBR. CROATIAN FOREIGN AFFAIRS SOCIJALNA SKRB ADVERTISMENTSJUDICIARY AND HR VANJSKA POL. CRIME OGLASI TRAFFIC PRAVOSUĐE, SUDSTVO, KRIMINAL RELIGION PROMET INTERNAL AFFAIRS RELIGIJA SCIENCE UNUTARNJA POLITIKA SOCIETY ZNANOST HEALTHCARE DRUŠTVO ECONOMY ZDRAVSTVO FINANCE EKONOMIJA SPORTS FINANCIJE THE WORLD SPORT SVIJET DJECA BRAČNO STANJE MARITAL STATUS SRODNIK RELATIVE CHILDREN ŽE FE NS M KO AL E KO UŠ LE M A M BRAČNO STANJE MARITAL STATUS OSOBE ISTE RAZINE PERSONS OF EQUAL LEVEL TVRTKE ISTE RAZINE COMPANIES OF EQUAL LEVEL JE CI IMA IN K A IJ S RE ED ION DIA E M ST U ACT ME R V E / A/ RE TH I IJ DI ES ED ME YP M T UČ FR ES EQ TA UE LOS NC T Y
Rezultat Result n Stvoreni su uvjeti za online pretraživanje unutar sljedećih definicija: n We created conditions for online search within the following definitions: 1. 2. 3. 4. 5. Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika / Svijet / Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo/Kriminal Unutarnja politika Znanost 1. 2. 3. 4. 5. Society/Helathcare /Social welfare Ecology Economy Finance Croatian foreign affairs / The World / International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice/Judiciary/Crime Internal affairs Science 6. 7. 8. 9. 10. 11. 12. 13. 14.
HIB Informacijsko dokumentacijski centar Information Documentation Center n ORGANIZIRANJE POSEBNE BAZE PODATAKA n ORGANIZATION OF A SPECIAL DATABASE
n posebna baza podataka sadrži organizirani skup podataka određenog sadržaja koji dopušta automatsko pretraživanje n a special database contains an organized set of information of specific content, allowing automatic search
n dokumentacijski centri organiziraju poslove prikupljanja, selekcije, obrade i pohrane građe u bazu kako bi se omogućilo pretraživanje dokumenata, te diseminira dokumente kako bi odgovorila na posebne zahtjeve korisnika za određenim sadržajem n documentation centres organise the work of gathering, selection, processing and storing the material into a database to enable the search of documents, and also disseminate documents to meet special user demands for specific content
n tekst koji se pohranjuje u bazu se organizira pomoću kodiranja i strukturiranja različitih elemenata teksta n a text stored in a database is organised by coding and structuring different text elements
n svaka organizirana baza podataka mora sadržavati strukturirani i kodirani tekst n every organised database must contain structured and coded text
n definirani su osnovni deskriptivni elementi teksta, a njihovo obilježavanje deskriptorima (označiteljima) – atributima (atribuiranje) / znači unošenje vrijednosti potrebno za pretvaranje linearnog teksta u strukturirani ili hipertekst n basic descriptive text elements are defined, and their tagging by descriptors – attributes means input of values necessary to turn a linear text into a structured or hypertext
HIPERTEKST n se definira kao tekst koji nema ograničenja linearnosti. Možemo ga odrediti kao tekst koji u sebi sadrži veze prema drugim tekstovima ili druge dijelove istog teksta. Takvi dijelovi teksta nazivaju se čvorovima (nodes) HYPERTEXT n is a text not limited by linearity. We can define it as a text containing links to other texts or to other parts of the same text. Such parts of texts are called nodes.
ČVOROVI n su jedinice obavijesti koje mogu biti: a) unutarnje – unutar istog teksta b) vanjske – u nekom vanjskom tekstu koji služi kao poveznica dokumenta koji se trenutno obrađuje NODES n are units of information which can be: a) internal – within the same text b) external – in an external text used as a link to the document currently being processed
Čvor obično sadrži jednu ideju, tj. pojam, a može sadržavati i podatak o vrsti informacije, npr: n n zakonski članak ili zakoni saborske rasprave sukob interesa istražna povjerenstva A node usually contains an idea, a concept, but it can also contain data about the type of information, e. g. : n n a legislative act or statute parliamentary session conflict of interests investigative committee
n skup čvorova čini bazu podataka, a čvorovi i njihove veze (unutarnje i vanjske) mrežnu strukturu n a collection of nodes make up a database. Nodes and their links (internal and external) make up a network structure
Zašto se tekst strukturira? n n n višekratna upotrebljivost teksta neovisnost o programskoj podršci, platformi ili aplikaciji (OCR) omogućuje preciznu definiciju i efikasnu obradu teksta Why structuring a text? n n n multiple usability of a text independence from software, platform or application (OCR) it enables precise definition and efficient processing of a text
Tekst se strukturira pomoću tezaurusa n tezaurus je kontrolirani rječnik za označivanje i pretraživanje, struktura tezaurusa se sastoji od odnosa među pojmovima: pomoćno sredstvo za indeksiranje A text is structured by the means of a thesaurus n thesaurus is a controlled glossary for tagging and searching. It is structured by relations between concepts: an auxiliary indexing tool
Odnosi ekvivalencije Relations of equivalence sinonimi – izrazi čije značenje je isto: računalo – kompjutor synonyms – words with the same meaning: happy - glad kvazi sinonimi – izrazi čije se značenje velikim dijelom preklapa: nadareni – genij pseudosynonyms – words with largely overlapping meaning: talented - genius
Homonimi n n n stanica - u biologiji ili u prometu vodič - je metal ili vodič u turizmu kreda - u kemiji ili u obrazovanju Uz homonime se obavezno upisuju deskriptori koji označavaju dodatnu obavijest Homonyms n n n cell - in biology or in jail bank - a financial institution or a bank of a river chase – to pursue or to ornament metal In case of homonyms, descriptors must be used to give extra information
Hijerarhijski odnosi n pojmovi koji se uključuju samo u okviru iste fundamentalne kategorije pojmova, iskazuje se samo jedan nadređeni pojam, ali jedan ili više podređenih pojmova Relations of Hierarchy n concepts that are included only within the frame of the same fundamental concept category – there is only one superior concept, but one or more subordinate concepts
Hijerarhijski odnosi Relations of Hierarchy ZLOČIN – ratni – ubojstvo civila, ubojstvo vojnika ZLOČIN – obiteljski – ubojstvo supruge, ubojstvo brata ZLOČIN – kriminal – ubojstvo iz koristoljublja CRIME – war – killing of civilians, killing of soldiers CRIME – family – killing of wife, killing of brother CRIME – criminal act – killing for profit ILI ZAKON – zdravstvo - Zakon o umjetnoj oplodnji ZAKON – politika – Izborni zakon ZAKON – promet – Zakon o sigurnosti prometa na cestama OR LAW – health – The Law of Artificial Insemination LAW – politics – Electoral Law LAW – traffic – The Law of Road Safety
Asocijativni odnosi n ukazuju na vezu među terminima koje dokumentalisti smatraju važnima, a ne mogu se iskazati nekom drugom vrstom odnosa Associative relations n show a relationship between terms considered important by documenters, and which cannot be expressed by a different type of relation
Primjer tezaurusa Thesaurus example Nadređeni pojam Tema: Političari n Političari Ključna osoba: Ivo Sanader n Sinonim Ključna riječ: dužnosnici n Podređeni pojam Ključne riječi: pristupni pregovori, poglavlje o Obrazovanju i kulturi n Partitivni pojam Ključne riječi: pregovori s EU n Područje: 1. Hrvatska vanjska politika 2. Odgoj i obrazovanje 3. Kultura i umjetnost n n n n 1. 2. 3. Superior concept Theme: Politicians Key person: Ivo Sanader Synonym Key word: officials Subordinate concept Key words: negotiations on accession, chapter on Education and culture Partitive concept Key word: EU negotiations Fields: Croatian foreign affairs Education Culture and Art
Sastavljanje indeksa n n n Indeksiranje – određivanje bitnih karakteristika sadržaja dokumenta Ručno – uobičajeno na temelju kontroliranog skupa indeksnih termina Automatsko – uobičajeno na temelju riječi iz dokumenta i to najčešće uklanjanjem stop riječi i mjerenjem frekvencije termina u dokumentu (stop riječi su zamjenice, veznici i sl. , te se riječi zanemaruju na temelju popisa koji ih sadrži) Index composition n Indexing – setting relevant characteristics of the document’s content Manual – usually based on a controlled set of index terms Automatic – usually based on words from the document, most often by removing stop words and measuring a word’s frequency in the document (stop words are pronouns, conjunctives, etc. , they are disregarded according to a list containing them. )
Kako osigurati da se podatak i podaci podudaraju n n Korjenovanje – uporaba skupa pravila za uklanjanje sufiksa, uklanjanje obličnih ili tvorbenih nastavaka (smjen-a, smjen-e, smjen -jivanje) Lematizacija – reduciranje riječi na njihov sintaktički korijen (osnovni oblik je imenica u nominatvu jednine ili glagol u infinitivu) How to ensure the information matches the data n n Stemming – use of a number of rules to remove suffixes, removal of inflectional or formative suffixes (remov -ed, remov-al, remov-ing) Lemmatization – reducing words to their sintactical stem (basic form is a noun in the nominative case singular or the infinitive of a verb)
Organizacija informacija u bazi podataka n pored uobičajenih podataka: autor, naslov, izvor, datum, vrsta, područje, ključne riječi, ključne osobe, institucije, zemljopisne odrednice, za korištenje baze važni su i slijedeći podaci: Organization of information in a database n Beside the usual information: author, title, source, date, type, field, keywords, key persons, institutions, and location, the following information is also important for using the database:
ORGANIZACIJA ORGANIZATION n kako je prikupljena n how it is collected n kome je namijenjena n whom it is intended for n n format u kojem je raspoloživa (pdf, tiff) uvjeti korištenja n n the available format (pdf, tiff) terms of use
Pretraživanje i pregledavanje baze podataka n n pregledavanje je kretanje “od gdje do što” znači da korisnik zna gdje se nalazi u bazi, ali ga zanima što je na tom mjestu dostupno, odnosno koje su tu sve informacije pohranjene pretraživanje je za razliku od pregledavanja kretanje “od što do gdje” što znači da korisnik točno zna što želi i zanima ga gdje je to u bazi pohranjeno Searching and browsing the database n n browsing is moving “from where to what” so that users know where they are in the database, but are interested in what is available there, that is, what information is stored there searching is, on the other hand, “from what to where”, meaning the user knows exactly what he/she wants, and wants to know where in the database it is stored
Pretraživanje – opći principi n n n analiza zahtjeva za pretraživanje, prijevod pojmova iz tematskog zahtjeva u indeksni jezik baze podataka formuliranje i postavljanje strategije pretraživanja izbor termina, pojmova određivanje odnosa među pojmovima izbor potrebnih naredbi Search – general principles n n n analysis of the request, translation of query terms to the index language of the database formulating and setting a search strategy selection of terms, concepts determining relations between concepts selection of necessary commands
Korisniku se nudi: jednostavno i složeno pretraživanje User can choose between simple and advanced search Jednostavno pretraživanje n više je prilagođeno krajnjem korisniku jer, na primjer, pod pojmom KLJUČNE RIJEČI zahvaćaju se sve indeksirane riječi i kompletan OCR tekst. Simple search n more suitable for the enduser since, for example, the term KEYWORDS encompasses all indexed words and the entire OCRed text Složeno pretraživanje n omogućuje preciznije postavljanje zahtjeva i BOOL-ovo kombiniranje riječi. Advanced search n enables more precise queries, and Boolean words combinations
Proširenje upita tj. sužavanje pretrage Boolovi operatori – napredna pretraga n AND – odnos presjeka, blizine odnosno udaljenosti, kada su dva pojma strogo logički poredani jedan uz drugoga: Expanding a search or narrowing a search Boolean operators – advanced search n slikarstvo AND grafika n OR – odnos unije: painting AND graphic art n NOT – isključivanje određenog pojma iz zadanog skupa: slikarstvo AND izložba slika NOT grafika OR – union: graphic art OR award AND Croatian painters grafika OR dodjela nagrade AND hrvatski slikari n AND – ratio of overlapping, closeness or distance when two terms are strictly logically placed side by side: n NOT – exclusion of a certain term from the set: painting AND exhibition NOT graphic art
Prednosti slobodnog teksta (OCR) n n čitav sadržaj pretraživ svaka riječ ima jednaku vrijednost u pretraživanju nema ljudskih pogrešaka nema odgađanja unosa novih riječi Advantages of a free text (OCR) n n the entire content is searchable every word carries the same weight in the search no human error no delayed input of new words
Nedostaci slobodnog teksta (OCR) n n veće opterećenje korisnika ako informacija nije eksplicitno izražena u tekstu lako se može izgubiti, tj. ako nigdje u slobodnom tekstu nije označena vrsta dokumenta, određeni pojam, ciljano područje i dr. , bez kontrolirane dokumentalističke obrade pretraživanje neće biti zadovoljavajuće (npr. intervju s Mesićem) nedostatak logičkih veza između specifičnog i općenitog, tj. nedostaje nodes mora se stručno poznavati rječnik područja koji se pretražuje Downsides of a free text (OCR) n n overwhelming of the user if the information is not explicitly expressed in the text it can easily get lost, that is, if the type of document, a certain term, or the aimed field, etc. is not tagged in the free text, the search will not be satisfactory without controlled documenting processing (e. g. Interview with Mesić) lack of logical links between specific and general, that is, the lack of nodes an expert knowledge of the searched field’s language is required
Prednosti kontroliranog rječnika Rješava mnoge semantičke probleme, npr. n ključna riječ ODNOS mora bit pobliže definirana da li je odnos politički, bilateralni, obiteljski, prijateljski. . . Advantages of a controlled glossary Solves many semantic problems, e. g. n keyword RELATIONS must be closely defined whether they are political, bilateral, family, friendly…
Prednosti kontroliranog rječnika Omogućava generičku povezanost pojmova, npr: n n n Ključna riječ: mito i korupcija AND antikorupcijski program Novinska vrsta: Izvještaj Tema: Reforma pravosuđa Institucija: Ministarstvo pravosuđa Područje: Pravosuđe, sudstvo i kriminal Advantages of a controlled glossary Enables a generic connection of concepts, e. g. n n n Keyword: bribe and corruption AND fight against corruption Journalistic form: Report Subject: Judiciary reform Institution: Ministry of Justice Field: Administration of justice / Judiciary / Crime
Prednosti kontroliranog rječnika Advantages of a controlled glossary Obilježava područje znanja: Tags the field of knowledge: Društvo/Zdravstvo/Socijalna skrb Ekologija Ekonomija Financije Hrvatska vanjska politika/Svijet/ Međunarodni odnosi Komunikacije i mediji Kultura i umjetnost Odgoj i obrazovanje Promet Religija Sport Pravosuđe / Sudstvo / Kriminal Unutarnja politika Znanost Society/Helathcare/Social welfare Ecology Economy Finance Croatian foreign affairs/The World/ International relations Communications/Media Culture and art Education Traffic Religion Sports Administration of justice / Judiciary/Crime Internal affairs Science
Nedostaci kontroliranog rječnika Downsides of a controlled glossary Poteškoće kod sistematskog povezivanja svih relevantnih veza među pojmovima koje mogu nastati zbog: Difficulties with systematic connection of all relevant links between terms which can appear due to: a) b) moguće nestručnosti u pokrivanju područja ljudske pogreške a) b) possible ignorance of the specific field human error
PRVA FAZA RADA – selektiranje i razvrstavanje po područjima n n n Svakog dana članci se selektiraju po određenim područjima Društvo/Zdravstvo/Socijalna skrb, Ekologija, Ekonomija/Gospodarstvo, Financije, Hrvatska vanjska politika/Svijet/Međunarodni odnosi, Komunikacije/Mediji, Kultura i umjetnost, Odgoj i obrazovanje, Promet, Religija, Sport, Pravosuđe/Sudstvo/Kriminal, Unutarnja politika, Znanost i projektima te dostavljaju timu skenerista koji ih izdvajaju, editiraju i distribuiraju na interna računala PHASE ONE – selecting and sorting according to fields n n n Articles are selected every day according to fields Society/Helathcare/Social welfare, Ecology, Economy, Finance, Croatian foreign affairs/The World/International relations, Communications/Media, Culture and art, Education, Traffic, Religion, Sports, Judiciary/Crime, Internal affairs, Science and project’s and delivered to a team of scanner operators who clip, edit and distribute them to internal computers
DRUGA FAZA – skeniranje ili pdf kliping n n n skeniranje dnevnog tiska ili – pdf kliping kompresija i editiranje članaka PHASE TWO – scanning or pdf clipping n n n scanning of daily press or – pdf clipping compression and editing of articles
NAČIN RADA TIMA SKENERISTA n n n skeniranje cjelokupnog dnevnog tiska spajanje stranica i uređivanje izdvajanje članaka i mrežna distribucija editiranih i kompresiranih tekstova SCANNING TEAM’S MODE OF ACTION n n n scanning the sum of daily press connecting pages and formatting clipping articles and distributing edited and compressed texts over network
TREĆA FAZA RADA OCR n n OCR - Optical Character Recognition predstavlja optičko prepoznavanje znakova pretvaranje teksta koji je u obliku skenirane slikovne datoteke u tekstualnu datoteku, kako to izvode neki specijalizirani softveri za skeniranje PHASE THREE - OCR n n OCR stands for Optical Character Recognition turning texts from scanned picture file format to a text file format using specialized scanning software
OCR n n u ovoj fazi rada skenirani, editirani i distribuirani članci prolaze kroz OCR softver e-Visiona koji omogućava prepoznavanje skeniranog teksta u ovoj fazi izrađuje se klasifikacijski sustav čijim opisom je moguće kompjutersko pretraživanje članaka n n in this phase the scanned, edited and distributed articles go through e. Vision’s OCR software which enables the scanned text to be recognized in this phase a classification system is made. Its descriptions enable computerized search of articles
Izgled clipa podijeljenog na blokove prije izvršenja akcije čitanja. A clip divided into blocks before the reading process.
Konačne informacije o clipu prije exporta Final information about the clip before it is exported
ČETVRTA FAZA RADA – završna atribucija n U toj fazi unosi se: n Tema n Zemljopisna odrednica n Institucija n Novinska vrsta n Medijska analiza n Ključna osoba i ostale osobe koje se pojavljuju n Ključne riječi PHASE FOUR – final attributes setting n In this phase we import: n Subject n Location n Institution n Journalistic form n Media analysis n Key person and other related persons n Keywords
n unošenjem konačnih atributa i snimanjem upisnice završena je dokumentalistička obrada teksta n input of final attributes and saving the file completes the documenting part of processing a text
ZAHVALA n Studentima informacijskih znanosti FF-a u Zagrebu koji su radili s nama i koji će, kad diplomiraju, nastaviti razvijati sustave za podršku novim medijima CREDITS n To all students from Information Sciences FF in Zagreb that worked with us and who will, after graduation, continue to develop the systems for support of new media Brezović Petra, Bukvić Nenad, Majer Ivana, Miklec Danijela, Nikolić Kristina, Semenić Brankica, Mušan Tihana, Brković Jelena, Hadžić Jelena, Šaronja Vesna
- Slides: 73