Bibliografia Sistemi di recupero dellinformazione Teoria e tecniche
Bibliografia. Sistemi di recupero dell’informazione Teoria e tecniche della catalogazione e classificazione Presentazioni, “informazione”, quanta infomazione? ricerca 1 info Prof. ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006
OGGI • Presentazioni (già visto) • Presentazione del corso (già visto) • Che cosa si intende con “informazione”? • Quanta informazione? 2
OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 3
Presentazioni: docente • Elisa GRIGNANI • www 2. unipr. it/~grignani/EGhome/eg. htm • Studi: • laurea in lettere, Università di Pavia • perfezionamento in biblioteconomia, Università di Parma • MLIS, University of California, Berkeley • Ricerca: • Classificazioni bibliografiche, sistemi di recupero dell’informazione, società bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII. • Didattica: • Teoria e tecniche della catalogazione e classificazione, Bibliografia, Biblioteconomia 4
Presentazioni: studenti • • Nome e cognome: . . . Corso di laurea: . . . Anno di iscrizione: . . . e-mail: . . . Aree di interesse o di competenza: . . . Cosa vi aspettate da questo corso? . . . Per quanti crediti lo seguite? … 5
Per iscrivervi a questo corso: • Andate nel sito www. nicenet. org • “join a class” • inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key” è: OZ 39495 B 83; il nome della classe è Biblio • “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”. 6
OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 7
Due temi principali Recupero dell’informazione e il processo di ricerca Rappresentazione / organizzazione dell’informazione 8
Due temi principali • Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altri Ricerca (Modulo A) • Come descrivere le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno Catalogazione (Modulo B) 9
Ricerca – Modulo A Recupero dell’informazione e processo di ricerca ALCUNI ARGOMENTI: - che cosa si intende con informazione? - dati / informazione / conoscenza / sapere - quanta informazione? - teoria matematica dell’informazione - ciclo di vita dell’informazione - processo di ricerca - sistemi di recupero dell’informazione (IR) - valutazione IR - bibliografie e cataloghi come sistemi IR - ricerca in OPAC - elementi di ricerca web - stili di citazione bibliografica -. . . 10
Catalogazione – Modulo B Rappresentazione / organizzazione dell’informazione ALCUNI ARGOMENTI: - perchè organizzare l’informazione? - metadati - cataloghi - requisiti funzionali per le registrazioni biblio - descrizione bibliografica - accessi formali e semantici - authority file - programmi per la catalogazione automatizza -. . . 11
Goals and Objectives • Modulo A - Ricerca – Risultati: – Obiettivi: • Modulo B - Catalogazione – Risultati: – Obiettivi: 12
Esercitazioni, letture ed esame • Circa 4 esercitazioni per modulo • 1 presentazione in classe (anche in piccolo gruppo; raccomandato l’utilizzo di Power. Point) • Letture indicate di volta in volta • Esame finale 13
Orario lezioni, esercitazioni e ricevimento • Lezioni: – Aula H; lun. , mart. : 10: 30 -12: 00, merc. : 14: 15 -15: 45 • Esercitazioni: – in orario da concordare • Materiali lezioni ed esercitazioni: – <www 2. unipr. it/~grignani/EGhome/eg. htm> – <www. nicenet. org> • Ricevimento: – mart. 15: 00 -16: 00, merc. 9: 00 -10: 00, Sezione beni librari (Via D’Azeglio, 85) • e-mail: – elisa. grignani@unipr. it 14
Calendario lezioni • I semestre: – Modulo A: 19 sett. - 29 ott. 2005 – Modulo B: 10 nov. - 22 dic. – Modulo C: 9 gen. - 28 gen. 2006 15
OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 16
Che cosa si intende con “informazione”? (forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962). . . • Non c’è una unica definizione “corretta” • Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico … • Definizione d’uso: – “notizie o fatti su qualche cosa” • Oxford English Dictionary – information: informing, telling; thing told, knowledge, items of knowledge, news – knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known 17
Che cosa si intende con informazione? • Correlare dati a un contesto (“interpretazione situazionale”) • dati informazione conoscenza • Richiede una comunità interpretante • Ogni informazione dipende dal contesto da cui proviene • Può essere registrata, immagazzinata, trasmessa (anche in forma fisica: p. e. i fossili) • Deve essere registrata • E’ una registrazione di qualcosa che può essere riutilizzato • E’ una necessità / è una comodità 18
Che tipi di informazione? • Testo – Libri, periodici, WWW, pubblicità, appunti … – A stampa / manoscritta • • Film Fotografie, altre immagini TV, Radio Telefono Database … Quanta informazione? 19
Perché organizzare l’informazione? • E’ una questione di scala: – Usare metodi e categorie personali per organizzare la nostra raccolta di libri o di CD sembra funzionare … – Ma come organizzare una raccolta di dimensione 10, 1000 … volte più grande? 20
OGGI • Presentazioni • Presentazione del corso • Che cosa si intende con “informazione”? • Quanta informazione? 21
Quanta informazione? Produzione libri a stampa: alcuni dati storici • Sec. XV Europa 45. 000 ed. fonte: ISTC • Sec. XVI Italia 50. 000 ed. fonte: EDIT • a. 2003 Italia 60. 000 ed. fonte: IE • (ca. 160 ed. al giorno) • ma quanta informazione su altri supporti? 22
How much information is there? Dati tratti da How much information di Hal Varian e Peter Lyman <http: //www. sims. berkeley. edu/research/projects /how-much-info-2003/>
Information • Stored Information (physical media) – – Print Film Optical Magnetic • Communicated (channels) – – Internet Broadcast Phone Mail 24
Unità di misura How big is an Exabyte? (R. Williams, Data Power of Ten) 25
Table 1. 1: How Big is an Exabyte? Kilobyte (KB) 1, 000 bytes OR 103 bytes 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. Megabyte (MB) 1, 000 bytes OR 106 bytes 1 Megabyte: A small novel OR a 3. 5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. Gigabyte (GB) 1, 000, 000 bytes OR 109 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. Terabyte (TB) 1, 000, 000 bytes OR 1012 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U. S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. Petabyte (PB) 1, 000, 000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U. S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. Exabyte (EB) 1, 000, 000 bytes OR 1018 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. 26
Summary of findings 1. Print, film, magnetic, and optical storage media produced about 5 exabytes of new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks. 2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years. 3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the information sent and received in telephone calls - including both voice and data on both fixed lines and wireless. • Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years. . . 27
Print • Annual Production (1999) – – – Books 968, 735 = 8 Terabytes (compressed image) Newspapers 22643 = 25 Terabytes Journals 40000 = 2 Terabytes Magazines 80000 = 10 Terabytes Office Documents 195 Terabytes – TOTAL 240 Terabytes (1200 scanned, 24 text) 28
Print • Library of Congress Printed book collection – About 18 Million books = About 130 Terabytes (compressed image) – For all of LC we should also assume • • • 13 M photographs, 5 MB each = 65 TB 4 M maps, say 200 TB 500 K files, 1 GB each = 500 TB 3. 5 M sound recordings, ~2000 TB Grand total: 3 petabytes (~3000 terabytes) 29
Film and Image • Annual Production (1999) – Movies = 16 Terabytes (Commercial Production of about 4000 films) – Photographs = 410 Petabytes – X-Rays = 17. 2 Petabytes 30
Optical Media • Annual Production (1999) – CDD-Music 90, 000 items = 58 TB – CD-ROM 1, 000 items = 3 TB – DVD-Video 5, 000 items = 22 TB – TOTAL 83 TB (total compressed 29 TB) 31
Magnetic Media • Annual Production (1999) – Audio Tape 184, 200, 000 = 184. 2 Petabytes – Video Tape 355, 000 = 1420 – Floppy disks = 0. 07 – Removable disks = 1. 69 – Hard Disks = 500 32
Table 1. 2: Worldwide production of original information, if stored digitally, in terabytes circa 2002. Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed. Storage Medium 2002 Teraby tes Upper Estima te 2002 Teraby tes Lower Estima te 19992000 Upper Estima te 19992000 Lower Estima te % Chan ge Uppe r Esti mate s 1, 634 327 1, 200 240 36% Film 420, 25 4 76, 69 431, 69 0 58, 209 -3% Magnetic 51871 30 3, 416, 230 2, 779, 760 2, 073, 760 87% 103 51 81 29 28% 5, 609, 121 3, 416, 281 3, 212, 731 2, 132, 238 74. 5 % Paper Optical TOTAL: Source: How much information 2003 33
Internet Hosts (000 s) 1989 -2006 Source: Vint Cerf 34
Users on the Internet (1999) • CAN/US - 90. 65 M • Europe - 40. 09 M • Asia/Pac - 26. 97 M • Latin Am - 5. 29 M • Africa - 1. 14 M • Mid-east - 0. 88 M ------------- • Total - 165 M Source: Vint Cerf 35
2002: Around the world about 600 million people have access to the Internet, about 30% of them in North America. World Distribution of Internet Users (in millions) Africa 6. 31 Asia Pacific 187. 24 Europe 190. 91 Middle East Canada and USA Latin America 5. 12 182. 67 33. 35 36
37
According to Nielsen/Net. Ratings, the average Internet user in 2002 spended 11 hours and 24 minutes online per month; the average user in the United States more than twice that amount of time online: 25 hours and 25 minutes at home and 74 hours and 26 minutes at work. In the United States, Internet access is used to send email (52%), get news (32%), use a search engine to find information (29%), surf the web (23%), do research for work (19%), check the weather (17%) or send an instant message (14%) (Source: Pew Internet and American Life Project). 38
Language Distribution of Web Content Source: Jack Xu: Excite 39
Language Distribution on a 634 Million Web Pages Corpus 40
Information Overload • “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all. ” (W. H. Auden) Cerchiamo l’espressione “information overload” in <www. google. it>. Quanti risultati otteniamo? 41
Prossimamente • Ancora sull’informazione 42
- Slides: 42