Bibliometrija Kvantitativni aspekti prometa informacija U okviru Bibliotekarstva
Bibliometrija
Kvantitativni aspekti prometa informacija • U okviru Bibliotekarstva i informatike kao i srodnih disciplina (npr. sociologija nauke) razvijene su mnoge teorije i metodologije koje se odnose na kvantitativne aspekte generisanja, organizovanja, širenja i korišćenja informacija od strane različitih korisnika u različitom kontekstu. • Istorijski, do ovog razvoja je došlo u prvoj polovini dvadesetog veka i on se zasnivao na statističkom istraživanju bibliografija i naučnih časopisa. • Tako su otkriveni neki poznati zakoni.
Koliko različitih metrika postoji? • “Bibliometrics, ” “scientometrics, ” “informetrics, ” “webometrics, ” “netometrics, ” “cybermetrics”: metrologija naučne komunikacije koristi mnoge termine da ukaže na različita istraživačka područja koja je teško razdvojiti. • Najlakše bi bilo ako bi mogla da se uspostavi direktna hijerarhijska veza među njima: bibliometrija vodi u sajberometriju preko scientometrije i informometrije. • Ali, situacija je mnogo složenija. Cilj svakog istraživačkog područja je da analizira, kvantifikuje i izmeri fenomen komunikacije da bi izgradio tačnu formalnu reprezentaciju njegovog ponašanja radi razumevanja, evluacije ili u administrativne svrhe. • Razlike žele u redosledu i broju faktora i u međama objekta koji se „meri“.
Bibliometrija • Vezana je za tradicionalne studije bibliotekarstva; • Termin “bibliometrics“ – bibliometrija – koji je skovao Alan Pričard (Alan Pritchard) u kasnim 1960 -tim, naglašava materijalni aspekt merenja: broje se knjige, radovi, publikacije, citati, i uopšte svaka statistički značajna manifestacija zabeležene informacije, nezavisno od granica među disciplinama. • Pričardova definicija glas. I: “BIBLIOMETRIJA, to jest, primena matematičkih i statističkih metoda na knjige i druge medije komunijacije“. • Alan Pritchard, “Statistical Bibliography or Bibliometrics? ” Journal of Documentation 25, no. 4 (1969): 349. • Iste godine, ovu Pričardovu definiciju je preformulisao drugi istraživač kao: „kvantitativna obrada osobina zabeleženog govora i ponašanja koje ga karakteriše“ • Robert A. Fairthorne, “Empirical Hyperbolic Distributions (Bradford-Zipf-Mandelbrot) for Bibliometric Description and Prediction, ” Journal of Documentation 25, no. 4 (1969): 319.
Scientometrija • Nasuprot tome, naglasak “scientometrics” – scientometrije – je na merenju specifične vrste informacije, ona informacije koja već prošla neku vrstu provere koju je obavio neko za to zadužen i kome se veruje. • U najširem smislu, scientometrija obuhvata sve kvantitativne aspekte modela koji se odnose na proizvodnju i diseminaciju naučnog i tehnološkog znanja. • Polazeći od nekih polaznih pretpostavki šta je nauka i kako se pravo naučno dostignuće može meriti, scientometrija se bavi kvantitativnom i komaprativnom evaluacijom doprinosa kojim naučnici, istraživačke grupe, institucije i države doprinose napretku znanja. • Pri tome su objavljena dokumenta samo neke jedinice koje se analiziraju; tu su i: ljudski rad, oprema, objekti, ekonomska i finansijska ulaganja i povraćaj. • Ali dok god se scientometrijsko istraživanje obavlja preko publikacija i citata, to jest, dok god se bebliometrijske tehnike primenjuju na naučnu i tehničku literaturu, oblasti scientometrije i bibliometrije se velikim delom preklapaju.
Informometrija • Prema jednoj priznatoj definiciji “informetrics” – informometrija – je „izučavanje kvantitavnih aspekata informacija koje mogu biti u ma kom obliku, a ne samo u obliku pisanih zapisa ili bibliografija, i unutar bilo koje društvene grupe, a ne samo među naučnicima. “ • Jean Tague-Sutcliffe, “An Introduction to Informetrics, ” Information Processing & Management 28, no. 1 (1992) • Danas je informacija ključni koncept u različitim konceptima. Prateći računarsku i mrežnu revoluciju naučnici sve više koriste računare i mreže i kao alat i kao metaforu za modeliranje protoka informacija na ma kom nivou i ma koje složenosti, mikrobioloških sistema do crnih rupa. • Naravno, pokušaj merenja informacija u svim njihovim društvenim i prirodnim manifestacijama bilo bi besmisleno.
Informometrija • Ali, svaki put kada su takve manifestacije informacije zabeležene u obliku koji je podesan za sadašnju ili buduću komunikaciju, one ulaze u domene informatičke nauke (informatike) i svim pitanjama koja su prirođena skupljanju, skladištenju, pronalaženju i prenosu njegovih simboličkih izraza može se pristupiti kvantitativno. • Na ovom nivou opštosti, bibliometrijske tehnike se definitivno odvajaju od sveta knjiga i bibliotekarstva i u potpunosti uključuju u carstvo informatike, pod čime se podrazumeva da je podskup razmene informacija koji se odvija u bibliotečkom okruženju samo poseban slučaj procesa proizvodnje informacija koji se može odvrgnuti opštoj matematičkoj obradi. • I ako se nastavi sa ovim uopštavanjem, informometrija se može posmatrati kao nadskup koji obuhvata sve druge metrike dok god se one bave prebrojavanjem nekog tipa informacija.
Vebometrija • U svetu digitalnih mreža, “webometrics” – vebometrija – čiji su srodni termini “netometrics” i “cybermetrics” – sajbermetrija – označava proširenje informetričkih metoda i koncepata na transakcije informacija koje se odvijaju na internetu. • Sve dok su te transakcije negde zabeležene, trajno ili privremeno, domen vebometrike se preseca sa domenom bibliometrije, a sve dok se naaliza usredsređuje na sajber tragove naučnih i tahnoloških transakcija, njen domen se preseca i sa domenom informometrije. • Lennart Björneborn i Peter Ingwersen, dva pionira vebometrije takođe predlažu da se pravi razlika između kvantitativnog izučavanja veb resursa (vebometrija u užem značenju) i opštije kvantitativne analize svih internet aplikacija (sajbermetrija). • Björneborn and Ingwersen, “Toward a Basic Framework for Webometrics, ” Journal of the American Society for Information Science and Technology 55, no. 14 (2004): 1217– 18, www. db. dk/binaries/Perspectives. Webometrics-Jasist. pdf.
Odnos između različitih „metrika“ • Odnos između različitih polja unutar LIS-a infor/biblio-/sciento-/cyber/webo-/metrics. (veličine elipsi koje se preklapaju se razlikuju samo zbog jasnije vizuelizacije) • Björneborn, L. (2004). Small-world link structures across an academic web space: a library and information science approach. Det Information svidenskabelige Akademi Danish School of Library and Information Science, Institut øst.
Nešto sasvim novo –altmetrics • Alternativna metrika; • U naučnom izdavaštvu altmetrics - altmetrija – je netradicionalna metrika koja se predlaže kao alternativa za tradicionalne mere koje se zasnivaju na citiranosti (citation impact), kao što su imapkt faktor i h- indeks. • Ovaj termin je predložen 2010. kao uopštenje mera vezanih za radove i njegov koren je u #altmetrics heštagu (hashtag). • J. Priem, D. Taraborelli, P. Groth, C. Neylon, altmetrics: a manifesto, 2010, http: //altmetrics. org/manifesto/ • Iako je altmerija počela kao metrija članaka, primenjuje se i na ljude, knjige, časopise, baze podataka, prezentacije, video, repozitorijume izvornih kodova (programa), veb stranice, itd. • Na početku, altmetrija nije pokrivala metriku citiranja. • Danas ona pokriva druge uticaja nekog rada, kao što je koliko baza podataka i zanja se referiše na njega, koliko puta je članak pregledan, preuzet ili pomenut u društvenim i novinskim medijima.
Podela zaduženja – prezentacije od pola sata • Tradicionalna bibliometrija – mere • Milena Obradović i Milica Ninković • Scientometrija i Informometrija • Marija Panić • Vebometrija • Mihailo Škorić • Altometrija • Petar Popović
Nagoveštaj preokreta u kvantitativnom izučavaju prometa informacija • Klasifikovanje i prebrojavanje naučnika, knjiga, radova i citata, kao što su radili rani bibliografi je ostajala prilično improvizovaka aktivnost sve dok se izučavala izvan matematičkog okvira koji bi omogućio da se oktkrije neki smisleni obrazac u obradi dokumenata. • Dvadesetih i tridesetih godina XX veka su otkriveni neki poznati zakoni: Lotka, Bradford i Zipf su koristili jednostavne matematičke formule i grafička sredstva koji odražavaju empirijsku vezu koja postoji između izvora i stavki koje oni proizvode u tri domena: • Autori proizvode radove; • Časopisi proizvode radove na datu temu; • Tekstovi proizvode reči s nekom frekvencijom.
Ko je bio Alfred Lotka? • Rođen je u Lavovu (Poljska) koji je tada bio deo Austrougarske. • Američki naučnik – matematičar, statističar i fizikohemičar – koji je postao poznat po svojim radovima u oblasti dinamike populacije (dinamika stanovništva, populaciona dinamika) koja se bavi promenom u broju i strukturi jedne ili više populacija. • Poznat je njegov model nazvan grabljivica-plen do koga je istovremeno ali nezavisno došao naučnik Vito Voltera, i koji je zato poznat kao model Lotka-Voltera. • U pitanju su nelinearne diferencijalne jednačine koje opisuju dinamiku bioloških sistema u okviru kojih dve vrste žive i reaguju, od kojih je jedna grabljivica (predator) a druga plen (pray).
Model Lotka-Voltera • Jednačine imaju periodična rešenja koja se ne mogu jednostavno izraziti uobičajenim trigonometrijskim funkcijama. • Pretpostavimo da imamo dve životinjske vrste, babune (plen) i geparde (grabljivice). Neka su početni uslovi da ima 80 babuna i 40 geparda, onda se može nacrtati progesiona funkcija ove dve vrste u vremenu. Izbor vremenskog intervala je proizvoljan. "Volterra lotka dynamics". Licensed under CC BY-SA 3. 0 via Commons – https: //commons. wikimedia. org/wiki/File: Volterra_lotka_dynamics. PNG#/media/File: Volterra_lotka_dynamics. PNG "Cheetah Baboon LV" by Elb 2000 (talk) (Uploads) - Own work. Licensed under Public Domain via Wikipedia – https: //en. wikipedia. org/wiki/File: Cheetah_Baboon_LV. jpg#/media/File: Cheetah_Baboon_LV. jpg
Lotka’s law – Lotkin zakon • Odnos između autora i radova - distribucija radova po autorima • LOTKA, A. J. (1926), The frequency distribution of scientific productivity, Journal of the Washington Academy of Science, 16 (12) : 317– 323. • On je pokušao da utvrdi koliko su načunici različitog kalibra uključeni u prve redove borbe za „vidljivost“ u svetu naučne komunikacije, doprinosili napretku znanja. • Lotka je klasifikovao, prema broju autorskih publikacija, naučnike koji su se našli u indeksu Chemical Abstracts (1907– 1916) i u Geschichtstafeln der Physik (koji pokriva sve napisano do 1900. iz fizike), a brojanje je uključivalo starije autore u slučaju radova koje je pisalo više autora.
Lotka’s law – Lotkin zakon • Originalno je Lotka ovaj zakon formulisao na sledeći način: • Eksperimentalni podaci (dobijeni prebrojavanjem) se iscrtavaju na log-log skali (dvostruka logaritamska skala, vrednosti su „logaritmovane“ i na x i na y osi – monomi oblika y=a∙xn se na ovoj skali prikazuju kao prave linije); • Učestalost autora koji su objavili 1, 2, 3 itd. radova (y vrednost) se iscrtava prema brojevima radova 1, 2, 3 itd. (x vrednosti); • Lotka je uočio da „tačke u ravni koje predstavljaju dve promenljive iz uzorka se pojavljuju prilično blizu rasute oko prave linije koja ima nagib otprilike dva prema jedan. “ • Tako je formulisan originalan Lotkin zakon: • Broj autora koji su objavili n radova je približno jednak 1/n 2 broja autora koji su napisali samo jedan rad.
Lotka’s law – Lotkin zakon • Jednostavnim rečima rečeno, to znači da ako je 60 autora od njih 100 iz neke naučne oblasti napisalo samo jedan rad onda je 15 autora od njih 100 napisalo 2 rada, 7 autora do 100 je napisalo 3 rada i tako dalje. • Nuačna produktivnost, prema tome, nije podjednako raspodeljna; samo mali broj naučnika je veoma produktivan dok je mnogo više onih koji objavljuju malo. • Kasniji empirijski testovi su pokazali da elsponent u imenicu – poznat kao „Lotkin eksponent“ – ne mora da bude baš 2 i kreće se u rasponu od 2 do 4. • Tako se dobija opštiji oblik Lotkinog zakona: • p(n) = C/na • gde je p broj autora koji su napisali n radova, a C je konstanta koja zavisi od istraživačke oblasti.
Lotka’s law – Lotkin zakon broj radova broj autora 10 1 9 1 8 2 7 2 6 3 5 4 4 6 3 11 2 25 1 100/102 1 100/92 1. 23 100/82 1. 56 100/72 2. 04 100/62 2. 77 100/52 4 100/42 6. 25 100/32 11. 111. . . 100/22 25 100/12 100 • Neka je 100 autora napisalo jedan rad u nekom vremenskom periodu, i pretpostavimo da je C=1 i n=2; • To bi značilo da je ukupno 293 radova napisalo 155 autora, što u proseku daje 1. 9 radova po autoru.
Lotka’s law – Lotkin zakon broj autora log autori 120 7 6 100 5 80 4 60 3 40 2 20 0 1 10 9 8 7 6 5 4 3 2 1 0 0 0, 5 1 1, 5 2 2, 5 3 3, 5
Ko je bio Bradford? • Samuel Clement Bradford (1878 -1948); • Bio je matematičar, bibliotekar i dokumentalista, radio je u Londonskom Muzeju nauke; • Njegov ideal je bio zajednički katalog sveg ljudskog znanja koji bi naučnicima omogućio da imaju bibliografsku kontrolu nad tehničkom i naučnom dokumentacijom; • Najveći problem da se to postigne bila je, po njegovom mišljenju, nemogućnost onovremenih servisa za apstrahovanje i indeksiranje da ovladaju „haosom dokumentacije“ tako što bi smestili dostupnu literaturu u homogenu mrežu predmetnih odrednica. • Kao rezultat fragmentiranosti i nedostatka standarda informacione usluge su bile lošeg kvaliteta i napori su se nepotredno duplirali.
Bradfordov zakon • „Ispitivanje ovih apstrakata je pokazalo da se oni odnose samo na oko 280, 000 različitih radova, pri čemu je svaki rad bio apstrahovan u proseku 2, 7 puta. To znači da je manje od polovine korisnih radova apstrahovano u časopisima s apstraktima, što znači da zapisi o više od polovine otkrića i inovacija leži na policama neprimećeno. “ • Bradford, S. C. (1934). Sources of information on specific subjects. Engineering, 26, p. 85 -86. • U pokušaju da utvrdi šta je uzrok lošem indeksiranju on je krenuo, kao prvo, da ustanovi kako su radovi razbacani po naučnim časopisima.
Bradfordov zakon • On je analizirao dve bibliografije iz domena geofizike: • Current Bibliography of Applied Geophysics (1928– 1931) and • Quarterly Bibliography of Lubrication (1931– 1933) • I ustanovio sledeće: • Ako se časopisi koji su relevantni za neku oblast poređaju u opadajućem redosledu njihove produktivnosti, i izbroji se broj radova objavljen u svakom od njih, rezultat će biti jezgro ili nukleus od nekoliko časopisa koji doprinose objavljivanju najvećeg broja radova iz date oblasti, a za njima slede druge grupe u kojima je isti broj članaka ako i u jezgru, ali oni su razasuti po sve većem broju časopisa.
Bradfordov zakon - primer • U slučaju bibliografija iz geofizike Bradford je ustanovio: • U prvoj grupi (nukleusu) je bilo 9 naslova koji su doprineli oblasti sa 429 radova; • U sledećoj grupi je bilo 59 časopisa koji su dorpineli sa 499 radova • U poslednjoj grupi je bilo 258 naslova koji su dorpineli sa ukupno 404 reference. • Svaka od ovih grupa časopisa je prema tome proizvela približno isti broj radova (iako ne isti). Broj časopisa potreban da se dobiju ovi odnosi bi se ovako mogao izraziti: • 9 naslova je u jezgru najproduktivnijih izvora; • 9 ∙ 5 naslova je u drugoj grupi (45 naslova, što je prihvatljiva aproksimacija za 59); • 9 ∙ 5 = 9 ∙ 52 naslova u trećoj grupi (225 naslova, što je prihvatljiva aproksimacija za 258).
Formulacija Bradfordovog zakona • Prema tome, odnos grupa naslova koji dorpinose približno istim brojem radova u nukleusu i zonama koje slede bi mogao da se zapiše ovako • 9 : 9 ∙ 52 • U opštem slučaju — u kome, na primer, broj naslova u jezgru nije 9 i množilac nije 5 — ako podelimo ceo izraz sa 9, zamenimo 5 s promenljivom m i ne ograničimo se na samo tri zone, rezultat je formula • 1 : m 2 : . . . • Ovde je m “Bradfordov množilac” i on zavisi od kolekcije časopisa; Bradford je priznavao da to “sigurno nije konstanta, ” njegova hipoteza je bila da se može aproksimirati konstantom, bar za veće grupe.
Formulacija Bradfordovog zakona • Ovaj niz odnosa govori da je najveći broj članaka na datu temu koncentrisan u malom skupu jezgra časopisa dok su ostali razbacani po drugim časopisima i to na takav način da ako se skup relevantnih radova podeli u grupe ili zone koje sadrže isti broj stavki kao i jezgro, biće potreban sve veći broj časopisa da se te zone popune, a taj broj eksponencijalno raste. • Grafički prikaz ovog zakona se dobija na sledeći način: časopisi se rangiraju 1, 2, 3, . . . , n u opadajućem redu njihove produktivnosti i smeštaju na x osu na uobičajenu logaritamsku skalu, a zatim se kumulativne sume R(n) članaka objavljenih u prvih n časopisa smešta na y osu. • Kao rezultat se dobija rastuća konveksna kriva, daleko od prave linije, ali koja se ipak u velikom delu opsega može aproksimirati pravom linijom.
Grafički prikaz Bradfordovog zakona Bradfordova distribucija: izvori su rangirani u opadajućem redosledu produktivnosti Dok je logaritam ranga označen na x osi
Uticaj Bradfordovog zakona • Iako baš i nema objašnjenja zašto je to tako, Bradfordov zakon se pokazao dosta korisnim za bibliotekare; • Njegov uticaj je bio mnogo veći, ali je došao kasnije. Eugen Garfild iz Instituta za naučne informacije (Institute for Scientific Information – ISI) inspirisan Bradfordovim zakonom i čuvenim radom Vanevera Buša As We May Think je 1960. razvio obuhvatan indeks koji pokazuje kako se naučno mišljenje širi. • Negov Naučni citatni indeks (Science Citation Index - SCI) je učinio da se lako identifikuju naučnici koji su zaista doprineli nauci, i časopisi koji su to objavili. Tako je otkriveno, što mnogi nisu očekivali, da mali broj časopisa, kao što su Nature i Science, predstavljaju jezgro prirodnih nauka. Isti obrazac se nije potvrdio u humanističkim i društvenim naukama.
Ko je Judžin Garfild? • Eugene Garfield (1925 - ); • Američki lingvista i biznismen koji se smatra osnivačem bibliometroije i scientometrije; • Studirao i doktorirao na Pnesilvanijskom univerzitetu; • Osnovao je Institut za naučne informacije koji je danas najvažniji naučni deo kompanije Thompson Reuters. • Smatra se zaslužnim za mnoge bibliografske proizvode kao što su Current Contents, Science Citation Index (SCI), i druge citatne baze podataka, Journal Citation Reports i Index Chemicus.
Istraživanje Judžina Garfilda • Garfild je reafirmisao vrednost Bradfordovog zakona i na osnovu podataka dobijenih iz SCI (1969) i Current Abstracts of Chemistry and Index Chemicus (1969), proširio njegovo polje primene sa jedne discipline na nauku kao celinu. • Eugen Garfield. “Citation Indexes—New Paths to Scientific Knowledge. ” The Chemical Bulletin 43, no. 4 (1956): 11. www. garfield. library. upenn. edu/papers/31. html. • Njegova empirijska istraživanja citiranosti časopisa su otkrila da se nauka može shvatiti kao super skup područja raznih disciplina koja se presecaju i preklapaju na razne načine očuvavajući pri tome relativno malo, multidisciplinarno jezgro izvora dokumenata.
Garfildov zakon • On je pisao: • „Preklapanje između disciplina je, u stvari, tako veliko da jezgro literature za sve naučne discipline uključuje najviše 1000 časopisa, a može da ih ima i samo 500. “ • Eugen Garfield. Citation Indexing: Its Theory and Application in Science, Technology, and Humanities. Philadelphia: ISI Press, 1983. www. garfield. library. upenn. edu/ci/title. pdf. • Opažanje da se u svakom naučnom polju radovi koncentrišu unutar iste grupe multidisciplinarnih časopisa je Garfild uobiličio u novi opšti zakon – Garfildov zakon koncentracije. • On sam je smatrao da je to pre aksioma nego zakon u strogom, naučnom smislu.
Uticaj Garfildovog zakona • Zakon koncentracije je izvršio uticaj na pronalaženje informacija i evaluaciju tako što je legitimizovao ideju da nasuprot mitu o naučniku koji je preplavljen mnoštvom informacija razbacanih po gomili literature koja stalno raste, ograničen broj časopisa proizvodi najveći deo relevantnih naučnih rezultata u svakom naučnom polju. • Ovaj zaključak dramatično redukuje dimenzije virtualno beskonačnog univerzuma dokumenata koji je takav da je svaki pokušaj da se postigne potpuna pokrivenost (npr. nabavke biblioteka) finansijski neodrživ i konceptualno pogrešan. • Prema tome, multidisciplinarni ideksi kakvi su CC i SCI, čiji su kriterijumi za odabir izvora otvoreno inspirisani Bradfordovim pretpostavkama, mogu s pravom da se pozivaju na veću efikasnost u pronalaženju zaista relevantne literature od bilo kog indeksa koji je specifičan za neki poseban domen.
Veza Grafildovog zakona sa prethodnim istraživanjima • Britanski bibliotekar Donald Erkart (Urquhart, 1909 -1994) • Radio je u Biblioteci Muzeja nauke, u Odseku za naučno i industrijsko istraživanje, osnovao je National Lending Library for Science and Technology (NLLST), koja je postala i ostala jedan od najvećih svetskih centara za nabavku dokumentacije. • On, navodno, sebe nije smatrao bibliotekarom i uživao je tokom celog života da provocira bibliotečku profesiju; • Pravilnost sličnu onoj koju je formulisao Garfild za časopise je uočio Erkart u domenu bibliotečkih servisa. • Analizirajući međubibliotečke pozajmice časopisa iz Biblioteke Muzeja nauke u 1956, Erkart je utvrdio da manje od 10% stavki pokriva oko 80% potražnje, i predložio je Poasonovu distribuciju kao prihvatljiv stohastički model za cirkulaciju.
Erkartov zakon • Pošto je broj međubibliotečkih pozajmica svakog časopisa pokazao veliku pozitivnu korelaciju sa posedovanjem istih naslova u najznačajnijih Britanskih biblioteka, Erkart je uopštio rezultate u zakon koji tvrdi da je broj međubibliotečkih pozajmica časopisa pouzdana mera njihovog ukupnog korišćenja. • Relativno mali skup časopisa zadovoljava većinu zahteva unutar i među bibliotekama i sastoji se od uvek istog jezgra časopisa koje uglavnom ima većina akademskih biblioteka. • Kasniji radovi su pokazali da fenomen korišćenja izvora u bibliotekama je pod istim snažnim uticajem procesa „kumulativne prednosti“ kao što je slučaj sa izdavanjem i citatima, pa se s pravom veruje da su njihovim asimetričnim obrascima rukovode isti zakoni koji važe, na primer, u slučaju socijalne stratifikacije stipendija za školovanje (u SAD-u).
Dobre i loše strane Garfildovog i Erkartovog zakona (tj. njihove primene) • Dobra strana: mogućnost da se uspostavi tehnički i finansijski ostvarivo praćenje izvrsnosti – onoga što je stvarno bitno – u džungli naučnih informacija; da je Bradfordov zakon stvarno pogrešan, ne bi postojao SCI i ne bi bio tako koristan za evaluaciju u bibliometriji. • Loša strana: sklonost da se ponavlja i teorijski opravdava postojeće stanje stvari – koje karakteriše nefer alokacija društvenog i ekonomskog kapitala – tako što se ponavlja priča koju Grafildovi citatni indeksi treba da dovedu do logičnog završetka, a to je priča o stratifikovanoj naučnoj literaturi koju proizvodi stratifikovana zajednica u kojoj je naučna izvrsnost ograničena na nekoliko umova koji žive i rade u nekoliko institucija i koji isporučuju plodove svoje kreativnosti u nekoliko veoma kvalitetnih međunarodnih časopisa, koji se apsolutno moraju nabaviti, a koje poseduje sve manji broj multinacionalnih korporacija koje neprikosnoveno vladaju globalnim informatičkim tržištem.
Ko je bio Džordž Zipf? • George Kingsley Zipf (1902– 1950); • Američki lingvist i filolog koji je izučavao statističke pojave u mnogim jezicima; • Bio je harvardski đak, studirao i na nemačkim univerzitetima, a potom profesor nemačkog na Harvardu; • Osim jezika izučavao je i demografske pojave pa se mnoge osobine velikih kolekcija podataka (kao što je distribucija dohotka među državama) mogu objasniti rezultatima njegovih sitraživanjima; • Najpoznatiji je po Zipfovom zakonu.
Zipfov zakon • Na prvi pogled Zipfov zakon nema mnogo veze sa Lotkinim, Bradfordovim i Grafildovim zakonom jer nije vezan za tradicionalne, spoljašnje činioce dokumentacionog scenarija – autori, radovi, časopisi, citati; • On se odnosi na unutrašnji i u priličnoj meri skriveni čin generisanja i oblikovanja lingvističkog izraza pisanog teksta ili govornog iskaza iz ma kog domena. • Distribucija frekvencije reči je već i pre Zipfa privlačila pažnju statističara pre svega zato što za razliku od drugih asimetričnih distribucija koje se javljaju u prirodi i društvu kod nje se javlja veliki broj retkih, malo verovatnih događaja (reči). Osim toga ona pruža spremno empirijsko okruženje kada treba da se potvrdi efekat nenasumičnog ponašanja koje je karakteristično za ljudski govor na probabilističke modele koji su prožeti pretpostavkama o nasumičnosti.
Istraživanja koja su prethodila Zipfovom zakonu • Vezana su za radove ruskog matematičara Andrejeviča Markova (1856– 1922) koji je danas najviše poznat po tzv. Markovljevim lancima; • Markovljevi lancu su (najjednostavnije rečeno nasumični proces prelaska iz jednog stanja u drugo kod koga distrubicija verovatnoće prelaska u naredno stanje zavisi samo od tekućeg stanja a ne od niza događaja koji su prethodili. ) • Da bi ilustrovao lance Markov ih je primenio na distribuciju samoglasnika i suglasnika u Puškinovoj poemi „Evgenije Onjegin“. • Markov je izučavao niz od 20. 000 iz ovog Puškinovog dela i utvrdio da je verovatnoća vokala p = 0, 432, verovatnoća da vokal sledi iza vokala p 1 = 0, 128, a da je verovatnoća da vokal sledi iz konsonanta p 2 = 0, 663. • Kasnije su otkrivene mnogo značajnije primene Markovljevih lanaca.
Zipfov zakon • Zipf je smatrao da je jezik veoma složen sistem čija se sakrivena može dokučiti kvantitativnim istraživanjem obrazaca koji se koriste u svakodnevnom govoru. • Na osnovu takvih pretpostavki on je izučavao govor kao prirodan fenomen na način na koji se to radi u egzaktnoim naukama direktnom primenom statističkih principa na posmatrani govorni fenomen. • Zipf, George Kingsley. The Psycho-Biology of Language: An Introduction to Dynamic Philology. London: Routledge, 1936. • Zipf nije bio školovan matematičar i da bi podržao rezultate dobijene prebrojavanjem koristio je argumente koji se oslanjaju na neku mističnu silu koja vlada u prirodi. U istoriji nauke nisu retki primeri plodnih istraživačkih programa i validnih naučnih rezultata koji su zasnovani na kontraverznim metafizičkim verovanjima.
Zipfov zakon • Zakon se odnosi na reči iz teksta, i to reči u svojim flektivnim oblicima kako se javljaju u tekst (reči-tokeni, engl. word-tokens), pri čemu je svaka reč-token jedno pojavljivanje odgovarajuće leksičke jedinice ili rečničke odrednice (reč-tip, engl. word-type). • Na primer, u rečenici “child is child, ” javljaju se dva tipa (“child” i “is”) i sedam tokena (sva različita pojavljivanja “child” i “is”), na osnovu čega bi zipovska analiza prebrojala sedam jedinica, u dodelila rang 1 reči-tipu “child” koji se javlja četiri puta, a rang 2 rečitipu “is” koji se javlja tri puta.
Zipfov zakon - formulacija • Zpfov zakon kaže da će u relativno dugačkom tekstu, ako se poređaju reči-tipovi u opadajućem redosledu frekvencija tako da se rang 1 dodeli reči s najvećom frekvencijom, rang 2 reči koja je sledeća najfrekventnija reč i tako dalje, i ako se potom pomnoži svaki rang s brojem pojavljivanja odgovarajućih reči-tokena, proizvod će biti (otprilike) konstanta, bar za vrednosti smeštene u srednjem delu nižih rangova. • Matematički se to izražava kao: r ∙ f = C • Ili ako se izraz logaritmuje logr + logf = log. C • Ako se ovo prikaže na dvostrukoj logaritamskoj skali dobija se grafikon prave linije s nagibom otprilike -1 (opada).
Grafički prikaz Zipfovog zakona Osnovna hiperbolička distribucija veličina-frekvencija prikazana Na dvostrukog logaritamskoj skali
Interpretacija Zipfovog zakona • Najednostavnije govoreći, ovaj zakon govori da se najveći broj reči u tekstu pojavljuje svega nekoliko puta (ili jednom), dok je ograničen broj reči veoma frekventan. • Distribucija reči u tekstu je asimetrična, veoma liči na distribuciju naučnih radova po autorima (Lotka) i radova po časopisima (Bradford). • Zaista, ako se Zipfov zakon napiše u opštijem obliku r. B ∙ f = C gde je B konstanta ≤ 1, jasno je da je broj f pojavljivanja reči s rangom r opadajuća stepena funkcija od r.
Zipfov zakon – primer 1 • Prvo poglavlje romana „Dobri vojnik Švejk“ Jaroslava Hašeka • Ima 3362 token-reči • Pri vrhu najfrekventnijih su: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 101 97 93 70 38 35 31 30 26 je i da u se to na A ne a
Zipfov zakon – primer 1
Zipfov zakon – primer 2 • Kompletan roman „Travnička hronika“ Ive Andrića • Ima 147. 571 token-reč • Pri vrhu najfrekventnijih su: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 10072 6073 3871 3530 3064 1783 1624 1273 1172 1125 i je da u se na su sa kao od (2) (1) (3) (4) (5) (7)
Zipfov zakon – primer 2
- Slides: 46