ETOjelzetek posztkoordinlt visszakeresse Piros Attila Tmavezet Dr Boda
ETO-jelzetek posztkoordinált visszakeresése Piros Attila Témavezető: Dr Boda István
Cél n Olyan indexelő és kereső algoritmus és azt megvalósító program kidolgozása, ami lehetővé teszi dokumentumok tartalmi feltárását és visszakeresését az Egyetemes Tizedes Osztályozás felhasználásával.
Miért az ETO? n Egyetemes, minden szakterületre kiterjedő, hierarchikus rendszer 0 – Általános tartalmú írásművek. 00 – A tudomány és kultúra legáltalánosabb alapjai. 004 – Számítástechnika. 004. 4 – Szoftver. Program. 004. 42 – Programozás. 004. 422 – Programok elemei. 004. 422. 3 – Változó. 004. 422. 35 – Változó deklaráció. 004. 422. 352 – Explicit változó deklaráció.
Miért az ETO? n Rugalmas – A hierarchiában nem szereplő fogalmak leírására általános és speciális alosztások rendszere áll rendelkezésre § 510. 6+510. 2(075. 8)(47+51)=161. 1 Matematikai logika és halmazelmélet. Egyetemi tankönyv orosz nyelven. § 004. 451. 7: 004. 7 Osztott idejű adatfeldolgozás számítógépes hálózatokban. – Névalosztások is használhatók § 004. 655. 3 T-SQL Szabványos lekérdező nyelv (SQL) – T-SQL § 004. 912=93 C++ -ban írt szövegszerkesztő program – Bővíthető más osztályozási nyelvből vett jelzetekkel
Miért az ETO? n Világszerte elterjedt és használt – Egyike a világ két legelterjedtebb osztályozási rendszerének – A táblázatok legalább 51 nyelvre le vannak fordítva – Több, mint száz éve használják (Magyarországon is) dokumentumok tartalmi feltárására § Létező nagy gyűjtemények vannak már feldolgozva vele § Olyan rendszerre van szükségünk, ami már rögzített jelzetek feldolgozására (retrospektív konverzió) is alkalmas – Folyamatosan karbantartott és aktualizált
Miért az ETO? n Online elérhető: – egyelőre csak 2. 600 osztály, 51 nyelven (magyarul is!) – UDC Summary (böngészhető) http: //www. udcc. org/udcsummary – UDCS Linked Data, letölthető SKOS (XML/RDF) formátumban: http: //udcdata. info/ – Minden osztály és alosztás (műveletek is) saját URI-al rendelkezik
Eddigi megoldások n n Csak részmegoldások vannak Ok: az ETO természetes nyelvi jellege, a szabályainak ebből adódó bonyolultsága és következetlensége Például: – műveletek használhatósága és jelentése táblázatonként változó § Pl. összekötés, viszonyítás, aposztróf – részjelzetek határa és szerepe nem mindig egyértelmű § szempont szerinti általánosan közös alosztások és speciális alosztások § számjelzetes speciális alosztások § pont-nullás alosztások (372. 814. 08 – világnézet alapja tantárgy)
Megoldástípusok n Prekoordináció: – Jelzetelemek manuális kiemelése. – Így működtek az offline szakkatalógusok is. – Hátrányai: § Nem automatizálható § Intervallumok kezelésére alkalmatlan (megfelelő kereső algoritmus megoldhatná) § Csak a kiemelt jelzetek kereshetők, minden más elvész a kereső számára § Nagy az indexelő felelősége
Megoldástípusok n Jelzetelemek egyesével történő bevitele: – A rendszer nem a kész ETO-szám beírását várja el, hanem az egyes jelzetelemek megadását. – Előnye: § böngészhetővé tehetők az elemek, ami megkönnyítheti az indexelést – Hátrányai: § Körülményes a jelzetbevitel § Nem automatizálható § Nem kezeli eléggé az ETO rugalmasságát (több azonos típusú alosztás, alosztások műveletei stb. )
Megoldástípusok n Keresés csonkolással: – Hátrányai: § A kereső személyre nagy terhet ró az ETO rugalmassága miatt (mindig számba kell venni minden lehetőséget, alaposan ismerni kell az ETO-t és a rendszert (!) is) § nagyon lassúak ezek a keresések, és indexszel sem gyorsíthatók § intervallumok kezelése lehetetlen (visszahívás sérül) § számok egymáshoz való kapcsolódása (tehát az az információ, hogy pl. melyik alosztás melyik részjelzethez kapcsolódik) elvész (nagy a zaj, a precízió sérül) § mivel az ETO maga is hierarchikus rendszer, egy kereső algoritmusnak ezt csonkolás nélkül is kezelnie kell.
Cél n Olyan módszert adni a jelzetek eltárolására és visszakeresésére, amely a lehető legnagyobb pontosságú és teljességű találati listát eredményezi anélkül, hogy akár a indexelőtől akár a keresőtől az elmentendő illetve visszakeresendő jelzetek szabályos elkészítésén vagy kiválasztásán túl bármiféle erőfeszítést igényelne (mint például a fontosnak vélt jelzetelemek kiemelését, a jelzetek csonkolását, permutációját vagy a szabványos jelzetelemek más karakterrel történő helyettesítését). n A hatékonyság empirikus vizsgálata.
Teendők n ETO által felvetett kérdések és problémák elemzése: – A jelzeten belül milyen információkat kell figyelembe venni és invertálni illetve elmenteni – Mire kell figyelni a jelzetek elemzésekor, milyen problémák lehetnek Kész (jöhetnek elő új kérdések, az ETO is változik)
Teendők n Automata elkészítése: – Véges automata, bemenő jelei az index karakterei, kimenet egy XML, ami reprezentálja a jelzetet. Diagram kész, implementáció folyamatban n XML séma definíció: – Elsősorban technikai célt szolgál – A UDC Summary URI-ainak segítségével felhasználható a komplex jelzetek összekötésére a UDC Linked Data-val A séma definíció készen van
Teendők n Az adatok adatbázisba mentése Alapelvek le vannak írva n Keresés részletes kidolgozása és implementálása Alapelvek le vannak írva
Irodalomjegyzék n n n n n Adatbázis transzformációalapú kereshetőségjavítása: ETO-kereshetőség a BME OMIKK Aleph rendszerében / Marton József; Prokné Palik Mária. - Bp. : TMT, 56. évf. (2009) 2. sz. Egyetemes Tizedes Osztályozás. – Bp. : OSZK-KI, 2005. Az ETO alkalmazása a gépesített dokumentációs és könyvtári munkában / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp. : Tankönyvkiad. , 1988. Az ETO az Országos Széchényi Könyvtár számítógépes rendszerében / Zöldi Péter. – In: Könyvtári Figyelő, 1993. 3. sz. http: //ki. oszk. hu/kf/1993/10/az-eto-az-orszagos-szechenyi-konyvtar-szamitogepes-rendszereben Bevezetés az információkereső nyelvek elméletébe és gyakorlatába. – B. Hajdu Ágnes; Babiczky Béla. – Bp. : Universitas kiad. , 1998 Észrevételek egy ETO-ról szóló tanulmányhoz / Ungváry Rudolf. – In: Könyvtári Figyelő, 2011. 2. sz. http: //ki. oszk. hu eszrevetelek-mandy-gabor-tanulmanyahoz http: //ki. oszk. hu//kf/2011/07/eszrevetelek-mandy-gabor-tanulmanyahoz Könyvtári feldolgozó munka : Osztályozás és szakkatalógus szerkesztés / Babiczky Béla – Bp. : Tankönyvkiadó, 1975. Könyvtári információkeresés / Ungváry Rudolf, Vajda Erik. – Bp. : Typotex, 2002. Könyvtári osztályozási segédletek : a segédkönyvtárosképzés céljára / Mándy Gábor. - http: //etotanf. x 3. hu Kutatási tervezet az ETO-nak mint gépesített referencia-keresőrendszer indexelési nyelvének kiértékelésére / Orosz Gábor. – In: Szöveggyűjtemény az osztályozás és indexelés kérdéseinek tanumányozásához. – Bp. : Tankönyvkiad. , 1988. – p. 231 -233 Régi ETO, új ETO / Mándy Gábor. – In: regi-eto-uj-eto// In: Könyvtári Figyelő, 2011. 2. sz. - http: //ki. oszk. hu//kf/2011/07/regi-eto-uj-eto Research Project for the Evaluation of the UDC as the Indexing Language for a Mechanized Reference Retrieval System: Progress Report for the Period July 1, 1965 -January 31, 1966 / Pauline Atherton Cochrane; Robert R. Freeman UDC Summary Linked Data. - http: //udcdata. info/ UDC as Linked Data. – In: UDC Blog, 2012. 08. 26. - http: //universaldecimalclassification. blogspot. hu/2012/08/udc-as-linked-data. html UDC Summary. - http: //www. udcc. org index. php http: //www. udcc. org//udcsummary/php/index. php Könyvtárosok kézikönyve : 2. kötet / Horváth Tibor; Papp István Az Egyetemes Tizedes Osztályozás (ETO) alapelvei, reviziójának és kiadásának szabályai / Csengődy Eszter. – Budapest: OMIKK, 1983 Szemléletváltozás az ETO jelzetszerkesztésében / Babiczky Béla. – In: Könyvtári Figyelő, 1985. 1. sz.
Köszönöm a figyelmet.
- Slides: 16