Bevezets a nyelvtechnolgiba 7 Fordtstmogats sztrak Prszky Gbor
Bevezetés a nyelvtechnológiába 7. Fordítástámogatás: szótárak Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A nyelvtechnológia szerepe a lexikográfiában q A szótárak célja ma § emberek számára készülnek § gépek számára készülnek q Miből hozunk létre ma szótárakat? § semmiből, technikai támogatással § szövegekből, gépi támogatással § meglevő szótár(ak)ból, gépi támogatással q A géppel támogatott szótárkészítés típusai § embernek írt forrásokból, ember számára § embernek írt forrásokból, gép számára § gépi forrásokból, ember számára § gépi forrásokból, a gép számára Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótár helye a fordítási folyamatban Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Az emberi fordítás gépi támogatása Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A fordító számítógépes segédeszközei Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A lektor helye a fordítási munkafolyamatban Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A terminológus helye a fordítási folyamatban Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Leegyszerűsített szótártipológia q Nyomtatott szótárak Elektronikus szótárak q Szótárak Terminológiai adatbázisok q Közvetlen szótárak Közvetett (elektronikus) szótárak q Kétnyelvű szótárak Egynyelvű szótárak Többnyelvű szótárak q A forrásnyelv és a célnyelvek aszimmetriája papír- és elektronikus alapon Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótártípusok Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A nyelvek száma szerint q Ezek voltak először: lexikon, enciklopédia q Mai egynyelvűek: értelmező, nyelvtörténeti, etimológiai, nyelvjárási, szólás-, szleng-, idegen szavak, helyesírási, gyakorisági, ragozási, a tergo (szóvégmutató) szótárak q Kétnyelvűek q Többnyelvűek: valójában párba állított kétnyelvűek q Sőt, az egynyelvűek is két különböző nyelvet használnak: a címszavak és a szócikkek „nyelve, nyelvezete” különbözik Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótárak általános szerkezete q Önálló és utaló szócikkek q Szócikkfej (=a szótári baloldal): címszó, homonimák, alak- és írásváltozatok, kiejtés, elválasztás, szófaj, főbb toldalékos alakok, nyelvtani megjegyzés, stílusminősítés q Jelentéscsoportok (=a szótári jobboldal) alapjelentés, jelentésárnyalatok, értelmezések és példák, továbbá szólások, közmondások, más szavakkal alkotott összetételek, származékszók Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótárelemek nyelvtechnológiai felhasználása q Címszó: kiindulás helyesírási programokhoz q Variánsok és toldalékolt alakok: a morfológiai rendszerhez q Szótagolás: elválasztó programokhoz q Kiejtés: beszédkeltő rendszerekhez q Szófaj: egyértelműsítőkhöz q Témakód: szövegtípus-azonosításhoz q Definíciók: jelentés-egyértelműsítéshez q Példák: a címszó körüli többszavas kifejezések azonosításához q „Lásd még” szavak: szinonimák, antonimák Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Segéd- és szakszótárak q Szakmai szótárak (enciklopédiák, lexikonok? ) q Terminológiai adatbázisok q Keveredés az alapszótárakkal: általános nyelvi nagyszótárak (tele szakszócikkekkel!) q Az egyidejű használat lehetősége miatt megváltozott szerepük az elektronikus világban q Dinamikus szakszótár-kiegészítés alapszótárakhoz Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Nyomtatott szótárak vs. elektronikus szótárak Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A „hagyományos” elektronikus szótárak Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Mindenféle platformon Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Elektronikus multiszótár Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Terminológiakezelők (1) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Terminológiakezelők (2) iate. europa. eu http: //iate. europa. eu Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Terminológiakezelők (3) www. eurotermbank. com Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A korszerű internetes szótárszolgáltatás kritériumai Folyamatosan bővíthető szótárkínálat Sajátszótár-készítési lehetőség Tetszőleges webes tartalom integrált megjelenítése A kifejezések intelligens kezelése Közösségi jelenlét Egymás segítésének és a (jogos) kritikának a fóruma A rendszer szemantikus ismereteinek erősítése a felhasználó keresési szokásainak elemzésével q Könnyű keresés-indítási lehetőség q Saját menthető beállítások a környezet személyre szabásához q q q q Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótárszolgáltatás + közösségépítés Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótári keresés Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Nyelvfüggő szótárproblémák q A forrás- és célnyelv karakterkészleteinek ismerete q A forrás- és a célnyelv ábécérendjeinek ismerete q A fonetikai információ kezelése q Egységes jelölés: nyelvi keresésnél a szótár grammatikai információival való kompatibilitás Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Keresési technikák elektronikus szótárakban q Betű szerint q Csonkolt keresés q Hasonlósági keresés (fuzzy, soundex, spell) q Nyelvi alapú keresés a bemeneti oldalon q Nyelvi alapú keresés a találati oldalon q A kifejezések kezelésének problémái: alcímszók, kulcsszó-választás, indexek, egyazon kifejezés több címszó alatt Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Többszavas kifejezések keresési módjai q Csak címszóként q Betű szerint q Teljes szövegű kereséssel q Reguláris kifejezésként q Tőindexekkel: készítéskor vagy elemzési időben (is) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Többszavas kifejezések keresése Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótári „jobboldal” szerepe q Papírszótárak esetében: csak tipográfiai q Elektronikusan: új lehetőség q Ábécé-környezet helyett szinonimák q Többféle jelentés kezelése a baloldali címszavak segítségével q Új találati ablak q Elektronikusan érdemes „kifordítani” a szótárakat Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A „kifordítható” szótár Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótármegjelenítés Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
LMF q Lexical Markup Framework (LMF): ISO-szabvány (ISO-24613: 2008) szótárak leírásához q 1. lépés: létező szótárak struktúráinak konzisztens feltérképezése q 2. lépés: az összes feldolgozott szótárat lefedő leírás létrehozása q 3. lépés: 61 szakértő bevonásával az összes szóba jövő szótárszerkezet megvizsgálása q Fontos szempont volt a morfológiai támogatás biztosítása q A fejlesztés eredménye (2004 -2008): koherens UML-modell Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótármegjelenítés Ma már szinte csak XML + XSLT alapú megoldások Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Kétféle szótármegjelenítés (Atkins 2002) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótárkészítés Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szótárszerkesztő eszközök (LWB) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Automatizált szótárkészítés korpuszelemzéssel Szótárszerkesztő eszközök (Mazsola) Mazsola vonzatkereső (Sass 2007) Igei szerkezetek gyakorisági szótára (Sass 2011) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Hasonló fogalmak gyűjtése korpuszból, szóbeágyazással Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Szemantikus jegyek automatikus kinyerése korpuszból Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Kapcsolat más nyelvészeti megoldásokkal Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Az „ablakos” kommunikáció nehézségei q Kilépni az adott alkalmazásból q Elindítani q Kinyitni vagy felnagyítani q Beírni q Klikkelni q Átmozgatni q Lekicsinyíteni vagy bezárni q Visszalépni az eredeti alkalmazásba Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A gyorsfordítók megjelenése q Amikor információ kell, pl. szótári, akkor: csak amit kérek, nem többet, de azt gyorsan, kevés aktív művelettel és a lehető legautomatikusabban! q Kialakul a „pop-up” viselkedés q A kijelölhetőség, ill. az automatikus indíthatóság szerepe Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A „rávetítős” megoldás nyelvtechnológiai elemei q Szöveg(rész)-felismerés q Nyelvi elemzés: morfológia, lemmák, szókapcsolatok q q (esetleg környezetelemzés) Szótári keresés: tövesítve vagy csak literálisan Megjelenítés: buborékban vagy fix ablakban Log-fájlok segítségével az automatikus információgyűjtés lehetősége (nemcsak rávetítős szótáraknál!) Megjelennek a felhasználók valódi javaslataival feljavított szótárak Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A „rávetítés” a gyakorlatban Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A log-fájlok szociolingvisztikailag elemezhetőek Szótárlekérdezések a weben Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A log-fájlok szociolingvisztikailag elemezhetőek Mobilszótár-használat (2003 -2005) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A log-fájlok szociolingvisztikai elemezhetőek „A szótárazás tanítása” Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótárlekérdezés koincidencia-részgráfjairól „Aki ezt kérdezte, az még mit kérdezett? ” Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A szótárlekérdezés koincidencia-részgráfjairól (2) Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A hagyományos és az „intelligens” szótárak viszonyáról Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Az „intelligens” szótárak készítésének problémái q A legfőbb baj: a szótárforrások XML-változatainak „amatőr” vagy legalábbis nyomtatás-centrikus megoldásai q A második ok: a szótár az embereknek, nem a gépnek készül q Egy sor technikai probléma, ami a szótárak „papírszótár” mivoltából ered, ám a gépi változatban át kell ezeket alakítani Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A perjel-probléma q A szótárak nem a gépnek készülnek (pl. perjelek): nem szavazó/szavazásra nem jogosító részvény q Tudhatja-e egy program összefogni az egybetartozó kifejezést? {arcára fagy/ráfagy az arcára/lefagy az arcáról} a mosoly Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A többszörös előfordulások problémája elássa csatabárdot Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
Az ellentmondó előfordulások problémája Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A tilde-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A morfológia-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A nagybetű-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A vonzat-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A példa-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A „lásd”-probléma Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
A pontos találatok problémája Prószéky Gábor A nyelvtechnológia alapjai – 2020. október 20.
- Slides: 60