Vzporedni slovenskoangleki korpusi SVEZ IJSELAN in TRANS pela

  • Slides: 13
Download presentation
Vzporedni slovensko-angleški korpusi SVEZ, IJS-ELAN in TRANS Špela Vintar Korpusi in baze podatkov 2004/2005

Vzporedni slovensko-angleški korpusi SVEZ, IJS-ELAN in TRANS Špela Vintar Korpusi in baze podatkov 2004/2005

Kaj je vzporedni korpus? n n dvo- ali večjezični vsebuje besedilo v izvirniku in

Kaj je vzporedni korpus? n n dvo- ali večjezični vsebuje besedilo v izvirniku in prevodu vzporedni primerljivi korpus stavčna poravnava

Kako nastane vzporedni korpus? n zbiranje besedil n namen korpusa / kriteriji za izbiro

Kako nastane vzporedni korpus? n zbiranje besedil n namen korpusa / kriteriji za izbiro besedil n avtorstvo n kakovost prevodov n zagotovitev besedila v elektronski obliki n stavčna poravnava n pretvorba v enoten zapis (npr. SGML, XML) n zagotovitev iskalnika

Stavčna poravnava izvirnik prevod

Stavčna poravnava izvirnik prevod

Stavčna poravnava • segmentacija izvirnik prevod

Stavčna poravnava • segmentacija izvirnik prevod

Stavčna poravnava • segmentacija • poravnava izvirnik prevod

Stavčna poravnava • segmentacija • poravnava izvirnik prevod

Zakaj uporabljamo vzporedne korpuse? n n n prevajanje izdelava slovarjev razvoj jezikovnih tehnologij: n

Zakaj uporabljamo vzporedne korpuse? n n n prevajanje izdelava slovarjev razvoj jezikovnih tehnologij: n n strojno prevajanje avtomatsko iskanje terminologije spletne tehnologije. . .

Slovensko-angleški vzporedni korpus IJSELAN n n zgrajen na Institutu Jožefa Stefana, projekt ELAN 15

Slovensko-angleški vzporedni korpus IJSELAN n n zgrajen na Institutu Jožefa Stefana, projekt ELAN 15 vzporednih besedil, 1 milijon besedila s področij: n zakonodaja EU (kmetijstvo, ekologija, strategija za vključevanje itd. ) n gospodarstvo n računalništvo n farmakologija n leposlovje (Orwell: 1984) opis korpusa: http: //nl. ijs. si/elan/

SLovensko-angleški vzporedni korpus TRANS n n ustvarjen na Oddelku za prevajalstvo 2001/2002 vsebuje 41

SLovensko-angleški vzporedni korpus TRANS n n ustvarjen na Oddelku za prevajalstvo 2001/2002 vsebuje 41 besedil s petih strokovnih oz. poljudnostrokovnih področij: n n n n medicina jedrska tehnika/strojništvo zakonodaja/pravo turizem geologija dostopen za iskanje na istem naslovu kot IJS-ELAN Opis korpusa: http: //www-ai. ijs. si/~spela/trans-index. html

Slovensko-angleški vzporedni korpus zakonodaje IJS SVEZ ACQUIS n n vsebuje 10 milijonov besed stavčno

Slovensko-angleški vzporedni korpus zakonodaje IJS SVEZ ACQUIS n n vsebuje 10 milijonov besed stavčno poravnanih in oblikoskladenjsko označenih besedil, ki so nastala na Sektorju za prevajanje SVEZ možnost iskanja po lemi korpus sicer bolj znan kot Evrokorpus opis korpusa: http: //nl. ijs. si/svez/

Skupni iskalni vmesnik n nl 2. ijs. si/index-bi. html

Skupni iskalni vmesnik n nl 2. ijs. si/index-bi. html

Napredno iskanje: regularni izrazi n n n Nadomestni znaki: . ? del. = delo,

Napredno iskanje: regularni izrazi n n n Nadomestni znaki: . ? del. = delo, deli, dela, . . . del? = del, delo, deli, dela, . . . Množilni operatorji: +, *, {x, y} ko+ = ko, kooo, . . . ko* = k, koo, kooo, . . . ko{1, 4} = ko, kooo, koooo Skupine znakov: [fgm]iga = figa, giga, miga

Naloge iz regularnih izrazov Napišite naslednje iskalne pogoje: n besede, ki se začnejo na

Naloge iz regularnih izrazov Napišite naslednje iskalne pogoje: n besede, ki se začnejo na “miš” n besede, ki vsebujejo najmanj tri a-je n sedanjiške oblike glagola “delati” n besede, ki vsebujejo najmanj 4 soglasnike n besede, ki vsebujejo dva zaporedna šumnika n kratice iz najmanj treh velikih črk