Hrvatski paralelni korpusi Kroatische Parallelkorpora Seminar Slawische Korpuslinguistik

  • Slides: 24
Download presentation
Hrvatski paralelni korpusi (Kroatische Parallelkorpora) Seminar: „Slawische Korpuslinguistik“ Ernedina Muminović (erni. muminovic@gmx. at) &

Hrvatski paralelni korpusi (Kroatische Parallelkorpora) Seminar: „Slawische Korpuslinguistik“ Ernedina Muminović (erni. muminovic@gmx. at) & Silvije Beus (beus_s@yahoo. de) o. Univ. -Prof. Mag. Dr. Branko Tošović, SS 2006 4. April 2006 Slawische Korpuslinguistik

Pojmovi (Begriffe) o o o Korpus Paralelni korpus (Parallelkorpus) Računalni korpus (Elektronisches Korpus) Sravnjivanje

Pojmovi (Begriffe) o o o Korpus Paralelni korpus (Parallelkorpus) Računalni korpus (Elektronisches Korpus) Sravnjivanje (Alignement) Pojavnice (Wörter) Slawische Korpuslinguistik 2

Hrvatski korpusi (Kroatische Korpora) Hrvatski nacionalni korpus (Kroatisches Nationalkorpus) http: //www. hnk. ffzg. hr/

Hrvatski korpusi (Kroatische Korpora) Hrvatski nacionalni korpus (Kroatisches Nationalkorpus) http: //www. hnk. ffzg. hr/ Hrvatska mrežna riznica (Kroatische Netzquelle) http: //riznica. ihjj. hr/ Slawische Korpuslinguistik 3

Hrvatski nacionalni korpus (Kroatisches Nationalkorpus) Hrvatski nacionalni korpus (101, 3 mil. ) (Kroatisches Nationalkorpus

Hrvatski nacionalni korpus (Kroatisches Nationalkorpus) Hrvatski nacionalni korpus (101, 3 mil. ) (Kroatisches Nationalkorpus 101, 3 Mio. ) Korpus suvremenoga hrvatskoga (Korpus der kro. Gegenwartssprache) Zbirka hrvatskih tekstova (Kro. Textsammlung) Slawische Korpuslinguistik 4

Korpus suvremenoga hrv. jezika (Korpus kro. Gegenwartssprache) o 30 mil. n 30 milijunski korpus

Korpus suvremenoga hrv. jezika (Korpus kro. Gegenwartssprache) o 30 mil. n 30 milijunski korpus suvremenog hrvatskog jezika (30 Mio. Wörter) o o o Tekstovi od 1990. do danas (Texte ab 1990 bis heute) Različita područja i žanrovi (Verschiedene Gebiete und Genres) Reprezentativan za hrv. suvremeni standardni jezik (Representativ für die kro. Standardsprache) Slawische Korpuslinguistik 5

Zbirka hrvatskih tekstova (Kroatische Textsammlung) o HETA n hrvatski elektronski tekstovni arhiv: (Kroatisches elektronisches

Zbirka hrvatskih tekstova (Kroatische Textsammlung) o HETA n hrvatski elektronski tekstovni arhiv: (Kroatisches elektronisches Textarchiv) o o Tekstovi stariji od 1990. godine (Texte vor 1990) I neki tekstovi nakon 1990. godine (wenige Texte ab 1990) Slawische Korpuslinguistik 6

Hrvatska jezična mrežna riznica (Kroatische Netzquelle) o o Početak (Beginn): 2005. godine Tekstovi iz

Hrvatska jezična mrežna riznica (Kroatische Netzquelle) o o Početak (Beginn): 2005. godine Tekstovi iz druge polovice XIX. st. (Texte aus der 2. Hälfte des 19. Jh. ) n n n Djela hrv. književnosti (Werke kro. Literatur) Publicistička djela (Werke aus der Publizistik) Znanstvena djela (Wissenschaftliche Werke) Literarna djela prevedena na hrvatski (Literarische Werke übersetzt auf Kroatisch) Tisak (Presse) Djela iz predstandardnoga razdoblja (Werke vor der Standardisierung der kroatischen Sprache) Slawische Korpuslinguistik 7

Ciljevi (Ziele) o o Dostupnost materijala preko Interneta (Internetzugang) Informacije o hrvatskoj jezičnoj normi

Ciljevi (Ziele) o o Dostupnost materijala preko Interneta (Internetzugang) Informacije o hrvatskoj jezičnoj normi (Informationen über die kro. Sprachnorm) Izrada Velikoga rječnika hrvatskoga jezika (Verfassen des Großen Wörterbuches der kro. Sprache) Opća jezikoslovna istraživanja (Allgemeine Sprachuntersuchungen) Slawische Korpuslinguistik 8

Hrv. -slo. paralelni korpus (Kroatisch-slowenisches Parallelkorpus) o o Početak (Beginn): 1999. godine Sporazum o

Hrv. -slo. paralelni korpus (Kroatisch-slowenisches Parallelkorpus) o o Početak (Beginn): 1999. godine Sporazum o dvostranoj znanstvenoj suradnji Hrvatske i Slovenije (Abkommen) o o Trajanje (Dauer): 2 godine Učesnici (Teilnehmer): Filozofski fakulteti u Zagrebu i Ljubljani Slawische Korpuslinguistik 9

Ciljevi (Ziele) o Stvaranje usporednog korpusa (Schaffen des Parallelkorpus) n Skupljanje hrvatskih i slovenskih

Ciljevi (Ziele) o Stvaranje usporednog korpusa (Schaffen des Parallelkorpus) n Skupljanje hrvatskih i slovenskih originala i odgovarajućih prijevoda (Sammeln) o Sravnjivanje korpusa na razini rečeničnih prijevodnih ekvivalenata (Korpusalignement) o Slobodan pristup korpusu putem Interneta (Internetzugang) Slawische Korpuslinguistik 10

Primjena rezulatata (Verwendung der Resultate) o Pomoć pri učenju jezika (Hilfe bei Fremdsprachenerlernung) o

Primjena rezulatata (Verwendung der Resultate) o Pomoć pri učenju jezika (Hilfe bei Fremdsprachenerlernung) o Stvaranje kontrastivne gramatike i udžbenika (Kontrastive Grammatik und Lehrbücher) o Sastavljane dvojezičnih rječnika (zweisprachige Wörterbücher) Slawische Korpuslinguistik 11

Primjena rezulatata (Verwendung der Resultate) o Leksikografska i leksikološka istraživanje (lexikograpische und lexikographische Untersuchungen)

Primjena rezulatata (Verwendung der Resultate) o Leksikografska i leksikološka istraživanje (lexikograpische und lexikographische Untersuchungen) o Mogućnost slobodnog korištenja npr. pri prevođenju, studiranju… (Korpus als Hilfestellung bei Translationen, beim Studieren. . . ) Slawische Korpuslinguistik 12

Građa (Aufbau) o o 500. 000 pojavnica po jeziku (Wörter) Vremenski raspon tekstova: 1990.

Građa (Aufbau) o o 500. 000 pojavnica po jeziku (Wörter) Vremenski raspon tekstova: 1990. 2001. (Texte von 1990 -2001) Slawische Korpuslinguistik 13

Podjela korpusa (Korpusgliederung) Struktura po žanru (Struktur nach Genres) Beletristika (Belletristik) Publicistika (Publizistik) Stručni

Podjela korpusa (Korpusgliederung) Struktura po žanru (Struktur nach Genres) Beletristika (Belletristik) Publicistika (Publizistik) Stručni testovi (Fachtexte) Znanost (Wissenschaft) 75. 000 pojavnica (Wörter) 150. 000 pojavnica (Wörter) 200. 000 pojavnica (Wörter) 75. 000 pojavnica (Wörter) Slawische Korpuslinguistik 14

Obrada korpusa (Korpusbearbeitung) o o o Pretvaranje teksta u XML format (XMLFormatierung) Program 2

Obrada korpusa (Korpusbearbeitung) o o o Pretvaranje teksta u XML format (XMLFormatierung) Program 2 XML Segmentacija (Satzsegmentierung) Obilježavanje rečenica ID oznakama (Satzkennzeichnung) Usklađivanje odlomaka (Absatzangleichung) Sravnjivanje teksta pomoću programa Vanilla Aligner (Alignement) Slawische Korpuslinguistik 15

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) o Početak (Beginn): n 1. hrv. -engl. korpus

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) o Početak (Beginn): n 1. hrv. -engl. korpus (kro. -engl. Korpus) o 1968. -1971. “Srpskohrvatsko-engleski kontrastivni projekt” (serbokro. -engl. kontrastives Projekt) o Skupljanje i obrada materijala (Sammeln und Verarbeiten) o Izdavanje velikog broja naučnih publikacija (Publikationen) Slawische Korpuslinguistik 16

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) n n 2. hrv. -engl. korpus (kro. -engl.

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) n n 2. hrv. -engl. korpus (kro. -engl. Korpus) o Prijevod Platonove “Države” (Plato‘s “Republik”) o Prilično malog opsega (relativ klein) o Nije mjerodavan (nicht aussagekräftig) 3. hrv. -engl. korpus (kro. -engl. Korpus) o Cilj mu je testirati (Ziel): n n Organizaciju paralelnih korpusa (Organisation) Sravnjivanje (Alignement) Slawische Korpuslinguistik 17

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) o o Početak (Beginn): 1998. -2001. Skupljanje materijala

Hrv. -engl. paralelni korpus (Kroatisch-englisches Parallelkorpus) o o Početak (Beginn): 1998. -2001. Skupljanje materijala na FF u Zagrebu (Materialsammlung) Slawische Korpuslinguistik 18

Izvor (Quelle) o Tjednik “Croatia Weekly” (Wochenzeitung) n Članci s hrvatskog prevođeni na engleski

Izvor (Quelle) o Tjednik “Croatia Weekly” (Wochenzeitung) n Članci s hrvatskog prevođeni na engleski jezik (Übersetzungen Kroatisch-Englisch) n Vremenski raspon članaka 1998. -2000. (Artikel von 1998 -2000) n Područja proučavanja (Forschungsgebiete): o Politika, gospodarstvo i financije, turizam, ekologija, umjetnost, sport, zbivanja Slawische Korpuslinguistik 19

Korpusni parametri (Korpusparameter) Jezik (Sprache) Hrvatski (Kroatisch) Engleski (Englisch) Članci (Artikel) 4. 748 Rečenice

Korpusni parametri (Korpusparameter) Jezik (Sprache) Hrvatski (Kroatisch) Engleski (Englisch) Članci (Artikel) 4. 748 Rečenice (Sätze) 74. 638 82. 898 Pojavnice (Wörter) 1. 636. 246 1. 968. 874 Slawische Korpuslinguistik 20

Obrada teksta (Textverarbeitung) o Pretvaranje teksta u XML format (XMLFormatierung) o Usklađivanje odlomaka (Absatzangleichung)

Obrada teksta (Textverarbeitung) o Pretvaranje teksta u XML format (XMLFormatierung) o Usklađivanje odlomaka (Absatzangleichung) o Obilježavanje rečenica ID oznakama (Identifikation) o Sravnjivanje teksta pomoću programa Vanilla Aligner (Alignement) Slawische Korpuslinguistik 21

Sravnjeni hrv. -engl. Korpus (Aligntes Kro. -Engl. Korpus) 0: 1 250 0, 35 %

Sravnjeni hrv. -engl. Korpus (Aligntes Kro. -Engl. Korpus) 0: 1 250 0, 35 % 1: 0 19 0, 09 % 1: 1 58788 83, 52 % 1: 2 9374 13, 32 % 2: 1 1529 2, 17 % 2: 2 432 0, 61 % Ukupno (gesamt) 70392 100 % Slawische Korpuslinguistik 22

Literatura (Literaturverzeichnis) Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni korpus, in: Suvremena lingvistika

Literatura (Literaturverzeichnis) Tadić, M. (1996): Računalna obradba hrvatskoga i nacionalni korpus, in: Suvremena lingvistika 41 -42; 603 -612. Tadić, M. (1998): Raspon, opseg i sastav korpusa suvremenoga hrvatskoga jezika, in: Filologija 30 -31; 337 -347. Tadić, M. (2000): Building the Croatian-English Parallel Corpus, in: Zbornik, 1; 523 -530. Tadić, M. , Požgaj-Hadži, V. (2000): Hrvatsko-slovenski paralelni korpus, Jezikovne tehnologije / Language Technologies, Ljubljana, 70 -74. Tadić, M. (2001): Procedures in Building the Croatian-English Parallel Corpus, in: International Journal of Corpus Linguistics, 107 -123. Slawische Korpuslinguistik 23

Literatura (Literaturverzeichnis) Tadić, M. , Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata u hrvatsko-engleskom paralelnom

Literatura (Literaturverzeichnis) Tadić, M. , Šojat, K. (2002): Identifikacija prijevodnih ekvivalenata u hrvatsko-engleskom paralelnom korpusu, in: Filologija 3839; 247 -262. Tadić, M. et al. (2004): Making Monolingual Corpora Comparable: a Case Study of Bulgarian and Croatian, in: Zbornik, 4; 11871190. Internet: http: //www. hnk. ffzg. hr/mt/ http: //riznica. ihjj. hr/ http: //www-gewi. kfunigraz. ac. at/gralis/ Slawische Korpuslinguistik 24