Parallelkorpora Florian Thelen florian thelenstud uni graz at

  • Slides: 28
Download presentation
Parallelkorpora Паралле льные корпуса Florian Thelen (florian. thelen@stud. uni graz. at) Seminar: Slawische Korpuslinguistik

Parallelkorpora Паралле льные корпуса Florian Thelen (florian. thelen@stud. uni graz. at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović 28. 3. 2006

Definition Определе ние Was sind Parallelkorpora ? n A collection of texts, each of

Definition Определе ние Was sind Parallelkorpora ? n A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996) n Texts accompanied by their translation. (Véronis 2002) n Corpora which hold the same texts in more than one language. (Mc. Enery/Wilson 1996) SE: Slawische Korpuslinguistik, SS 2006 2

Definition Определе ние Was sind Parallelkorpora? n Textsammlung bzw. Korpus собра ние те кстов

Definition Определе ние Was sind Parallelkorpora? n Textsammlung bzw. Korpus собра ние те кстов n Mehrsprachigkeit многоязы чность n Äquivalente Texte эквивале нтные те ксты n Verknüpfung der Texte выра внивание те кстов SE: Slawische Korpuslinguistik, SS 2006 3

Abgrenzung Отделе ние Unterschiede gegenüber anderen Korpora: n einsprachige Korpora одноязы чные корпуса n

Abgrenzung Отделе ние Unterschiede gegenüber anderen Korpora: n einsprachige Korpora одноязы чные корпуса n vergleichbare Korpora сравни мые корпуса n multilinguale Korpora многоязы чные корпуса SE: Slawische Korpuslinguistik, SS 2006 4

Arten von Parallelkorpora Ви ды паралле льных корпусо в Unterteilung in: n bi &

Arten von Parallelkorpora Ви ды паралле льных корпусо в Unterteilung in: n bi & multilinguale дву и многоязы чные n mono & bidirektionale одно и двунапра вленные n alignierte & nicht alignierte (не) выро вненные n annotierte & nicht annotierte (не) анноти рованные SE: Slawische Korpuslinguistik, SS 2006 5

Anwendungsbereiche О бласти примене ния n Lexikographie лексикогра фия n Grammatik грамма тика n

Anwendungsbereiche О бласти примене ния n Lexikographie лексикогра фия n Grammatik грамма тика n Semantik сема нтика n Sprachpädagogik педаго гика языко в SE: Slawische Korpuslinguistik, SS 2006 6

Anwendungsbereiche О бласти примене ния n Übersetzungswissenschaft тео рия перево да n Vergl. Literaturwissenschaft

Anwendungsbereiche О бласти примене ния n Übersetzungswissenschaft тео рия перево да n Vergl. Literaturwissenschaft срав. лит. ве денние n Kulturwissenschaft култьурове денние SE: Slawische Korpuslinguistik, SS 2006 7

Lexikographie Лексикогра фия n Korrektur bestehender Wörterbücher n Erweiterung bestehender Wörterbücher n Erstellung neuer

Lexikographie Лексикогра фия n Korrektur bestehender Wörterbücher n Erweiterung bestehender Wörterbücher n Erstellung neuer Fachwörterbücher n Kontrastive Untersuchungen SE: Slawische Korpuslinguistik, SS 2006 8

Alignement Выра внивание n Definition: Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen n

Alignement Выра внивание n Definition: Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen n Absatz: Fragmentierung фрагмента ция n Satz: sentence alignement выра внивание предложе ний n Wort: word alignement выра внивание слов SE: Slawische Korpuslinguistik, SS 2006 9

Alignement Выра внивание 6 Fälle von Alignement: n n n 1 Satz (L 1)

Alignement Выра внивание 6 Fälle von Alignement: n n n 1 Satz (L 1) = 1 Satz (L 2) 2 Sätze (L 1) = 1 Satz (L 2) 1 Satz (L 1) = 2 oder mehrere Sätze (L 2) 2 Sätze (L 1) = 2 Sätze (L 2), aber innere Grenzen fallen nicht zusammen Satz (L 1) wird nicht übersetzt Satz (L 2) hat kein Äquivalent im Original und wurde vom Übersetzer eingefügt SE: Slawische Korpuslinguistik, SS 2006 10

Texte Те ксты Verhältnis Original (L 1) zu Übersetzung (L 2): n Original entspricht

Texte Те ксты Verhältnis Original (L 1) zu Übersetzung (L 2): n Original entspricht eine authentischen Übersetzung (z. B. Dokumente internationaler Organisationen. n Original entspricht einer menschlichen Übersetzung. n Original entspricht einer maschinellen Übersetzung. n Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts. SE: Slawische Korpuslinguistik, SS 2006 11

Probleme Пробле мы Nach Ebeling 2000: n Übersetzer machen Fehler. n Jede Übersetzung ist

Probleme Пробле мы Nach Ebeling 2000: n Übersetzer machen Fehler. n Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen. n Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert. SE: Slawische Korpuslinguistik, SS 2006 12

Slawische Parallelkorpora Славя нские паралле льные корпуса n KACENKA (Masaryk Universität Brno) Sprachen: Inhalt:

Slawische Parallelkorpora Славя нские паралле льные корпуса n KACENKA (Masaryk Universität Brno) Sprachen: Inhalt: Umfang: Verfügbarkeit: Tschechisch – Englisch Belletristik 3, 297, 283 Wörter CD ROM SE: Slawische Korpuslinguistik, SS 2006 13

Slawische Parallelkorpora Славя нские паралле льные корпуса n Bohemica. com (Dominik Lukeš) Sprachen: Inhalt:

Slawische Parallelkorpora Славя нские паралле льные корпуса n Bohemica. com (Dominik Lukeš) Sprachen: Inhalt: Umfang: Verfügbarkeit: Tschechisch – Englisch Belletristik; Sachbücher 99, 905 Wörter Internetdownload SE: Slawische Korpuslinguistik, SS 2006 14

Slawische Parallelkorpora Славя нские паралле льные корпуса n IJS - ELAN (Institut Jožef Stefan)

Slawische Parallelkorpora Славя нские паралле льные корпуса n IJS - ELAN (Institut Jožef Stefan) Sprachen: Inhalt: Umfang: Verfügbarkeit: Slowenisch – Englisch Belletristik ~ 1, 000 Wörter Internetdownload SE: Slawische Korpuslinguistik, SS 2006 15

Slawische Parallelkorpora Славя нские паралле льные корпуса n SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan)

Slawische Parallelkorpora Славя нские паралле льные корпуса n SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan) Sprachen: Inhalt: Umfang: Verfügbarkeit: Slowenisch – Englisch EU Rechtstexte ~ 10, 000 Wörter Internetdownload SE: Slawische Korpuslinguistik, SS 2006 16

Slawische Parallelkorpora Славя нские паралле льные корпуса n The TELRI Republic (TELRI Working Group

Slawische Parallelkorpora Славя нские паралле льные корпуса n The TELRI Republic (TELRI Working Group WG 9) Sprachen: Inhalt: Umfang: Verfügbarkeit: Bulgarisch Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch – Polnisch – Rumänisch – Slowakisch – Slowenisch Platos „Republik“ nicht bekannt Internet (nur für TELRI Mitglieder) SE: Slawische Korpuslinguistik, SS 2006 17

Slawische Parallelkorpora Славя нские паралле льные корпуса n MULTEXT-East 1984 corpus (Institut Jožef Stefan)

Slawische Parallelkorpora Славя нские паралле льные корпуса n MULTEXT-East 1984 corpus (Institut Jožef Stefan) Sprachen: Inhalt: Umfang: Verfügbarkeit: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch George Orwells „ 1984“ 100, 000 Wörter (englisches Original) CD ROM SE: Slawische Korpuslinguistik, SS 2006 18

Slawische Parallelkorpora Славя нские паралле льные корпуса n Textcorpus „Idiot“ (ÖAW, Wien) Sprachen: Inhalt:

Slawische Parallelkorpora Славя нские паралле льные корпуса n Textcorpus „Idiot“ (ÖAW, Wien) Sprachen: Inhalt: Umfang: Verfügbarkeit: Russisch – Deutsch Dostojevskijs „Idiot“ noch unbekannt online nicht verfügbar SE: Slawische Korpuslinguistik, SS 2006 19

Slawische Parallelkorpora Славя нские паралле льные корпуса n Национа льный ко рпус ру сского

Slawische Parallelkorpora Славя нские паралле льные корпуса n Национа льный ко рпус ру сского языка Sprachen: Inhalt: Umfang: Verfügbarkeit: Russisch – Englisch Belletristik ~ 2, 500, 000 Wörter Internet SE: Slawische Korpuslinguistik, SS 2006 20

Anwendung Примене ние n Frage: Übersetzungen für das englische Wort „nice“ n Ergebnis: n

Anwendung Примене ние n Frage: Übersetzungen für das englische Wort „nice“ n Ergebnis: n n n хоро ший краси вий прия тный ми лый отли чный прили чный SE: Slawische Korpuslinguistik, SS 2006 gut schön angenehm lieb hervorragend anständig 21

Anwendung Примене ние n Ergebnis: n n n n n симпати чный хоро шенький

Anwendung Примене ние n Ergebnis: n n n n n симпати чный хоро шенький мирово й здоро вый поря дочный шика рный удо бный наря дный до брый идеа льный SE: Slawische Korpuslinguistik, SS 2006 hübsch niedlich friedlich gesund/ cool anständig schicklich elegant gut ideal 22

Anwendung Примене ние n Frage: Volle Equivalenz von „love“ und „любо вь“? n Ergebnis:

Anwendung Примене ние n Frage: Volle Equivalenz von „love“ und „любо вь“? n Ergebnis: любо вь – love – passion love – любо вь – пристра стие – жела ние SE: Slawische Korpuslinguistik, SS 2006 23

Anwendung Примене ние n Frage: Übertragung einer russischen Passivkonstruktion ins Englische? n Beispielswort: „сказа

Anwendung Примене ние n Frage: Übertragung einer russischen Passivkonstruktion ins Englische? n Beispielswort: „сказа ть“ n Ergebnis: 9 Verwendungen 6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv SE: Slawische Korpuslinguistik, SS 2006 24

Literatur und Quellen Литерату ра и исто чники n n n Bernadini u. a.

Literatur und Quellen Литерату ра и исто чники n n n Bernadini u. a. 2003: Bernadini, S. ; Stewart, D. ; Tanettin, F. Corpora in Translator Education: An Introduction. In: Bernadini, S. ; Stewart, D. ; Tanettin, F. (eds. ) Corpora in Translator Education. Manchester: St. Jerome. 1 14 S. Mc. Enery/Wilson 2006: Mc. Enery, T. ; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S. Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross linguistic research. In: Bernadini, S. ; Stewart, D. ; Tanettin, F. (eds. ) Corpora in Translator Education. Manchester: St. Jerome. 135 144 S. Laviosa Braithwaite 2003: Laviosa Braithwaite, S. Corpora and the Translator. In: Somers, H. L. (ed. ) Computers and Translation. A Translator’s Guide. Amsterdam: John Benjamins. 105 117 S. Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus based contrastive study. Acta Humaniora 68. Oslo: Unipub forlag. – 299 S. Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing. – In: Véronis, J. (ed. ). Parallel Text Processing. – Dordrecht: Kluwer. – 1 25 S. SE: Slawische Korpuslinguistik, SS 2006 26

Literatur und Quellen Литерату ра и исто чники n n n n http: //infomap.

Literatur und Quellen Литерату ра и исто чники n n n n http: //infomap. stanford. edu/papers/bilingual terms. pdf http: //www. ruscorpora. ru http: //www. bohemica. com/index. php? m=catalog&s=257 http: //www. comp. leeds. ac. uk/ssharoff/paraquery ru. html http: //corpus. leeds. ac. uk/ http: //rykov cl. narod. ru/r. html http: //www. slaviska. uu. se/korpus. htm http: //nl. ijs. si/ME/ http: //nl. ijs. si/svez/index en. html http: //nl. ijs. si/telri/Republic/ http: //nl. ijs. si/elan/ http: //www. aac. at/ http: //www. phil. muni. cz/angl/kacenka/kachna. html http: //www. essex. ac. uk/linguistics/clmt/w 3 c/corpus_ling/content/corpora/types/parallel. html SE: Slawische Korpuslinguistik, SS 2006 27

Literatur und Quellen Литерату ра и исто чники n n n http: //www. bmanuel.

Literatur und Quellen Литерату ра и исто чники n n n http: //www. bmanuel. org/clr 2_mp. html#Multilingual_and_Parallel_Corpora http: //devoted. to/corpora http: //www. up. univ mrs. fr/~veronis/biblios/ptp. html http: //bowland files. lancs. ac. uk/monkey/ihe/linguistics/corpus 2/2 fra 1. htm http: //www. dialog 21. ru/Archive/2005/Mikhailov%20 M/Mihailov. M. pdf http: //www. phil. pu. ru/depts/12/corp 04. htm#tis http: //www. ksu. ru/f 10/publications/2004/articles_1_1. php? id=10&num=9000000 http: //www. uni tuebingen. de/uni/nss/docs/Korpora. html http: //lingo. lancs. ac. uk/devotedto/corpora 2. htm http: //www. ilc. cnr. it/EAGLES 96/corpustyp/node 20. html http: //odur. let. rug. nl/~spenader/public_docs/Parallel_Corpora. pdf SE: Slawische Korpuslinguistik, SS 2006 28