Deutsche einsprachige Korpora Njemaki jednojezini korpusi Christine Karabai
Deutsche einsprachige Korpora Njemački jednojezični korpusi Christine Karabaić Silke Gierer Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović
IDS – Korpora IDS - Korpus n Umfangreichste Sammlung deutscher Korpora n n Gesamtumfang ca. 73, 5 Millionen laufende Wortformen n n Najopsečnija zbirka njemačkog korpusa Cijelokupni opseg otprilike 73, 5 mil. Tekućih oblika riječi Zugriff über System COSMAS n Pristup preko sistema COSMAS http: //www. ids-mannheim. de/kl/projekte/korpora/ SE: Slawische Korpuslinguistik, SS 2006 2
Korpora der geschriebenen deutschen Sprache des IDS Korpus Njemačkog pisanog jezika IDSa n n Mannheimer Korpora Korpus Mannheimer Bonner Zeitungskorpus Bonski novinarski korpus n n n Handbuchkorpora LIMAS – Korpus Etliche kleinere Korpora SE: Slawische Korpuslinguistik, SS 2006 Priručni korpus LIMAS - korpus Nekoliko manjih korpusa 3
Mannheimer Korpora Korpus Mannheimer Korpus I n Umfang: 293 Texte; ca. 2, 2 Mill. laufende Wortformen n n Opseg: 293 teksta; otprilike 2, 2 mil. Tekućih oblika riječi Zeitraum: 1950 – 1967 n Razdoblje: 1950 - 1967 SE: Slawische Korpuslinguistik, SS 2006 4
Mannheimer Korpora Korpus Mannheimer Korpus I n Inhalt - Belletristik - Memoiren - Wissenschaftliche Literatur - Trivialliteratur - Artikel aus Zeitungen und Zeitschriften SE: Slawische Korpuslinguistik, SS 2006 Sadržaj Beletristika Zapisi Znanstvena književnost Trivijalna literatura Članci novina i časopisa 5
Mannheimer Korpora Korpus Mannheimer Korpus II n Umfang: 52 Texte; ca. 0, 3 Mill. laufende Wortformen n n Opseg: 52 teksta; otprilike 0, 3 mil. tekućih oblika riječi Zeitraum: 1949, 1952, 1960 – 1974 n Razdoblje: 1949, 1952, 1960 - 1974 SE: Slawische Korpuslinguistik, SS 2006 6
Mannheimer Korpora Korpus Mannheimer Korpus II n Inhalt - Beschlüsse - Lehrbücher - Nachrichten - wissenschaftliche Literatur SE: Slawische Korpuslinguistik, SS 2006 Sadržaj Odluke Udžbenici Vijesti Znanstvena književnost 7
Bonner Zeitungskorpus Bonski novinarski korpus n Umfang: 10 840 Texte; ca. 3, 1 Mill. laufende Wortformen n n Opseg: 10840 tekstova; otprilike 3, 1 mil. tekućih oblika riječi Inhalt: - Artikel aus den Tageszeitungen: Neues Deutschland, Die Welt n Sadržaj: Članci dnevnih novina: “Neues Deutschland”, “Die Welt” SE: Slawische Korpuslinguistik, SS 2006 8
Handbuchkorpora Priručni korpus n Umfang: 17 330 Texte, ca. 11 Mill. laufende Wortformen n n Zeitraum: 1985 – 1988 n n Opseg: 17330 tekstova, otprilike 11. mil. tekućih oblika riječi Razdoblje: 1985 - 1988 Inhalt: Zeitungs- und Zeitschriftenartikel aus Stern, Zeit, … n Sadržaj: novinski i časopisni članci iz “Stern”, “Zeit”, itd. SE: Slawische Korpuslinguistik, SS 2006 9
LIMAS-Korpus LIMAS - korpus n Umfang: 500 Textstücke mit je 2 000 Textwörtern; 1 Mill. laufende Wortformen n n Zeitraum: 1970 und 1971 n n Opseg: 500 djelove teksta sa po 2000 riječi Razdoblje: 1970 i 1971 Inhalt: verschiedene Publikationen, 33 Themenbereiche n Sadržaj: različite publikacije, 33 različitih tematskih područja SE: Slawische Korpuslinguistik, SS 2006 10
Kleinere Korpora Manji korpusi n n Berliner Morgenpost, COMPUTER ZEITUNG, Die Presse, Frankfurter Rundschau, Goethe-Korpus, Grammatik-Korpus, GRIMM-Korpus, Kleine Zeitung, Marx-Engels-Korpora, Wendekorpus, … Berliner Morgenpost, COMPUTER ZEITUNG, Die Presse, Frankfurter Rundschau, Goethea korpus, Gramatički - korpus, GRIMM – korpus, Kleine Zeitung, Marx – Engels- korpus, Wendekorpus, … SE: Slawische Korpuslinguistik, SS 2006 11
Verfügbarkeit Raspoloživost n Keine freie Abgabe der Korpora n n Nemoguće slobodno korištenje korpusa Für wissenschaftliche Nutzung gegen Bezahlung zugänglich n Za znanstvene svrhe pristupačan uz plačenje - Mannheimer Korpus 1 (1856, - EUR) - Mannheimer Korpus 2 (169, - EUR) - Bonner Zeitungskorpus (2250, - EUR) SE: Slawische Korpuslinguistik, SS 2006 12
TIGER Corpus n Umfang: 50 000 Sätze n n Quelle: Frankfurter Rundschau n n Opseg: 50 000 rečenica Izvor: Frankfurter Rundschau Nutzung: für wissenschaftliche Zwecke frei n Korištenje: za znanstvene svrhe http: //www. ims. uni-stuttgart. de/projekte/TIGERCorpus/ SE: Slawische Korpuslinguistik, SS 2006 13
Kiel Corpus n Sprachdatensammlung n n Deutsche Lese- und Spontansprache n n Njemački čitalački i spontani jezik Umfang der CD-ROMs: ca. 8 Stunden n n Jezična zbirka Opseg CD – ROM otprilike 8 sati Kosten pro CD: 50 – 75 Euro n Cijena po CD –u: 50 – 75 Evro http: //www. ipds. uni-kiel. de/forschung/kielcorpus. de. html SE: Slawische Korpuslinguistik, SS 2006 14
- Slides: 14