Entwicklung und Einsatz von Lokalisierungswerkzeugen WebTCM Informatik Computerlinguistik
Entwicklung und Einsatz von Lokalisierungswerkzeugen (Web-TCM) Informatik-, Computerlinguistik-, Fachsprachenkompetenz Uta Seewald-Heeg „Interdisziplinäre Zusammenarbeit in der Medieninformatik“ Kolloquium zu Ehren von Prof. Dr. -Ing. Detlef Klöditz Köthen, 22. November 2001
Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee
Lokalisierung • Anpassung, d. h. Übersetzung eines Software-Produkts an einen lokalen Markt mit seinen sprachlichen und kulturellen Besonderheiten • Sprachliche und kulturelle Anpassung von Web-Seiten
Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee
Lokalisierungsprozess (nach Microsoft)
Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen • Internationalisierung (I 18 N) • Globalisierung (G 11 N) – (Sprach-, Kultur- und Plattform. Unabhängigkeit von Produkten) • Lokalisierung (L 10 N)
Internationalisierung Bsp. : Sortierroutinen
Codierungssysteme Codepages • • Zuordnung von Byte-Werten auf Buchstaben eines Alphabets Byte-Werte (auch: Code-Points) sind Indizes in einer Codepage Bis zum Code 0 x 7 F (127) werden Code-Points von allen Codepages auf die gleichen Buchstaben abgebildet (ASCII-7 -Bit-Zeichensatz) Unterscheidung in der Zuordnung der Buchstaben für Codes zwischen 0 x 80 (128) und 0 x. FF (255) Byte String Hex Dez 0 x. D 6 214 0 x. FF 252 Windows Codepage 1252 (W. European) Ö ü Windows Codepage 1253 (Cyrillic) Ц ь
Locales (Variablen mit sprach- bzw. marktabhängig unterschiedlichen Werten) • • • Zeichenketten Datumsformate Kalender, Zeitformate Währungsformate Maßeinheiten Grafiken Farben Schreibstile Produktverpackung encoding: #UTF_8 catalog: #labels cache. Size: 113 Hardcopy = 'Print' encoding: #UTF_8 Cancel = 'Cancel' catalog: #labels Help = 'Help' cache. Size: 113 try. Again = 'Retry' Icon = 'Button' Hardcopy = 'Drucken' encoding: inspect = 'Inspect' #UTF_8 Cancel = 'Abbruch' catalog: #labels Action = 'Switch Window' Help = 'Hilfe' cache. Size: 113 try. Again = 'Neuer Versuch' Icon = 'Ikone' Hardcopy = 'Печатать' inspect = 'Untersuchen' Cancel = 'Прерывание' Helpumschalten' = 'Помощь' Action = 'Fenster Visual. Works 5. i try. Again = 'Новая попытка Icon = 'Пиктограмма' inspect = 'Исследовать' Action = 'Окно переключи
Datumsformate 22. November 2001 22. 11. 2001 22/11/2001 -11 -22 Deutsch EU 11/22/2001 November 22, 2001 22 November 2001 Amerikanisch 22/11/2001 22 novembre 2001 Französisch
Feldlängen !
Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee
Kompetenz beim Einsatz von Lokalisierungswerkzeugen Maschinelle Übersetzungssysteme Translation-Memory-Systeme Programme zur Bearbeitung von Online-Hilfen Programme zur Lokalisierung von Software-Quelldateien
Kompetenz beim Einsatz von Lokalisierungswerkzeugen • Kulturkompetenz • Textsortenkompetenz • IT-Kompetenz
Kulturkompetenz Navigationsleiste „Laufschrift“ von links nach rechts laufend Datumsangaben
Textsortenkompetenz • Textsorten – Handbücher – Online-Hilfe-Texte (i. d. R. HTML-Dateien) – Benutzerschnittstelle (Menüs, Benutzerdialoge, Schaltflächen, Fensterinhalte, Icons) – Fehlermeldungen – Schulungsmaterial – Lizenzverträge • Textsorteneigenschaften • Technische Realisierung, Formate
Benutzerschnittstelle Interne Repräsentation von Textelementen § Menü in einem Windows-Programm Entsprechung in der Quelldatei (Resource File) 6 MENU FIXED IMPURE BEGIN POPUP "&DATEI" BEGIN MENUITEM MENUITEM MENUITEM "&NEU. . . t. STRG+N" "Ö&ffnen. . . t. STRG+O" "S&chließen" SEPARATOR "S&peichernt. STRG+S" "&Speichern &unter. . . " "Als Websei&te speichern. . . " "Pac&k & Go. . . " SEPARATOR "&Webseitenvorschau" SEPARATOR "Seite einr&ichten"
Tastenkombinationen
IT-Kompetenz Aufbau und Funktionsweise von Lokalisierungswerkzeugen PASSOLO erkennt typische Lokalisierungsfehler wie abgeschnittene Beschriftungen von Schaltflächen
Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee
Entwicklung des Lokalisierungswerkzeugs Web-TCM • Web-TCM: Web Translation & Content Management • Kooperationsprojekt – Fachbereich Informatik der Hochschule Anhalt (Studiengang Fachübersetzen) – Firma Georg Heeg Web-TCM
Smalltalk Programmierwerkzeug des Web-TCM
Web Translation & Content Management • Web Translation – Lokalisieren, Übersetzen • Content Management – Verwalten von Inhalten bzw. Änderungen auf einer WWW-Seite (in einer beliebigen Sprache) Web-TCM
Fachübersetzen <!doctype. . > <html> <head> <title> Fachübersetzen</title> </head> <body> . . . <body> </html> Segmentierung Extraktion der Textblöcke Nummerierung der Textblöcke HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke 1 2 3. . n Deutsch Fachübersetzen English Français Traduction specialisée Русский технический перевод Memory Web-TCM
Memory (TM) Nr. DE EN FR RU 1 Sprache language langue язык 2 Fachübersetzen Traduction spécialisée 3. . n HTML-Seite mit Zugriffsfunktion über die Nummern der Textblöcke <!doctype. . > <html> <head> <title><%=tm at: 2%></title> </head> <body> . . . <body> </html> Sprachparameter (lang=de) in der URL de fr Web-TCM
<!doctype. . > <html> <head> <title>Fachübersetzen</title> </head> <body> <h 1>Fachübersetzen</h 1> <body> </html> <!doctype. . > <html> <head> <title>Traduction spécialisée</title> </head> <body> <h 1>Traduction spécialisée</h 1> <body> </html> Fachübersetzen Traduction spécialisée URL http: //fue. htm? lang=de Fachübersetzen http: //fue. htm? lang=fr Traduction spécialisée Web-TCM
Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www. w 3. org) 2. HTML-Dateien in XHTML-Dateien konvertieren – Jede Datei beginnt mit einer DTD – Jedes Tag muss beendet werden, z. B. </br>, kurz: <br /> – Alle HTML-Bestandteile werden klein geschrieben. – Substitution bestimmter Tags, z. B. <b> <strong> Web-TCM
XHTML <!DOCTYPE html PUBLIC "-//W 3 C//DTD XHTML 1. 0 Transitional//EN" "http: //www. w 3. org/TR/xhtml 1/DTD/xhtml 1 -transitional. dtd"> <html xmlns="http: //www. w 3. org/1999/xhtml"> <head> <meta name="generator" content="HTML Tidy, see www. w 3. org" /> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <title>Fachü bersetzen</title> </head>. . . Web-TCM
Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www. w 3 w. org) 2. HTML-Dateien in XHTML-Dateien konvertieren – – Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z. B. </br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z. B. <b> <strong> 3. Segmentierung der HTML-Dateien – – – *. htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TMSegmente) Generierung der ssp-Dateien (*. ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Web-TCM
SSP Smalltalk Server Pages <!DOCTYPE html PUBLIC "-//W 3 C//DTD XHTML 1. 0 Transitional//EN" "http: //www. w 3. org/TR/xhtml 1/DTD/xhtml 1 -transitional. dtd"> <%lang : = request any. Parameter. Value. At: 'lang'. tm : = Heeg. Translator. TM new: lang. %> <html> <head> <meta name="generator" content="HTML Tidy, see www. w 3. org"/> <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/> <title> <%=tm at: 158%> Web-TCM
Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – HTML Tidy (www. w 3 w. org) 2. HTML-Dateien in XHTML-Dateien konvertieren – – Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z. B. </br>, kurz: <br /> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z. B. <b> <strong> 3. Segmentierung der HTML-Dateien – – – *. htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TMSegmente) Generierung der ssp-Dateien (*. ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM 4. Resegmentieren Web-TCM
Workflow einsprachig → mehrsprachig 1. HTML-Dateien bereitstellen – 2. HTML-Dateien in XHTML-Dateien konvertieren – – 3. Jede Datei beginnt mit einer DTD Jedes Tag muss beendet werden, z. B. </br>, kurz: </br> Alle HTML-Bestandteile werden klein geschrieben. Substitution bestimmter Tags, z. B. <b> <strong> Segmentierung der HTML-Dateien – – – 4. 5. HTML Tidy (www. w 3 w. org) *. htm (XHTML) XML-Parser in Smalltalk (Parse-Tree) Segmentierer in Smalltalk (Baumtransformation, TM-Segmente) Generierung der ssp-Dateien (*. ssp) Ablegen der AS-Segmente (hier: deutsch) in das TM Resegmentieren Übersetzen – Translation Memory in allen Zielsprachen Web-TCM
Export in kommerzielle TM-Systeme TMX-Austauschformat <? xml version="1. 0"? > <!DOCTYPE tmx PUBLIC "-//LISA OSCAR: 1997//DTD for Translation Memory e. Xchange//EN" "http: //www. lisa. org/tmx 11. dtd"> <tmx version="1. 1"> <body> <tu tuid="1"> <header <tuv lang="de"> creationtool="Web-TCM" <seg>Sprach- und Sachfachangebot</seg> creationtoolversion="0. 55" </tuv> datatype="HTML" <tuv lang="en"> <seg>Languages and application domains</seg> o-tmf="Web-TCM" </tuv> segtype="sentence" <tuv lang="fr"> adminlang="en-us" <seg>Langues et disciplines srclang="DE" spé cialisé es</seg> </tuv> o-encoding="utf-8"> <tuv lang="ru"> </header> <seg>Я з ы к а и д и с ц и п л и н а </seg> </tuv> </tu>. . . </body>
Entwicklungsaufwand • Zwei Arbeitswochen • Interaktive Weiterentwicklung während der Nutzung ROBUST Web-TCM
Web-TCM Vergleich mit kommerziellen TM-basierten Lokalisierungswerkzeugen • Erstes Lokalisierungswerkzeug, das virtuelle Team-Arbeit real unterstützt Bei verfügbaren kommerziellen Systemen müssen TMs importiert bzw. exportiert werden und erfordern immer einen Abgleich der TMs verschiedener Übersetzer • Passwort-geschützter Zugang • https (http mit Verschlüsselung) • Kombiniert Translation-Memory-Technologie mit Content. Management • Unterstützt Export in kommerzielle TM-Systeme (TMX-Austauschformat) • Unterstützt Export statischer Web-Seiten in allen verfügbaren Sprachen
Kompetenz für das Lokalisierungsprojekt und den Einsatz von Web-TCM Sprachdatenverarbeitung „Grundlagen der Lokalisierungstechnologie“ • • Codierungssysteme Lokalisierung von Schulungsmaterial (Text und Grafik) mit TM Dynamische Web-Seiten, HTML, XML Lokalisierungsprojekt: Web-Site-Lokalisierung (D E, F, R) – Projektorganisation • Projektmanager • Übersetzungsteams • „Proofreading”, Qualitätskontrolle – Arbeitsschritte • • • Extraktion von Textelementen aus Grafiken Vorbereitung der Terminologie Übersetzung der Webseiten „Proofreading“ Übergabe • Lokalisierungswerkzeug (Web-TCM) SS 2001
Entwicklung und Einsatz von Lokalisierungswerkzeugen 1. Lokalisierung 2. Kompetenzen bei der Entwicklung von Software und Lokalisierungswerkzeugen 3. Kompetenzen beim Einsatz von Lokalisierungswerkzeugen 4. Entwicklung des Lokalisierungswerkzeugs Web-TCM 5. Resümee
Resümee • Sowohl Entwicklung als auch Einsatz von Lokalisierungswerkzeugen erfordern Kompetenzen aus den drei Bereichen: – Informatik – Computerlinguistik – Sprachmittlung, Fachsprachen • Einrichtung der Vertiefungsrichtung „Softwarelokalisierung“ im Diplomstudiengang Fachübersetzen am Fachbereich Informatik trägt dieser Interdisziplinarität Rechnung • FB Informatik der HS Anhalt (FH) damit in der Hochschulausbildung wegweisend
- Slides: 49