Tatoeba – Satzwörterbuch
11. Oktober 2010
Am Wochenende habe ich mal wieder ein schönes neues Spielzeug entdeckt, und wie das so ist mit Spielzeugen, habe ich ziemlich viel Zeit damit vergeudet, aber es hat sich durchaus gelohnt). Die Rede ist von Tatoeba, einem Wörterbuch (man könnte auch sagen einem Korpus) für ganze Sätze.
Was ist Tatoeba?
In Tatoeba kann man (wenn man eingeloggt ist) zu jedem Satz eine oder mehrere Übersetzungen in allen möglichen Sprachen anlegen. Auf diese Weise kann man, wenn man zum Beispiel den Englischen Satz „How are you?“ übersetzt, sowohl den Satz „Wie geht es Ihnen?“, als auch den Satz „Wie geht es dir?“ aufnehmen. Wenn dann die deutschen Sätze weiter ins Französische übersetzt werden, wo der Sie-Du-Unterschied auch existiert, können sie direkt mit „Comment-allez vous?“ bzw. „Comment-vas-tu?“ verknüpft werden. Die Übersetzungen sollen nicht wortwörtlich sein, sondern möglichst so klingen, wie sie ein Muttersprachler auch sagen würde.
Die aktive Community ist zwar nicht riesig, aber – zumindest am Wochenende – sehr umtriebig. Beim Menüpunkt „Mitglieder“ kann man eine Liste einsehen, welche Benutzer wie aktiv sind, woraus ersichtlich wird, dass einige sehr viel Zeit und Mühe in das Projekt investieren.
Die grössten Sprachen sind Englisch, Japanisch, Französisch, Esperanto und Deutsch. Zahlreiche andere – für uns zum Teil ziemlich exotische Sprachen – sind aber ebenfalls Bestandteil des Projekts. Sehr schön ist, dass das Projekt nicht auf lateinische Schriften beschränkt ist. Überhaupt ist die Implementierung verschiedener Schriftsysteme sehr gut gelöst. Rechts- und linksbündige Sprachen funktionieren problemlos nebeneinander, nicht lateinische Schriftzeichen scheinen überhaupt kein Problem zu sein und für Chinesisch sind oft (immer?) sogar neben Pinyin und Kurzzeichen auch die Langzeichen angegeben.
Die Gründerin von Tatoeba erklärt in diesem englischsprachigen Video selber, was die Idee hinter Tatoeba ist:
Wie kann ich suchen?
Man kann das Korpus auf unterschiedliche Art und Weise durchstöbern. Oben gibt es eine Suchmaske, mit deren Hilfe man Sätze findet, die das gesuchte Wort enthalten. Man kann diese Resultate auf eine Sprache einschränken und zusätzlich angeben, ob zu den Sätzen Übersetzungen in einer bestimmten Sprache vorhanden sein müssen. Genauer suchen kann man mit boolschen Operatoren, wie zum Beispiel hier beschrieben.
Im Menüpunkt „Durchsuchen“, kann man wählen, ob man die Daten nach Sprache, Listen oder Tags durchstöbern will. Auf der Sprachansicht kann ich mir dann zum Beispiel alle Italienischen Sätze anzeigen lassen, die noch keine direkte Deutsche Übersetzung haben.
Wie kann ich mitmachen?
Zum Eingeben einer Übersetzung klickt man über dem entsprechenden Satz einfach auf das Icon mit den Schriftzeichen. Dann kann man die Übersetzung eingeben. Wenn man mehrere deutsche Übersetzungen zu einem Satz eingeben will, klickt man einfach noch mal auf das Icon. Wichtig ist nur, dass immer tatsächlich der Satz fett ist, den man gerade übersetzt. Die Sprache der Übersetzung muss man nicht angeben. Die automatische Spracherkennung ist sehr gut. Falls sie sich doch einmal irren sollte, kann man den Sätze, die man selber übersetzt hat, durch anklicken editieren. (Eine Liste mit allen Sätzen, die einem gehören, findet man auf der Profilseite
Die Eingabemaske für neue Sätze findet man bei „Mitmachen“. Von dort aus gelangt man auch auf Seite, die einem immer 5, 10 oder 15 zufällige Sätze zum übersetzen präsentiert.
Wer einen Fehler entdeckt, postet ihn als Kommentar. Deshalb sollte man von Zeit zu Zeit auf der Profilseite vorbeischauen und die Kommentare zu den eigenen Einträgen lesen. Eigene Kommentare kann man selber löschen. Das finde ich sehr praktisch, weil ich am Anfang ein paar Mal eine Übersetzung in den Kommentar geschrieben hatte, statt in das Übersetzungsfeld.
Was ein guter Tatoeba-Mitarbeiter beachten sollte, könnt ihr hier nachlesen.
Lizenz
Die Datenbank steht unter der CC-BY (Fr) Lizenz und können also auch von anderen benutzt und heruntergeladen werden. Für Unterrichtszwecke ist das Online-Portal aber ohne Zweifel die einfachste Lösung.
Kommentar
Wie ihr aus der Einleitung ersehen könnt, finde ich das Projekt toll. Zwei kritische Anmerkungen möchte ich dennoch machen. Die erste betreffen die Audio-Dateien. In Tatoeba besteht die Möglichkeit Audio zu integrieren, aber bisher gibt es noch kaum Audiodateien. Das liegt vor allem daran, dass die Audios nicht einfach so hochgeladen werden können, sondern ein ziemlich komplizierter Prozess eingehalten werden muss. Das dahintersteckende Streben nach Qualität verstehe ich zwar, aber die Lösung von Forvo, Nutzer über die Qualität abstimmen zu lassen, finde ich besser, weil das Mitmachen so niederschwelliger wird.
Die zweite Anmerkung betrift die Art der enthaltenen Daten. Dass die Wörter Kontext durch einen Satz erhalten, ist super. Noch besser wäre es allerdings, wenn auch die Sätze Kontext hätten. Die Interpretation eines Satzes – und damit seine Übersetzung – hängt oft vom Kontext ab. Abgemildert wird das allerdings durch die Möglichkeit, mehrere Übersetzungen für eine Satz einzugeben. Ein weiterer Stolperstein ist wieder mal das Urheberrecht, dass einen Grossteil der Texte von der Aufnahme ausschliesst. Soweit ich das verstehe, kann man auch keine Wikipediatexte integrieren, da die Lizenz der Wikipedia (CC-By-SA) strenger ist als die Lizenz von Tatoeba. Das führt dazu, dass sehr viele Sätze von den Benutzern ausgedacht werden und Sätze, von denen die Leute denken, dass sie sie sagen würden, sind nicht genau dasselbe wie Sätze, die sie tatsächlich produzieren. Die Richtlinien von Tatoeba für Beiträge sind aber vernünftig und sollten zusammen mit einer grossen Zahl an Beitragenden zu einer guten Durchmischung führen.
Wie gesagt, ich empfehle euch wirklich, das Projekt anzusehen. Und Beiträge zu schreiben macht überdies grossen Spass.
Abgelegt unter: E-Learning / neue Medien,Für Lehrende,Wortschatz
4 Kommentare
1. Eva Lacroix | 11. Oktober 2010 um 04:21
Danke für den Tipp, Cornelia. Allerdings bin ich beim ersten Stöbern gleich auf drei Fehler gestoßen: ein fehlender Umlaut (uberlegen), ein Tippfehler (Vorwurd statt Vorwurf) und eine problematische Präposition („wegen welcher Angelegenheit“ statt „in welcher Angelegenheit“). Das ist ein bisschen viel, um Lernende damit zu konfrontieren, finde ich.
Trotzdem sicher ein interessantes Tool.
Bis dann, die Eva.
2. Cornelia | 11. Oktober 2010 um 07:34
Ich nehme an, du hast die entsprechenden Sätze kommentiert, damit sie korrigiert werden können? 🙂
Was die mangelnde Verlässlichkeit betrifft, so hast du auch Recht. Das ist auch den Tatobeanern bewusst. Der Plan zur Abhilfe sieht so aus: http://blog.tatoeba.org/2010/04/reliability-of-sentences-how-will-we.html
3. Eva Lacroix | 12. Oktober 2010 um 04:59
Ich schau mir den Plan mal an. Danke!
Eva
4. Jonathan | 27. Oktober 2010 um 14:39
Das klingt bestimmt sehr gut. So wird es eigentlich eine nicht so einfache Übersetzung möglich, im Vergleich zu Google z.B.