Tatoeba – Satzwörterbuch

11. Oktober 2010

Am Wochenende habe ich mal wieder ein schönes neues Spielzeug entdeckt, und wie das so ist mit Spielzeugen, habe ich ziemlich viel Zeit damit vergeudet, aber es hat sich durchaus gelohnt).  Die Rede ist von Tatoeba, einem Wörterbuch (man könnte auch sagen einem Korpus) für ganze Sätze.

Was ist Tatoeba?

In Tatoeba kann man (wenn man eingeloggt ist) zu jedem Satz eine oder mehrere Übersetzungen in allen möglichen  Sprachen anlegen. Auf diese Weise kann man, wenn man zum Beispiel den Englischen Satz “How are you?” übersetzt, sowohl den Satz “Wie geht es Ihnen?”, als auch den Satz “Wie geht es dir?” aufnehmen. Wenn dann die deutschen Sätze weiter ins Französische übersetzt werden, wo der Sie-Du-Unterschied auch existiert, können sie direkt mit “Comment-allez vous?” bzw. “Comment-vas-tu?” verknüpft werden. Die Übersetzungen sollen nicht wortwörtlich sein, sondern möglichst so klingen, wie sie ein Muttersprachler auch sagen würde.

Die aktive Community ist zwar nicht riesig, aber – zumindest am Wochenende – sehr umtriebig. Beim Menüpunkt “Mitglieder” kann man eine Liste einsehen, welche Benutzer wie aktiv sind, woraus ersichtlich wird, dass einige sehr viel Zeit und Mühe in das Projekt investieren.

Die grössten Sprachen sind Englisch, Japanisch, Französisch, Esperanto und Deutsch. Zahlreiche andere – für uns zum Teil ziemlich exotische Sprachen – sind aber ebenfalls Bestandteil des Projekts. Sehr schön ist, dass das Projekt nicht auf lateinische Schriften beschränkt ist. Überhaupt ist die Implementierung verschiedener Schriftsysteme sehr gut gelöst. Rechts- und linksbündige Sprachen funktionieren problemlos nebeneinander, nicht lateinische Schriftzeichen scheinen überhaupt kein Problem zu sein und für Chinesisch sind oft (immer?) sogar neben Pinyin und Kurzzeichen auch die Langzeichen angegeben.

Die Gründerin von Tatoeba erklärt in diesem englischsprachigen Video selber, was die Idee hinter Tatoeba ist:

Wie kann ich suchen?

Man kann das Korpus auf unterschiedliche Art und Weise durchstöbern. Oben gibt es eine Suchmaske, mit deren Hilfe man Sätze findet, die das gesuchte Wort enthalten. Man kann diese Resultate auf eine Sprache einschränken und zusätzlich angeben, ob zu den Sätzen Übersetzungen in einer bestimmten Sprache vorhanden sein müssen. Genauer suchen kann man mit boolschen Operatoren, wie zum Beispiel hier beschrieben.

Im Menüpunkt “Durchsuchen”, kann man wählen, ob man die Daten nach Sprache, Listen oder Tags durchstöbern will. Auf der Sprachansicht kann ich mir dann zum Beispiel alle Italienischen Sätze anzeigen lassen, die noch keine direkte Deutsche Übersetzung haben.

Wie kann ich mitmachen?

Bild 71Zum Eingeben einer Übersetzung klickt man über dem entsprechenden Satz einfach auf das Icon mit den Schriftzeichen. Dann kann man die Übersetzung eingeben. Wenn man mehrere deutsche Übersetzungen zu einem Satz eingeben will, klickt man einfach noch mal auf das Icon. Wichtig ist nur, dass immer tatsächlich der Satz fett ist, den man gerade übersetzt. Die Sprache der Übersetzung muss man nicht angeben. Die automatische Spracherkennung ist sehr gut. Falls sie sich doch einmal irren sollte, kann man den Sätze, die man selber übersetzt hat, durch anklicken editieren. (Eine Liste mit allen Sätzen, die einem gehören, findet man auf der Profilseite

Die Eingabemaske für neue Sätze findet man bei “Mitmachen”. Von dort aus gelangt man auch auf Seite, die einem immer 5, 10 oder 15 zufällige Sätze zum übersetzen präsentiert.

Wer einen Fehler entdeckt, postet ihn als Kommentar. Deshalb sollte man von Zeit zu Zeit auf der Profilseite vorbeischauen und die Kommentare zu den eigenen Einträgen lesen. Eigene Kommentare kann man selber löschen. Das finde ich sehr praktisch, weil ich am Anfang ein paar Mal eine Übersetzung in den Kommentar geschrieben hatte, statt in das Übersetzungsfeld.

Was ein guter Tatoeba-Mitarbeiter beachten sollte, könnt ihr hier nachlesen.

Lizenz

Die Datenbank steht unter der CC-BY (Fr) Lizenz und können also auch von anderen benutzt und heruntergeladen werden. Für Unterrichtszwecke ist das Online-Portal aber ohne Zweifel die einfachste Lösung.

Kommentar

Wie ihr aus der Einleitung ersehen könnt, finde ich das Projekt toll. Zwei kritische Anmerkungen möchte ich dennoch machen. Die erste betreffen die Audio-Dateien. In Tatoeba besteht die Möglichkeit Audio zu integrieren, aber bisher gibt es noch kaum Audiodateien. Das liegt vor allem daran, dass die Audios nicht einfach so hochgeladen werden können, sondern ein ziemlich komplizierter Prozess eingehalten werden muss. Das dahintersteckende Streben nach Qualität verstehe ich zwar, aber die Lösung von Forvo, Nutzer über die Qualität abstimmen zu lassen, finde ich besser, weil das Mitmachen so niederschwelliger wird.

Die zweite Anmerkung betrift die Art der enthaltenen Daten. Dass die Wörter Kontext durch einen Satz erhalten, ist super. Noch besser wäre es allerdings, wenn auch die Sätze Kontext hätten. Die Interpretation eines Satzes – und damit seine Übersetzung -  hängt oft vom Kontext ab. Abgemildert wird das allerdings durch die Möglichkeit, mehrere Übersetzungen für eine Satz einzugeben. Ein weiterer Stolperstein ist wieder mal das Urheberrecht, dass einen Grossteil der Texte von der Aufnahme ausschliesst. Soweit ich das verstehe, kann man auch keine Wikipediatexte integrieren, da die Lizenz der Wikipedia (CC-By-SA) strenger ist als die Lizenz von Tatoeba. Das führt dazu, dass sehr viele Sätze von den Benutzern ausgedacht werden und Sätze, von denen die Leute denken, dass sie sie sagen würden, sind nicht genau dasselbe wie Sätze, die sie tatsächlich produzieren. Die Richtlinien von Tatoeba für Beiträge sind aber vernünftig und sollten zusammen mit einer grossen Zahl an Beitragenden zu einer guten Durchmischung führen.

Wie gesagt, ich empfehle euch wirklich, das Projekt anzusehen. Und Beiträge zu schreiben macht überdies grossen Spass.

Post to Twitter Post to Delicious Post to Facebook

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Stimmen, durchschnittlich: 5,00 von 5)
Laden ... Laden ...

Abgelegt unter: E-Learning / neue Medien,Für Lehrende,Wortschatz

Schlagwörter:, , , , , , , , , ,

4 Kommentar schreiben Kommentar schreiben

  • 1. Eva Lacroix  |  11. Oktober 2010 um 04:21

    Danke für den Tipp, Cornelia. Allerdings bin ich beim ersten Stöbern gleich auf drei Fehler gestoßen: ein fehlender Umlaut (uberlegen), ein Tippfehler (Vorwurd statt Vorwurf) und eine problematische Präposition (“wegen welcher Angelegenheit” statt “in welcher Angelegenheit”). Das ist ein bisschen viel, um Lernende damit zu konfrontieren, finde ich.
    Trotzdem sicher ein interessantes Tool.
    Bis dann, die Eva.

  • 2. Cornelia  |  11. Oktober 2010 um 07:34

    Ich nehme an, du hast die entsprechenden Sätze kommentiert, damit sie korrigiert werden können? :-)
    Was die mangelnde Verlässlichkeit betrifft, so hast du auch Recht. Das ist auch den Tatobeanern bewusst. Der Plan zur Abhilfe sieht so aus: http://blog.tatoeba.org/2010/04/reliability-of-sentences-how-will-we.html

  • 3. Eva Lacroix  |  12. Oktober 2010 um 04:59

    Ich schau mir den Plan mal an. Danke!
    Eva

  • 4. Jonathan  |  27. Oktober 2010 um 14:39

    Das klingt bestimmt sehr gut. So wird es eigentlich eine nicht so einfache Übersetzung möglich, im Vergleich zu Google z.B.

Kommentar schreiben

(erforderlich)

(erforderlich), (Versteckt)

XHTML: Du kannst diese Tags verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

URL für Trackbacking  |  RSS -feed für Kommentare zu diesem Beitrag.


Linktipp

SPRACHLICH: Dies, DaF, ecetera.
Für Lernende (Aussprache, Grammatik, Hörverstehen und mehr) und Lehrende.

Kategorien

Neueste Kommentare

Blogs: DaF

Blogs: Lernende

Blogs: Sprache und (Online-)Lernen

DaF extern

 

Oktober 2010
M D M D F S S
« Sep   Nov »
 123
45678910
11121314151617
18192021222324
25262728293031

Meta

Stichwortsuche


  • (Spiel-)Vorlage (20)
  • A1 (150)
  • A2 (227)
  • Abzählverse (1)
  • Adjektive (1)
  • Advent (2)
  • Adventskalender (3)
  • akademisch (15)
  • ALSIC (1)
  • anfänger (5)
  • Anleitung (3)
  • Anleitungen (3)
  • App (5)
  • Arbeitsblatt (47)
  • Audacity (4)
  • Audio (55)
  • audio-lingua (4)
  • Audioforum (2)
  • ausdio (1)
  • Ausspracheregeln (12)
  • Ausspracheübung (29)
  • Aussprachewörterbuch (4)
  • authentisch (9)
  • authentische Texte (16)
  • automatisierung (5)
  • autonomes Lernen (31)
  • Autorensoftware (10)
  • B1 (281)
  • B2 (256)
  • Babylonia (1)
  • Beamer (1)
  • Beruf (1)
  • Berufe (2)
  • Bewegung (1)
  • Bewerbung (1)
  • bewerten (1)
  • Bilder (7)
  • bildwörterbuch (1)
  • blix (2)
  • blogs (4)
  • Bräuche (3)
  • Businessdeutsch (1)
  • CC (12)
  • Computerlinguistik (1)
  • Creative Commons (23)
  • DACH(L) (13)
  • daf-blogosphäre (5)
  • dafwebkon (4)
  • DDR (2)
  • dekodieren (2)
  • Deskriptoren (1)
  • deutsche Welle (10)
  • Deutschland (4)
  • Dialekt (9)
  • Dialoge (3)
  • DICE (1)
  • Didaktik (5)
  • digitalisieren (1)
  • Diktat (8)
  • Diskussion (4)
  • diskutieren (7)
  • Durchsage (1)
  • dwds (2)
  • Einsatz von E-Learning (40)
  • Energie (3)
  • Englisch (3)
  • englischer Beitrag (14)
  • Essen (11)
  • Etymologie (1)
  • Fachsprache (5)
  • Fachwortschatz (2)
  • feedback (1)
  • Feiertage (5)
  • Flash (2)
  • Flüssigkeit (2)
  • Fragesätze (1)
  • Frauenstimmrecht (1)
  • Freizeit (2)
  • Fremdwörter (2)
  • Fugen-Element (2)
  • Fussball (1)
  • Gastbeiträge (1)
  • Gedächtnistraining (1)
  • Gedicht (1)
  • Genitiv (1)
  • GER (2)
  • Geschichte (7)
  • Gesellschaft (1)
  • gesprochene Sprache (1)
  • gesundheit (1)
  • GFL (1)
  • google (2)
  • Grammatik (4)
  • gruppenarbeit (12)
  • Handy (5)
  • Heidi (2)
  • Hilfsmittel (2)
  • Hirschfeld (1)
  • Hören und Sehen (41)
  • Hörsehverstehen (6)
  • Hörübung (20)
  • Hörverstehen (7)
  • Hotpotatoes (8)
  • html (1)
  • Humor (2)
  • IDT (22)
  • imperativ (2)
  • improvisieren (2)
  • IMS (1)
  • Info-DaF (1)
  • Interaktiv (10)
  • interkulturell (6)
  • Interview (6)
  • Intonation (4)
  • IPA (5)
  • Karten (3)
  • kollaborativ (2)
  • Kollokation (2)
  • Kölsch (1)
  • Kommunikation (3)
  • Komposita (7)
  • kontrastiv (2)
  • Korpora (2)
  • Kreuzworträtsel (2)
  • Krimi (3)
  • Kriterien (1)
  • Kurzfilm (2)
  • Kurzfilme (3)
  • Landessprachen (1)
  • learning-apps (3)
  • Lehrerrolle (2)
  • Lehrmittel (2)
  • lernerzentriert (31)
  • Lernplattform (6)
  • Lerntipps (30)
  • Lesen (1)
  • Lieder (2)
  • Literatur (2)
  • LL&T (2)
  • LMS (3)
  • lückenfüller (1)
  • Lückentexte (5)
  • Makros (1)
  • Männer und Frauen (2)
  • Mauer (1)
  • Medien (1)
  • mehrsprachig (35)
  • Methode (2)
  • Methodik (2)
  • Methodik A2 (1)
  • mitlesen (1)
  • mitmachen (7)
  • mitsprechen (1)
  • mobiles Lernen (1)
  • Modalverben (3)
  • Multimediaintegration (1)
  • Multiple Choice (2)
  • Musik (1)
  • Musikvideo (8)
  • Nachrichten (3)
  • Nationalität (1)
  • nievau c (1)
  • Niveau C (200)
  • Niveau C1 (1)
  • ohne Vorkenntnisse (1)
  • ohne Login (6)
  • ohne Vorbereitung (2)
  • Open Office (1)
  • open source (2)
  • österreichisches Deutsch (5)
  • Partnerarbeit (13)
  • Passiv (1)
  • Pausierung (3)
  • Phonem-Graphem (17)
  • phonematisches Hören (9)
  • Phonetik (2)
  • phonologische Form (1)
  • plattformübergreifend (1)
  • Podcast (11)
  • Poesie (2)
  • Politik (5)
  • Portfolio (1)
  • präpositionen (1)
  • Präteritum (2)
  • Programme für E-Learning (49)
  • Projekt (14)
  • Projekte (1)
  • Projektorganisation (3)
  • Quiz (4)
  • Radio (1)
  • Radko (1)
  • Ratgeber (1)
  • Rechtschreibung (13)
  • Redemittel (3)
  • Reflexion (2)
  • Reisen (2)
  • Relativätze (1)
  • Ressourcen für E-Learning (39)
  • Rezension (16)
  • Rhythmus (4)
  • Rollenspiel (2)
  • Roman (2)
  • Satzakzent (1)
  • schnell (1)
  • Schweizer Hochdeutsch (31)
  • Schweizerisch (1)
  • Schweizerisches (87)
  • Schwyzerdütsch (10)
  • SCORM (1)
  • sehen (1)
  • selbeermachen (1)
  • selbermachen (19)
  • selektiv lesen (1)
  • selektives Hören (4)
  • selektives Lesen (1)
  • Silbe (8)
  • Skype (1)
  • Slideshare (4)
  • sms (1)
  • Spielfilm (4)
  • spielform (15)
  • sport (1)
  • Sprachbetrachtung (2)
  • Sprache (8)
  • Sprachkurs (2)
  • Sprachlerncommmunity (4)
  • Sprachlerncommunity (1)
  • Sprechaufgaben (2)
  • Sprechaufträge (2)
  • Sprechübung (3)
  • Stadtführung (2)
  • Standardsprache (6)
  • Statistik (8)
  • Statistiken (1)
  • Strategien (5)
  • Studium (1)
  • Südtirol (2)
  • Syntax (8)
  • Szeneprotokoll (1)
  • Tags (1)
  • Tandem (1)
  • Tandemlernen (7)
  • Tanskription (1)
  • technische Tipps (15)
  • Templates (1)
  • Test (2)
  • Text (1)
  • text-to-speech (1)
  • Textrekonstruktion (9)
  • Textsorte (1)
  • Theater (1)
  • Tourismus (5)
  • Traditionen (6)
  • Transkirpte (1)
  • Transkription (9)
  • übersetzen (1)
  • Übungsgenerator (4)
  • Umfrage (8)
  • Unterichtsidee (1)
  • Unterrichtsidee (3)
  • Untertitel (3)
  • Urheberrecht (2)
  • Varietäten (33)
  • VBZ (1)
  • Veranstaltungen (1)
  • verben (6)
  • Verkehr (2)
  • Verständlichkeit (1)
  • Video (122)
  • Videos (1)
  • Voice Thread (2)
  • Vokale (4)
  • Vorentlastung (2)
  • Vorlesen (3)
  • Vortrag (6)
  • Wechselspiele (3)
  • Wegbeschreibung (2)
  • Weihnachten (14)
  • Weiterbildung (3)
  • Werbung (6)
  • Wettbewerb (2)
  • wetter (1)
  • Whiteboard (2)
  • Wiki (2)
  • Wissenschaft (5)
  • wohnen (2)
  • Word (4)
  • wordpress (5)
  • Wortakzent (18)
  • Wortbildung (13)
  • Wörterbuch (3)
  • Wörterbuchbenutzung (3)
  • Wörterbücher (16)
  • Wortgruppenakzent (2)
  • Wortlisten (1)
  • Wortschatz (4)
  • Wortschatzliste (1)
  • Wortsuche (2)
  • Zahlen (2)
  • Zeit (1)
  • Zeitschrift (7)
  • zeitung (2)
  • ZIF (2)
  • Zungenbrecher (2)
  • Zuordnungsübung (5)
  • Zürich (1)
  • Zusamenfassung (2)