DaF-Blog

Korpora für Deutsch: C4

15. April 2011

Schon als ich das erste Mal von Korpuslinguistik gehört habe, war ich begeistert. Die Idee, schauen zu können, wie andere die Sprache benutzen und sich nicht nur auf die eigene Introspektion verlassen zu müssen, hat mich sofort überzeugt. Es ist deshalb nicht weiter verwunderlich, dass es hier im Blog schon einige Beiträge rund um Korpora gibt, zum Beispiel zum Wortschatzprojekt der Uni-Leipzig, zum Satzwörterbuch Tatoeba, zur Verwendung von Google als Testwerkzeug für Sprachproduktion, zur Paralleltextsuchmaschine Linguee oder zum DWDS (=digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts).

Entsprechen habe ich mich auch gefreut, als Thomas Studer an der Ledafids-Tagung einige Korpora für Deutsch vorgestellt hat, die ich noch nicht kannte oder die es zumindest noch nicht bis ins Blog geschafft haben.

Die erste Entdeckung, der dieser Beitrag gewidmet ist, war C4, ein Koporationsprojekt des DWDS , des AAC (Austrian Academy Corpus), des Korpus Südtirol und dem Schweizer Textkorpus (CHTK). Das besondere an dem Korpus ist also, dass es aus nationalsprachlichen Einzelkorpora besteht, die man sowohl als ganzes als auch nach Korpus gefiltert abfragen kann. Das deutsche und das Schweizer Korpus enthalten je 20. Mio. Textwörter, der AAC 4.1 Mio und und das Korpus Südtirol 1.7 Mio. Nachlesen kann man das auf der Einstiegsseite: http://chtk.unibas.ch/korpus-c4/search. Genaueres zur Zusammentstellung der einzelnen Korpora (=welche Textsorte aus welcher Zeitperiode kommt wie oft in welchem Korpus vor) kann man unter Struktur nachlesen. Man kann die Korpora ohne Login benützen, mit Login erhält man aber mehr Daten (Nutzungsbedingungen).

Im Menü über der Suchmaske findet man einige wichtige Hilfsmittel wie den Filter (Korpus, Zeit, Textsorte …) und Beispiele für die Abfragesyntax. Es sind ziemlich komplexe Abfragen möglich. Mit „$Lemma=Entscheidung #5 $Lemma=treffen“ findet man alle Sätze, in denen irgend eine From von Entscheidung vor irgend einer Form von treffen im Abstand von höchstens 5 Wörtern in einem Satz vorkommt. $Lemma=Entscheidung && $Lemma=treffen liefert eine Liste von Sätzen in denen die beiden Wörter in beliebiger Reihenfolge in irgendeiner Form gemeinsam vorkommen. Auf diese Weise findet man schnell viele Beispiele für dieses Funktionsverbgefüge in verschiedensten grammatischen Formen, ohne dass man sie selber durchprobieren muss.