Das Web als Korpus: Suchmaschinen

4. Mai 2009

Dank den Anregungen von Eva in den Kommentaren zu den Überlegungen zur DiGS-Studie will ich in nächster Zeit ein paar Beiträge zu Korpora und Konkordanzen schreiben. Während meinem CL-Studium habe ich mich öfters mit Korpuslinguistik beschäftigt, aber die entsprechende Linkliste ist ziemlich veraltet. Da ich jenen Teil der Seite eingefroren habe, kommt das Update jetzt in diesem Blog. Zuerst mal aber ein par grundsätzliche Aussagen zu Korpora.

Ein Korpus ist eine Sammlung von sprachlichen Daten. Meistens handelt es sich um geschriebene Sprache, also um Texte in den verschiedensten Formen (von Zeitungstexten über Lerneraufsätze bis zu transkribierten Gesprächen). Es existieren aber auch Korpora aus Audio- oder Videodateien.
Verschiedene Korpora unterscheiden sich voneinander vor allem durch die Aufbereitung, die Abfragemöglichkeiten und die Zusammensetzung der Daten .

Aufbereitung und Abfragemöglichkeiten

In der einfachsten Form besteht ein Korpus aus unbearbeiteten Texten. Abfrage- und Erkenntnismöglichkeiten sind dadurch ziemlich eingeschränkt. Man kann damit zum Beispiel nicht ohne weiteres nach allen Formen eines Wortes suchen, sondern muss selber alle möglichen Suchabragen generieren.

Mehr Informationen werden durch annotierte Korpora zugänglich. Bei der Annotatierung werden die Sprachdaten mit zusätzlichen Informationen, meist linguistischer Natur, versehen. Besonders verbreitet sind die Angabe von Wortart (part of speech) und syntaktischen Informationen (zum Beispiel Negra). Die Annotierung grosser Textmengen von Hand ist nicht effizent, die automatischen Verfahren, wie zum Beispiel das Wortarten-Tagging oder Parsingverfahren zur Ermittlung syntaktischer Strukturen sind fehlerbehaftet. Entschärfen lässt sich dieses Problem durch menschliche Nachbereitung und Korntrolle der automatisch annotierten Merkmale, das ist aber zeitintensiv.

Zusammensetzung
Neben einsprachigen Korpora existieren auch sogenannte Parallelkorpora, welche dasselbe Dokument in zwei verschiedenen Sprachen enthalten. Korrespondierende Sätze sind einander gegenüber gestellt. Diese Alignierung macht einen sinnvollen Sprachvergleich erst möglich und bietet zum Beispiel Übersetzern in Bezug auf Fachbegriffe wertvolle Recherchemöglichkeiten.
Textsorte, Domäne und Sprachregister können für alle Sprachdaten eines Korpus übereinstimmen oder heterogen sein. Je nach Forschungszweck können auch Korpora mit Texten aus einem bestimmten sprachlichen Register, mit geographisch begrenzten Sprachformen (z.B. Dialekten), oder aus bestimmten Epochen etc. zusammengestellt werden.

Das Web als Korpus

Das grösste existierende Korpus deutscher Sprache ist das WWW. Die einfachsten Abfrageinstrumente zu diesem Korpus sind die normalen Suchmaschinen. Allerdings sind die Abfragemöglichkeiten begrenzt. In der Regel kann man mit Anführungszeichen nach Phrasen suchen: „hat Spass gemacht“ findet nur Dokumente, in denen diese Sequenz ganz genauso vorkommt. Wenn im Dokument „hat grossen Spass gemacht“ steht, wird es nicht gefunden. Man kann Wörter mit Minuszeichen aus den Resultaten ausschliessen oder mit Pluszeichen erzwingen, dass sie vorkommen. Früher konnte man bei den meisten Suchmaschinen Wildcards benutzen. Mit Wildcards kann man Teile eines Wortes offen lassen. Leider gibt es praktisch keine Web-Suchmaschine mehr, die solche Wildcards unterstützt. Die einzige, die ich noch gefunden habe, ist Exalead, eine Suchmaschine, die mir vorher gänzlich unbekannt war. Bei Exalead kann man das Ende eines Wortes weglassen, indem man es durch einen Stern ersetzt. lach* findet unter anderem lachen, lache, Lacher und -weil exalead Umlaute ignoriert – auch lächeln.

Bei google und yahoo gibt es immerhin Stringwildcards. Wenn man einen Ausdruck in Anführungszeichen (=String) sucht, kann man * als Platzhalter benutzen. Mit der Anfrage „Deutsch ist * als Englisch“ findet man dann zum Beispiel: Deutsch ist schöner / schwieriger / nicht schwieriger / plötzlich cooler / weitaus präziser / blöder / halt umständlicher / interessanter als Englisch etc. Beispiele mit mehr als zwei Wörtern an Stelle des Platzhalters habe ich keine gesehen. Aus einer Laune heraus habe ich im Beispiel „ich bin * aufgestanden“ den Stern verdoppelt, also „ich bin * * aufgestanden“, und siehe da: aus den anfangs kurzen Sätzen wie Ich bin früh/gerade/erst aufgestanden wurden plötzlich längere Gebilde wie zum Beispiel ich bin um sieben Uhr aufgestanden oder Ich bin von meinem Mittagsschlaf aufgestanden.

Google benutzt zudem Stemming, das heisst, dass die Suchmaschine zt. auch andere Wortformen in die Abfrage einbezieht. Wenn man Buch lesen eingibt, liefert google auch Resulte zurück, die Bücher lesen enthalten. Das ist zum Teil ganz nützlich, wenn man das Web als Korpus benutzen möchte und an ganz speziellen Formen interessiert ist, aber eher weniger. Wenn man google auf eine bestimmte Form festlegen will, kann man das schon erwähnte Plus-Zeichen benutzen. Mit der Anfrage +Buch lesen werden die Plurale nicht mehr in die Suche einbezogen.

Eine Übersicht über die Suchmöglichkeiten bei verschiedenen Suchmaschinen (auf Englisch) findet ihr hier: http://www.searchengineshowdown.com/features/, bzw. http://www.searchengineshowdown.com/features/byfeature.shtml.

1 Stern2 Sterne3 Sterne4 Sterne5 Sterne (2 Stimmen, durchschnittlich: 5,00 von 5)
Loading...

Abgelegt unter: E-Learning / neue Medien,Für Lehrende,Für Lernende,Wortschatz

1 Kommentar

  • 1. Heino  |  6. Mai 2014 um 08:41

    Gut verständlicher Artikel, für die meisten anderen Einführungen ins Thema Korpora benötigt man leider eine Menge Vorkenntnisse bzw. erweiterte Kenntnisse der linguistischen Fachterminologie.


Linktipp

SPRACHLICH: Dies, DaF, ecetera. Für Lernende (Aussprache, Grammatik, Hörverstehen und mehr) und Lehrende.
Mai 2009
M D M D F S S
 123
45678910
11121314151617
18192021222324
25262728293031