Korpuslinguistik

Der Begriff Korpuslinguistik umschreibt nicht eine eigenständige Disziplin innerhalb der Linguistik, sondern vielmehr eine Methode, mit der linguistische Fragestellungen aus verschiedensten linguistischen Teilbereichen beantwortet werden können.

Inhalt dieser Seite:

Einführungen, Theorie
Konkordanzen und Konkordanzprogramme
Korpora
Linklisten
Sprachenlernen mit Korpora
weitere Werkzeuge

[Home] [Home Linguistik] [Googlesuche]
[Forensische Linguistik/ Stilometrie] [Grammatik] [Korpuslinguistik] [Linksammlungen/Kurse] [Morphologie] [Nachschlagen] [Orthographie] [Phonetik/Phonologie] [Pragmatik] [Schrift] [Semantik] [Spracherwerb] [Sprachgeschichte] [Sprachkritik] [Textlinguistik] [Varietäten] [Zeitschriften]

Einführungen, Theorie

BabelOn. Lernmodul zur Korpuslinguistik.
http://luna.lili.uni-bielefeld.de/babelon/

Entwicklung und Implementierung eines Datenbanksystems zur Speicherung und Verarbeitung von Textkorpora. Magisterarbeit von Marco Zierl.
http://www.linguistik.uni-erlangen.de/tree/html/corsica/zierl97/zierl97.html

Ergänzungsmaterial zum Buch Corpus linguistics von McEnery und Wilson.
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm

Systematic Dictionary of Corpuslinguistics.
http://donelaitis.vdu.lt/publikacijos/SDoCL.htm

Tutorial: Concordances and Corpora. Einführung in die Korpuslinguistik und den Umgang mit Korpora auf Englisch.
http://www.georgetown.edu/faculty/ballc/corpora/tutorial.html

nach oben

Konkordanzen und Konkordanzprogramme

Glossanet ist ein Online-Konkordanzprogramm, das Onlinepublikationen von Zeitschriften (in Englisch, Französisch, Deutsch, Holländisch, Griechisch, Italienisch, Spanisch, Portugiesisch, Norwegisch, Slowakisch und Russisch) als Korpus verwendet. Es existieren zwei Versionen. Glossanet Instant (http://glossa.fltr.ucl.ac.be/instant/), das die Resultate sofort liefert und Glossanet (http://glossa.fltr.ucl.ac.be/). Für letzteres ist eine kostenlose Registrierung nötig, die Abfragemöglichkeiten sind dank regulärer Ausdrücke aber auch viel genauer. Die erstellte Konkordanz wird per E-Mail versandt.

KWiCFinder ist ein Werkzeug, mit dessen Hilfe man genauere Anfragen an eine Suchmaschine stellen kann. Nur für Windows mit Explorer. Der Download ist kostenlos.
http://miniappolis.com/KWiCFinder/KWiCFinder.html

nach oben

Korpora

Ein Korpus ist eine Sammlung von sprachlichen Daten. Meistens handelt es sich um geschriebene Sprache, also um Texte in den verschiedensten Formen wie zum Beispiel auch transkribierte Gespräche. Es existieren aber auch Korpora aus Audio- oder Videodateien.
Verschiedene Korpora unterscheiden sich vor allem durch die Aufbereitung und Zusammensetzung der Daten voneinander.

Aufbereitung
In der einfachsten Form besteht ein Korpus aus unbearbeiteten Texten. Abfrage- und Erkenntnismöglichkeiten sind dadurch ziemlich eingeschränkt. Mehr Informationen werden durch annotierte Korpora zugänglich.
Bei der Annotatierung werden die Sprachdaten mit zusätzlichen Informationen, meist linguistischer Natur, versehen. Besonders verbreitet sind die Angabe von Wortart (part of speech) und syntaktischen Informationen. Die Annotierung grosser Textmengen von Hand ist nicht effizent, die automatischen Verfahren, wie zum Beispiel das Wortarten-Tagging oder Parsingverfahren zur Ermittlung syntaktischer Strukturen sind fehlerbehaftet. Entschärfen lässt sich dieses Problem durch menschliche Nachbereitung und Korntrolle der automatisch annotierten Merkmale.

Zusammensetzung
Neben einsprachigen Korpora existieren auch sogenannte Parallelkorpora, welche dasselbe Dokument in zwei verschiedenen Sprachen enthalten. Korrespondierende Sätze sind einander gegenüber gestellt. Diese Alignierung macht einen sinnvollen Sprachvergleich erst möglich und bietet zum Beispiel Übersetzern in Bezug auf Fachbegriffe wertvolle Recherchemöglichkeiten.
Textsorte, Domäne und Sprachregister können für alle Sprachdaten eines Korpus übereinstimmen oder heterogen sein.
Je nach Forschungszweck können auch Korpora mit Texten aus einem bestimmten sprachlichen Register, mit geographisch begrenzten Sprachformen (z.B. Dialekten), oder aus bestimmten Epochen etc. zusammengestellt werden.

Einsprachige Korpora

Deutsch:

http://www.dwds.de/: Digitales Wörterbuch der deutschen Sprache des 20. Jahrhunderts). Mit online Abfragemöglichkeit.
http://wortschatz.informatik.uni-leipzig.de/: Wortschatz Deutsch der Uni Leipzig. (Sitemap)
http://corpora.ids-mannheim.de/~cosmas/: Abfrage für das Cosmas-Corpus vom IDS-Mannheim. Wenn man die IDS-internen Korpora abwählt, ist auch eine Kontextanzeige möglich.
Datenbank gesprochenes Deutsch
http://dsav-oeff.ids-mannheim.de/DSAv/SUCHMASK.HTM

Englisch:

http://thetis.bl.uk/lookup.html: British National Corpus. (BNC). Beschränkte Online-Abfragemöglichkeit.
http://www.grsampson.net/RSue.html: SUSANNE

Schwedisch:

Eine Linkliste zu schwedischen Korpora findet man bei http://spraakdata.gu.se/lb/ (Språkbanken).

Spanisch:

http://www.corpusdelespanol.org/

nach oben

Parallelkorpora

Das Chemnitz Translation Corpus ist ein englisch-deutsches Übersetzungskorpus. Es ist Bestandteil der alten Version der Chemnitz Internet Grammar. Die Texte sind vier Kategorien zugeordnet, die einzeln oder gesamthaft durchsucht werden können. Jedes Dokument ist mit den notwendigen Quellenangaben versehen.
Um das Korpus benutzen zu können, muss man sich anmelden. Die Anmeldung ist kostenlos und unkompliziert.
Das Korpus ist im Frame rechts zu finden. Damit zu den Resultaten in der Zielsprache auch die Übersetzungen angezeigt werden, muss in der Suchmaske " Optional words or features to be found in parallel sentence:" mindestens ein Leerschlag eingegen werden. Man kann die Ausgabe aber auch einschränken indem man ein Wort eingibt, dass in der Übersetzung vorkommen muss.

http://www.tu-chemnitz.de/phil/InternetGrammar/shared/index.html

Mehrsprachige Korpora

Childes. Datenbank mit Transkripten zum Erst- und Zweitspracherwerb von Kindern und Erwachsenen. Hauptsächlich Englisch, aber auch einige andere Sprachen, unter anderem Deutsch.
http://childes.psy.cmu.edu/data/

Korpora-Sammlungen

(Siehe auch Linklisten) Links zu verschiedenen Korpora, nach Sprachen geordnet und kommentiert.

nach oben

Linklisten:

Bookmarks for Copus-based Linguists.
http://devoted.to/corpora

Corpora and Corpus-based Computational Linguistics. Zusammengestellt von Manuel Barbera.
http://www.bmanuel.org/

Düsseldorfer Virtuelle Bibliothek: Korpora und Korpuslinguistik. Korpora in verschiedenen Sprachen, Annotierung, Anwendungsmöglichkeiten, Werkzeuge, Kurse, Typologie etc.
http://www.uni-duesseldorf.de/WWW/ulb/angkorp.html

Weitere Linklisten zu verschiedenen Korpora, Kursen, Programmen und Tools findet man bei:

nach oben

Sprachenlernen mit Korpora

Using Corpora in Language Teaching and Learning. Spezial Ausgabe von Language Teaching and Technology, 2001. Verschiedne Aufsätze, Rezensionen und Kolummnen zum Einsatz von Korpora im Unterricht und bei der Entwicklung von Lehrmitteln.
http://llt.msu.edu/vol5num3/

nach oben

Weitere Werkzeuge für Korpuslinguisten

Perl für Philologen. Perl ist eine relativ einfach zu lernende Programmiersprache, die sich gut für die Arbeit mit Korpora eignet.
http://computerphilologie.uni-muenchen.de/praxis/PerlfuerPhilologen.html
(mehr Links im Bereich Informatik)

Software für korpuslinguistische Arbeit. Linkliste mit Morphologie- und Tagging-Programmen.
http://www.sfb441.uni-tuebingen.de/c1/cl-tools.html

nach oben

Die Site wird in unregelmässigen Abständen erweitert. Anmerkungen, Lob Kritik und insbesondere Hinweise auf Fehler (auf meiner eigenen Site) oder defekte Links bitte an kontaktBEIcornelia.siteware.ch. (BEI bitte durch @ ersetzen).
Für die Inhalte verlinkter Sites kann ich keine Verantwortung übernehmen.

Erstellt am 25.12.03 von Cornelia Steinmann. Letzte Bearbeitung am 15.12.04.
Webhosting durch Siteware Systems GmbH.