Korpuslinguistik
Der Begriff Korpuslinguistik umschreibt nicht eine
eigenständige
Disziplin innerhalb der Linguistik, sondern vielmehr eine Methode, mit
der linguistische Fragestellungen aus verschiedensten linguistischen
Teilbereichen beantwortet werden können.
Einführungen, Theorie
BabelOn. Lernmodul zur Korpuslinguistik.
http://luna.lili.uni-bielefeld.de/babelon/
Entwicklung und Implementierung eines Datenbanksystems zur
Speicherung und Verarbeitung von Textkorpora. Magisterarbeit
von Marco Zierl.
http://www.linguistik.uni-erlangen.de/tree/html/corsica/zierl97/zierl97.html
Ergänzungsmaterial zum Buch
Corpus
linguistics von McEnery und Wilson.
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm
Systematic Dictionary of
Corpuslinguistics.
http://donelaitis.vdu.lt/publikacijos/SDoCL.htm
Tutorial: Concordances and
Corpora. Einführung in
die Korpuslinguistik und den Umgang mit Korpora auf Englisch.
http://www.georgetown.edu/faculty/ballc/corpora/tutorial.html
Konkordanzen und Konkordanzprogramme
Glossanet ist ein Online-Konkordanzprogramm, das
Onlinepublikationen von Zeitschriften (in Englisch, Französisch,
Deutsch, Holländisch, Griechisch, Italienisch, Spanisch,
Portugiesisch,
Norwegisch, Slowakisch und Russisch) als Korpus verwendet. Es
existieren zwei Versionen. Glossanet Instant
(
http://glossa.fltr.ucl.ac.be/instant/),
das die Resultate sofort
liefert und Glossanet (
http://glossa.fltr.ucl.ac.be/).
Für letzteres
ist eine kostenlose Registrierung nötig, die
Abfragemöglichkeiten sind
dank regulärer Ausdrücke aber auch viel genauer. Die
erstellte Konkordanz wird per E-Mail versandt.
KWiCFinder ist ein Werkzeug, mit dessen Hilfe man
genauere
Anfragen an eine Suchmaschine stellen kann. Nur für Windows mit
Explorer. Der Download ist kostenlos.
http://miniappolis.com/KWiCFinder/KWiCFinder.html
Korpora
Ein Korpus ist eine Sammlung von
sprachlichen Daten. Meistens handelt
es sich um geschriebene Sprache, also um Texte in den verschiedensten
Formen wie zum Beispiel auch transkribierte Gespräche. Es
existieren aber
auch Korpora aus Audio- oder Videodateien.
Verschiedene Korpora unterscheiden sich vor allem durch die
Aufbereitung und Zusammensetzung der Daten voneinander.
Aufbereitung
In der einfachsten Form besteht ein Korpus aus unbearbeiteten Texten.
Abfrage- und Erkenntnismöglichkeiten sind dadurch ziemlich
eingeschränkt. Mehr Informationen werden durch annotierte Korpora
zugänglich.
Bei der Annotatierung werden die Sprachdaten mit zusätzlichen
Informationen, meist linguistischer Natur, versehen. Besonders
verbreitet sind die Angabe von Wortart (part of speech) und
syntaktischen Informationen. Die Annotierung grosser Textmengen von
Hand ist nicht effizent, die automatischen Verfahren, wie zum Beispiel
das Wortarten-Tagging oder Parsingverfahren zur Ermittlung
syntaktischer Strukturen sind fehlerbehaftet. Entschärfen
lässt sich
dieses Problem durch menschliche Nachbereitung und Korntrolle der
automatisch annotierten Merkmale.
Zusammensetzung
Neben einsprachigen Korpora existieren auch sogenannte Parallelkorpora,
welche dasselbe Dokument in zwei verschiedenen Sprachen enthalten.
Korrespondierende Sätze sind einander gegenüber gestellt.
Diese
Alignierung macht einen sinnvollen Sprachvergleich erst möglich
und
bietet zum Beispiel Übersetzern in Bezug auf Fachbegriffe
wertvolle
Recherchemöglichkeiten.
Textsorte, Domäne und Sprachregister können für alle
Sprachdaten eines
Korpus übereinstimmen oder heterogen sein.
Je nach Forschungszweck können auch Korpora mit Texten aus einem
bestimmten sprachlichen Register, mit geographisch begrenzten
Sprachformen (z.B. Dialekten), oder aus bestimmten Epochen etc.
zusammengestellt werden.
Einsprachige Korpora
Deutsch:
Englisch:
Schwedisch:
Parallelkorpora
Das
Chemnitz Translation Corpus ist ein
englisch-deutsches Übersetzungskorpus. Es ist Bestandteil der
alten Version der Chemnitz Internet Grammar. Die Texte sind vier
Kategorien zugeordnet, die einzeln oder gesamthaft durchsucht werden
können. Jedes Dokument ist mit den notwendigen Quellenangaben
versehen.
Um das Korpus benutzen zu können, muss man sich anmelden. Die
Anmeldung ist kostenlos und unkompliziert.
Das Korpus ist im Frame rechts zu finden. Damit zu den Resultaten in
der Zielsprache auch die Übersetzungen angezeigt werden, muss in
der Suchmaske " Optional words or features to be found in parallel
sentence:" mindestens ein Leerschlag eingegen werden. Man kann die
Ausgabe aber auch einschränken indem man ein Wort eingibt, dass in
der Übersetzung vorkommen muss.
http://www.tu-chemnitz.de/phil/InternetGrammar/shared/index.html
Mehrsprachige Korpora
Childes. Datenbank mit Transkripten zum Erst- und
Zweitspracherwerb von Kindern und Erwachsenen. Hauptsächlich
Englisch, aber auch einige andere Sprachen, unter anderem Deutsch.
http://childes.psy.cmu.edu/data/
Korpora-Sammlungen
(Siehe auch
Linklisten)
Links zu verschiedenen Korpora, nach Sprachen geordnet und kommentiert.
Linklisten:
Bookmarks for Copus-based Linguists.
http://devoted.to/corpora
Corpora and Corpus-based Computational Linguistics.
Zusammengestellt von Manuel Barbera.
http://www.bmanuel.org/
Düsseldorfer Virtuelle Bibliothek: Korpora und
Korpuslinguistik. Korpora in verschiedenen Sprachen, Annotierung,
Anwendungsmöglichkeiten, Werkzeuge, Kurse, Typologie etc.
http://www.uni-duesseldorf.de/WWW/ulb/angkorp.html
Weitere Linklisten zu verschiedenen
Korpora,
Kursen,
Programmen und
Tools findet man bei:
Sprachenlernen mit
Korpora
Using Corpora in Language Teaching and Learning.
Spezial Ausgabe von Language Teaching and Technology, 2001. Verschiedne
Aufsätze, Rezensionen und Kolummnen zum Einsatz von Korpora im
Unterricht und bei der Entwicklung von Lehrmitteln.
http://llt.msu.edu/vol5num3/
Weitere Werkzeuge für
Korpuslinguisten
Perl
für Philologen. Perl ist eine relativ einfach zu
lernende Programmiersprache, die sich gut für die Arbeit mit
Korpora eignet.
http://computerphilologie.uni-muenchen.de/praxis/PerlfuerPhilologen.html
(mehr Links im Bereich
Informatik)
Software für korpuslinguistische Arbeit.
Linkliste mit Morphologie- und Tagging-Programmen.
http://www.sfb441.uni-tuebingen.de/c1/cl-tools.html
Die Site wird in unregelmässigen
Abständen erweitert. Anmerkungen, Lob Kritik und insbesondere
Hinweise auf Fehler (auf meiner eigenen Site) oder defekte Links bitte
an kontaktBEIcornelia.siteware.ch. (BEI bitte durch @ ersetzen).
Für die Inhalte verlinkter Sites kann ich keine Verantwortung
übernehmen.
Erstellt am 25.12.03 von Cornelia
Steinmann. Letzte Bearbeitung am 15.12.04.
Webhosting durch Siteware
Systems GmbH.