DaF-Blog

Automatische Textkorrektur

18. Juni 2008

Der Hueberverlag hat soeben eine CD-Rom mit dem Titel Elektronisches Prüfungstraining B1 auf den Markt gebracht. Das Sprachenzentrum, an dem ich arbeite, bietet keine Zertifikatsprüfungen an und bereitet auch nicht auf solche vor. Dass ich die CD-Rom angeschafft habe, lag hauptsächlich an der Ankündigung, dass mit der CD-Rom auch die automatische Korrektur des Prüfungsteils schreiben möglich sei. Für mich als Computerlinguistin war das natürlich eine sehr interessante Meldung (auch wenn ich im Moment mit dem Fach nicht mehr sehr viel zu tun habe), denn im Bereich automatische Textkorrektur gibt es vermutlich mehr gescheiterte Projekte als gelungene (naja, auf jeden Fall gibt es viele eingeschlafene Projekte).

Evelyn Frei beschreibt im Artikel Prüfungstraining am Computer (pdf) genauer, wie die Textkorrekturkomponente entwickelt wurde.

Ich habe mir aus dem Artikel diejenigen Punkte herausgeschrieben, die mir am interessantesten schienen:

Aus den Korrekturen menschlicher Korrektoren liess sich kein Eichmassstab für das Programm entwickeln. Die Korrekturen waren zu inkonsistent. (S.3)
Grammatische Korrektheit (zum Beispiel Kongruenz in Nominalphrasen wie „einen schönen Tag“ wird mit Hilfe einer Datenbank überprüft, die Angaben zur Worthäufigkeit und vermutlich auch Angaben dazu enthält, welche Wörter in welchen Kontexten vorkommen. Dadurch, dass Dupel und Tripel gleichzeitig überprüft werden, können Nominalphrasen wie „der schönen Tag“ als falsch erkannt werden (S. 3f.)
Auch für die inhaltliche Bewertung wird mit einem Korpus aus Phrasen gearbeitet, die zur Erfüllung der Aufgabenstellung obligatorisch vorkommen müssen. (S.4)
Damit eine Bewertung überhaupt sinnvoll ist, braucht es eine Mindestanzahl von Wörtern (4o als Untergrenze).
Für die Bewertung der Morphologie arbeitet das Programm sowohl mit einer Liste deutscher Wortformen, als auch mit einer „Basis an Grundvokabular, aus dem mögliche Wortformen erzeugt werden“ (S. 4). Zumindest einige Regeln scheinen auf dieser Ebene also vorhanden zu sein.
Rückschlüsse auf das Sprachniveau lassen sich im Bereich Wortschatz schliessen indem man
- Die Lemmata mit Frequenztabelle abgleicht, wodurch ermittelt werden kann, ob der Prüfling mehr als nur die einfachsten Wortformen verwendet.
- Die Wiederholrate eines Wortes berücksichtigt (Wie oft kommt dasselbe Wort (evtl. in unterschiedlichen Formen) vor).
- Die Komplexität eines Wortes (scheint mehr oder weniger die Länge zu sein) ermittelt.
(S. 4)
Das Programm verwendet keinen Parser (S. 5 oben; ein Parser ist vereinfacht gesagt ein Programm, dass die Syntax eines Satzes ermittelt). Stattdessen wird die syntaktische Komplexität anhand der Häufigkeit und Varianz der Subjunktionen (= unterordnende Konjunktionen wie dass oder obwohl) ermittelt.
Duppel und Trippel werden auch für andere Bereiche (Kollokation, Gliederung, Kohäsion) eingesetzt. (s. 5)
Im Endprodukt wird eine Kombination aus einigen der beschriebenen Parameter verwendet, die untereinander gewichtet werden.

Beim Testen des Programmes war ich mit dem Ergebnis zufrieden. Die Rückmeldung erfolgt innert Sekunden (So schnell, dass ich es zuerst gar nicht gemerkt habe). Unser Testtext bekam knapp die Hälfte von 45 Punkten und dieses Ergebnis schien mir intuitiv und als Globalbewertung angemessen (Die Korrekturkriterien der menschlichen Prüfer des ZD sind mir allerdings nicht geläufig). Leider gibt das Programm über die Punktzahl hinaus keinerlei Rückmeldungen. Für eine Prüfungskorrektur finde ich das ausreichend, bei einem Trainingsprogramm aber eher unbefriedigend, denn schliesslich heisst Trainieren ja auch, dass man Schwächen erkennt und gezielt daran arbeitet.

Fazit: Das Programm scheint sich stark aus eine Mischung von Korpusdaten und Häufigkeitswerten zu stützen, wobei nicht ganz klar ist, wie diese Daten gesammelt werden. Für die Morphologie verwendet das Programm neben Listen auch einige einfache Regeln. Die Bewertung des Inhaltes ist möglich, weil der Inhalt durch die Aufgabenstellung relativ (Beispiel siehe Seite 2) stark vorgegeben ist.

Das Paper hat mich eher neugieriger gemacht, als ich nach dem einmaligen Ausprobieren eh schon war – ich hätte Lust das Programm ausführlicher zu testen, nur leider kostet jede Textkorrektur.

Soweit also meine Interpretation des Papers. Falls jemand mehr Infos hat, ich bin interessiert 🙂