{"id":336,"date":"2008-06-18T06:41:57","date_gmt":"2008-06-18T05:41:57","guid":{"rendered":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/2008\/06\/18\/automatische-textkorrektur"},"modified":"2009-09-13T20:14:21","modified_gmt":"2009-09-13T19:14:21","slug":"automatische-textkorrektur","status":"publish","type":"post","link":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/2008\/06\/18\/automatische-textkorrektur","title":{"rendered":"Automatische Textkorrektur"},"content":{"rendered":"<p>Der Hueberverlag hat soeben eine CD-Rom mit dem Titel <a href=\"http:\/\/www.hueber.de\/huebershop\/detail.html?refresh=true&amp;action=show&amp;isbn=978-3-19-031651-9&amp;elka_id=523938&amp;selected_elka_id=523938&amp;theme=default\">Elektronisches Pr\u00fcfungstraining B1<\/a> auf den Markt gebracht. Das Sprachenzentrum, an dem ich arbeite, bietet keine Zertifikatspr\u00fcfungen an und bereitet auch nicht auf solche vor. Dass ich die CD-Rom angeschafft habe, lag haupts\u00e4chlich an der Ank\u00fcndigung, dass mit der CD-Rom auch die automatische Korrektur des Pr\u00fcfungsteils schreiben m\u00f6glich sei. F\u00fcr mich als Computerlinguistin war das nat\u00fcrlich eine sehr interessante Meldung (auch wenn ich im Moment mit dem Fach nicht mehr sehr viel zu tun habe), denn im Bereich automatische Textkorrektur gibt es vermutlich mehr gescheiterte Projekte als gelungene (naja, auf jeden Fall gibt es viele eingeschlafene Projekte).<\/p>\n<p>Evelyn Frei beschreibt im Artikel <a href=\"http:\/\/www.hueber.de\/shared\/elka\/Internet_Muster\/Red1\/978-3-19-031651-9_einfuehrung.pdf\">Pr\u00fcfungstraining am Computer<\/a> (pdf) genauer, wie die Textkorrekturkomponente entwickelt wurde.<\/p>\n<p>Ich habe mir aus dem Artikel diejenigen Punkte herausgeschrieben, die mir am interessantesten schienen:<\/p>\n<ul>\n<li>Aus den Korrekturen menschlicher Korrektoren liess sich kein Eichmassstab f\u00fcr das Programm entwickeln. Die Korrekturen waren zu inkonsistent. (S.3)<\/li>\n<li>Grammatische Korrektheit (zum Beispiel Kongruenz in Nominalphrasen wie &#8222;einen sch\u00f6nen Tag&#8220; wird mit Hilfe einer Datenbank \u00fcberpr\u00fcft, die Angaben zur Worth\u00e4ufigkeit und vermutlich auch Angaben dazu enth\u00e4lt, welche W\u00f6rter in welchen Kontexten vorkommen. Dadurch, dass Dupel und Tripel gleichzeitig \u00fcberpr\u00fcft werden, k\u00f6nnen Nominalphrasen wie &#8222;der sch\u00f6nen Tag&#8220; als falsch erkannt werden (S. 3f.)<\/li>\n<li>Auch f\u00fcr die inhaltliche Bewertung wird mit einem Korpus aus Phrasen gearbeitet, die zur Erf\u00fcllung der Aufgabenstellung obligatorisch vorkommen m\u00fcssen. (S.4)<\/li>\n<li>Damit eine Bewertung \u00fcberhaupt sinnvoll ist, braucht es eine Mindestanzahl von W\u00f6rtern (4o als Untergrenze).<\/li>\n<li>F\u00fcr die Bewertung der Morphologie arbeitet das Programm sowohl mit einer Liste deutscher Wortformen, als auch mit einer &#8222;Basis an Grundvokabular, aus dem m\u00f6gliche Wortformen erzeugt werden&#8220; (S. 4). Zumindest einige Regeln scheinen auf dieser Ebene also vorhanden zu sein.<\/li>\n<li>R\u00fcckschl\u00fcsse auf das Sprachniveau lassen sich im Bereich Wortschatz schliessen indem man\n<ul>\n<li>Die Lemmata  mit Frequenztabelle abgleicht, wodurch ermittelt werden kann, ob der Pr\u00fcfling mehr als nur die einfachsten Wortformen verwendet.<\/li>\n<li>Die  Wiederholrate eines Wortes ber\u00fccksichtigt (Wie oft kommt dasselbe Wort (evtl. in unterschiedlichen Formen)  vor).<\/li>\n<li>Die Komplexit\u00e4t eines Wortes (scheint mehr oder weniger die L\u00e4nge zu sein) ermittelt.<\/li>\n<\/ul>\n<p>(S. 4)<\/li>\n<li>Das Programm verwendet keinen Parser (S. 5 oben; ein Parser ist vereinfacht gesagt ein Programm, dass die Syntax eines Satzes ermittelt). Stattdessen wird die syntaktische Komplexit\u00e4t anhand der H\u00e4ufigkeit und Varianz der Subjunktionen (= unterordnende Konjunktionen wie dass oder obwohl) ermittelt.<\/li>\n<li>Duppel und Trippel werden auch f\u00fcr andere Bereiche (Kollokation, Gliederung, Koh\u00e4sion) eingesetzt. (s. 5)<\/li>\n<li>Im Endprodukt wird eine Kombination aus einigen der beschriebenen Parameter verwendet, die untereinander gewichtet werden.<\/li>\n<\/ul>\n<p>Beim Testen des Programmes war ich mit dem Ergebnis zufrieden. Die R\u00fcckmeldung erfolgt innert Sekunden (So schnell, dass ich es zuerst gar nicht gemerkt habe). Unser Testtext bekam knapp die H\u00e4lfte von 45 Punkten und dieses Ergebnis schien mir intuitiv und als Globalbewertung angemessen (Die Korrekturkriterien der menschlichen Pr\u00fcfer des ZD sind mir allerdings nicht gel\u00e4ufig). Leider  gibt das Programm \u00fcber die Punktzahl hinaus keinerlei R\u00fcckmeldungen. F\u00fcr eine Pr\u00fcfungskorrektur finde ich das ausreichend, bei einem Trainingsprogramm aber eher unbefriedigend, denn schliesslich heisst Trainieren ja auch, dass man Schw\u00e4chen erkennt und gezielt daran arbeitet.<\/p>\n<p><strong>Fazit: <\/strong>Das Programm scheint sich stark aus eine Mischung von Korpusdaten und H\u00e4ufigkeitswerten zu st\u00fctzen, wobei nicht ganz klar ist, wie diese Daten gesammelt werden.  F\u00fcr die Morphologie verwendet das Programm neben Listen auch einige einfache Regeln. Die Bewertung des Inhaltes ist m\u00f6glich, weil der Inhalt durch die Aufgabenstellung relativ (Beispiel siehe Seite 2) stark vorgegeben ist.<\/p>\n<p>Das Paper hat mich eher neugieriger gemacht, als ich nach dem einmaligen Ausprobieren eh schon war &#8211; ich h\u00e4tte Lust das Programm ausf\u00fchrlicher zu testen, nur leider kostet jede Textkorrektur.<\/p>\n<p>Soweit also meine Interpretation des Papers. Falls jemand mehr Infos hat, ich bin interessiert \ud83d\ude42<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Der Hueberverlag hat soeben eine CD-Rom mit dem Titel: Elektronisches Pr\u00fcfungstraining B1 auf den Markt gebracht. Mit der CD-Rom erwirbt man die M\u00f6glichkeit, einen Text online korrigieren zu lassen. <\/p>\n","protected":false},"author":24,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,187,36,159,11,32,181],"tags":[43],"_links":{"self":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/336"}],"collection":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/users\/24"}],"replies":[{"embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/comments?post=336"}],"version-history":[{"count":3,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/336\/revisions"}],"predecessor-version":[{"id":1335,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/336\/revisions\/1335"}],"wp:attachment":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/media?parent=336"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/categories?post=336"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/tags?post=336"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}