{"id":771,"date":"2009-05-04T11:02:08","date_gmt":"2009-05-04T10:02:08","guid":{"rendered":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/?p=771"},"modified":"2014-05-07T19:32:00","modified_gmt":"2014-05-07T18:32:00","slug":"das-web-als-korpus-suchmaschinen","status":"publish","type":"post","link":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/2009\/05\/04\/das-web-als-korpus-suchmaschinen","title":{"rendered":"Das Web als Korpus: Suchmaschinen"},"content":{"rendered":"<p>Dank den Anregungen von Eva in den <a href=\"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/2009\/05\/01\/uberlegungen-zur-digs-studie\">Kommentaren zu den \u00dcberlegungen zur DiGS-Studie<\/a> will ich in n\u00e4chster Zeit ein paar Beitr\u00e4ge zu Korpora und Konkordanzen schreiben. W\u00e4hrend meinem CL-Studium habe ich mich \u00f6fters mit Korpuslinguistik besch\u00e4ftigt, aber die entsprechende <a href=\"http:\/\/cornelia.siteware.ch\/linguistik\/korpus.html\">Linkliste ist ziemlich veraltet<\/a>. Da ich jenen Teil der Seite eingefroren habe, kommt das Update jetzt in diesem Blog. Zuerst mal aber ein par grunds\u00e4tzliche Aussagen zu Korpora.<\/p>\n<p>Ein <strong>Korpus<\/strong> ist eine Sammlung von sprachlichen Daten. Meistens handelt es sich um geschriebene Sprache, also um Texte in den verschiedensten Formen (von Zeitungstexten \u00fcber Lerneraufs\u00e4tze bis zu transkribierten Gespr\u00e4chen). Es existieren aber auch Korpora aus Audio- oder Videodateien.<br \/>\nVerschiedene Korpora unterscheiden sich voneinander vor allem durch die Aufbereitung, die Abfragem\u00f6glichkeiten und die Zusammensetzung der Daten .<\/p>\n<p><strong>Aufbereitung und Abfragem\u00f6glichkeiten<br \/>\n<\/strong><\/p>\n<p>In der einfachsten Form besteht ein Korpus aus unbearbeiteten Texten. Abfrage- und Erkenntnism\u00f6glichkeiten sind dadurch ziemlich eingeschr\u00e4nkt. Man kann damit zum Beispiel nicht ohne weiteres nach allen Formen eines Wortes suchen, sondern muss selber alle m\u00f6glichen Suchabragen generieren.<\/p>\n<p>Mehr Informationen werden durch annotierte Korpora zug\u00e4nglich. Bei der Annotatierung werden die Sprachdaten mit zus\u00e4tzlichen Informationen, meist linguistischer Natur, versehen. Besonders verbreitet sind die Angabe von Wortart (part of speech) und syntaktischen Informationen (zum Beispiel <a href=\"http:\/\/www.coli.uni-saarland.de\/projects\/sfb378\/negra-corpus\/negra-corpus.html\">Negra<\/a>). Die Annotierung grosser Textmengen von Hand ist nicht effizent, die automatischen Verfahren, wie zum Beispiel das Wortarten-Tagging oder Parsingverfahren zur Ermittlung syntaktischer Strukturen sind fehlerbehaftet. Entsch\u00e4rfen l\u00e4sst sich dieses Problem durch menschliche Nachbereitung und Korntrolle der automatisch annotierten Merkmale, das ist aber zeitintensiv.<\/p>\n<p><strong>Zusammensetzung <\/strong><br \/>\nNeben einsprachigen Korpora existieren auch sogenannte Parallelkorpora, welche dasselbe Dokument in zwei verschiedenen Sprachen enthalten. Korrespondierende S\u00e4tze sind einander gegen\u00fcber gestellt. Diese Alignierung macht einen sinnvollen Sprachvergleich erst m\u00f6glich und bietet zum Beispiel \u00dcbersetzern in Bezug auf Fachbegriffe wertvolle Recherchem\u00f6glichkeiten.<br \/>\nTextsorte, Dom\u00e4ne und Sprachregister k\u00f6nnen f\u00fcr alle Sprachdaten eines Korpus \u00fcbereinstimmen oder heterogen sein. Je nach Forschungszweck k\u00f6nnen auch Korpora mit Texten aus einem bestimmten sprachlichen Register, mit geographisch begrenzten Sprachformen (z.B. Dialekten), oder aus bestimmten Epochen etc. zusammengestellt werden.<\/p>\n<p><strong>Das Web als Korpus<br \/>\n<\/strong><\/p>\n<p>Das gr\u00f6sste existierende Korpus deutscher Sprache ist das WWW. Die einfachsten Abfrageinstrumente zu diesem Korpus sind die normalen Suchmaschinen. Allerdings sind die Abfragem\u00f6glichkeiten begrenzt. In der Regel kann man <strong>mit Anf\u00fchrungszeichen nach Phrasen<\/strong> suchen: &#8222;hat Spass gemacht&#8220; findet nur Dokumente, in denen diese Sequenz ganz genauso vorkommt. Wenn im Dokument &#8222;hat grossen Spass gemacht&#8220; steht, wird es nicht gefunden. Man kann W\u00f6rter mit <strong>Minuszeichen<\/strong> aus den Resultaten ausschliessen oder mit <strong>Pluszeichen<\/strong> erzwingen, dass sie vorkommen. Fr\u00fcher konnte man bei den meisten Suchmaschinen <strong>Wildcards <\/strong>benutzen. Mit Wildcards kann man Teile eines Wortes offen lassen. Leider gibt es praktisch keine Web-Suchmaschine mehr, die solche Wildcards unterst\u00fctzt. Die einzige, die ich noch gefunden habe, ist <a href=\"http:\/\/www.exalead.com\/search\/\">Exalead<\/a>, eine Suchmaschine, die mir vorher g\u00e4nzlich unbekannt war. Bei Exalead kann man das Ende eines Wortes weglassen, indem man es durch einen Stern ersetzt. lach* findet unter anderem lachen, lache, Lacher und -weil exalead Umlaute ignoriert &#8211; auch l\u00e4cheln.<\/p>\n<p>Bei <a href=\"http:\/\/google.ch\">google<\/a> und <a href=\"http:\/\/yahoo.com\">yahoo<\/a> gibt es immerhin <strong>Stringwildcards<\/strong>. Wenn man einen Ausdruck in Anf\u00fchrungszeichen (=String) sucht, kann man * als Platzhalter benutzen. Mit der Anfrage &#8222;Deutsch ist * als Englisch&#8220; findet man dann zum Beispiel: Deutsch ist sch\u00f6ner \/ schwieriger \/ nicht schwieriger \/ pl\u00f6tzlich cooler \/ weitaus pr\u00e4ziser \/ bl\u00f6der \/ halt umst\u00e4ndlicher \/ interessanter als Englisch etc. Beispiele mit mehr als zwei W\u00f6rtern an Stelle des Platzhalters habe ich keine gesehen. Aus einer Laune heraus habe ich im Beispiel &#8222;ich bin * aufgestanden&#8220; den Stern verdoppelt, also &#8222;ich bin * * aufgestanden&#8220;, und siehe da: aus den anfangs kurzen S\u00e4tzen wie <em>Ich bin fr\u00fch\/gerade\/erst aufgestanden<\/em> wurden pl\u00f6tzlich l\u00e4ngere Gebilde wie zum Beispiel <em>ich bin um sieben Uhr aufgestanden <\/em><em>oder<\/em> <em>Ich bin von meinem Mittagsschlaf aufgestanden.<\/em><\/p>\n<p>Google benutzt zudem Stemming, das heisst, dass die Suchmaschine zt. auch andere Wortformen in die Abfrage einbezieht. Wenn man <em>Buch lesen<\/em> eingibt, liefert google auch Resulte zur\u00fcck, die <em>B\u00fccher lesen<\/em> enthalten. Das ist zum Teil ganz n\u00fctzlich, wenn man das Web als Korpus benutzen m\u00f6chte und an ganz speziellen Formen interessiert ist, aber eher weniger. Wenn man google auf eine bestimmte Form festlegen will, kann man das schon erw\u00e4hnte Plus-Zeichen benutzen. Mit der Anfrage <em>+Buch lesen<\/em> werden die Plurale nicht mehr in die Suche einbezogen.<\/p>\n<p>Eine \u00dcbersicht \u00fcber die Suchm\u00f6glichkeiten bei verschiedenen Suchmaschinen (auf Englisch) findet ihr hier: <a href=\"http:\/\/www.searchengineshowdown.com\/features\/\">http:\/\/www.searchengineshowdown.com\/features\/<\/a>, bzw. <a href=\"http:\/\/www.searchengineshowdown.com\/features\/byfeature.shtml\">http:\/\/www.searchengineshowdown.com\/features\/byfeature.shtml.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>In diesem Beitrag geht es um Korpora im Allgemeinen und das Web als Korpus, das zum Beispiel mit normalen Suchmaschinen abgefragt werden kann im Besonderen. <\/p>\n","protected":false},"author":24,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,11,16,4],"tags":[29,30,10,22,35],"_links":{"self":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/771"}],"collection":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/users\/24"}],"replies":[{"embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/comments?post=771"}],"version-history":[{"count":5,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/771\/revisions"}],"predecessor-version":[{"id":775,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/posts\/771\/revisions\/775"}],"wp:attachment":[{"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/media?parent=771"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/categories?post=771"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/cornelia.siteware.ch\/blog\/wordpress\/wp-json\/wp\/v2\/tags?post=771"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}