In
englischen
Gerichten wurden schon einige Male bei der
Verifizierung von Geständnissen stilometrische
Methoden angewendet, so zum
Beispiel beim Berufungsverfahren der Birmingham six, dass mit
einem Freispruch der Angeklagten endete [Campbell
1992: 25; Morgan
1991]. Allerdings wurde
dazu bisher
meistens eine Methode (Cusum)
verwendet, die äusserst stark
umstritten ist.
Zudem ist die Frage, ob es tatsächlich einen nicht verleugbaren
Individualstil - auch linguistischer Fingerabdruck genannt - gibt, der
trotz bewusster Kontrolle von Seiten des Schreibers feststellbar
bleibt, immer noch umstritten. Zwar gehen stilometrische Untersuchungen
in der Regel von der stillschweigenden Annahme aus, dass neben den vom
Autor beeinflussten auch nicht kontrollierbare
Stilmerkmale existieren, die eine sichere Zuordnung eines Textes auch
dann gewährleisten, wenn der Urheber seinen Stil bewusst zu
kaschieren
versucht oder einer bestimmten Schreibtradition folgt, aber die Studie
von Dixon und Mannion zu Oliver Goldsmith zeigte, dass bei der Auswahl
eben dieser Merkmale höchste Vorsicht geboten ist (siehe weiter unten). Hinzu kommt, dass Stilmerkmale, die durch
die Textsorte bedingt sind, Merkmale des Individualstils zu
überlagern scheinen (Einfluss des Genrestils).
Das bedeutet, dass nur Texte der gleichen Textsorte miteinander
verglichen werden dürften, und stilometrische Analysen zum
Vornherein an Datenmangel scheitern könnten.
Ein
Softwareforensik beschäftigt sich mit
der Analyse von Quell- und Binärcode mit dem Ziel, Autoren von
Computerprogrammen zu
bestimmen, von anderen zu unterscheiden und hinsichtlich ihrer
Programmiergewohnheiten, ihrer Ausbildung und ihres Wissenstandes zu
charakterisieren [GRAY
et al. 1997:2]. Zudem versucht sie festzustellen, ob
bösartiger Code absichtlich oder zufällig zustande kam
[GRAY
et al. 1997:3] und untersucht Fälle von
Plagiarismus [GRAY
et al. 1997:5]. Dieses Unterfangen mag zuerst abwegig erscheinen,
da Programmiersprachen sehr viel stärker fomalisiert sind als
natürliche Sprachen, dennoch hat ein Programmierer zahlreiche
Möglichkeiten, seinen persönlichen Vorlieben zu folgen.
Dieselbe Funktionalität kann in unterschiedlichen
Programmiersprachen, und mit verschiedensten Algorithmen, Kontroll- und
Datenstrukturen
erreicht werden. Weitere Unterschiede zeigen sich zum Beispiel im
Layout, bei der Benennung von Variabeln und Funktionen, in der
Ausführlichkeit und Art der Kommentare und bei eventuell
vorhandenen Fehlern [GRAY
et al. 1997:5f.]. Eine ausführliche Liste
möglicher Merkmale findet man bei Krusl und Spafford [KRUSL/
SPAFFORD 1996: 5-8].
Krsul Ivan, Spafford Eugene H (1996). Authorship Analysis: Identifying The Author of a Program. Online unter: ftp://ftp.cerias.purdue.edu/pub/papers/ivan-krsul/krsul-spaf-authorship-analysis.ps (Stand vom 16.10.03)
De Vel, O.; Andersond, A. ; Corney, M. et al (2001b). Multi-Topic-E-Mail Authorship Attribution Forensics.. Online unter: http://sky.fit.qut.edu.au/~corneym/papers/ACM_WDMSA_01_topic.pdf (Stand vom 16.10.03)
Wörtlichgenommen bedeutet Stilometrie so viel wie "Messung von
Stil". Sie untersucht aber nicht Stil als Selbstzweck, sondern will
aufgrund bestimmter Stilmerkmale Aussagen zur Urheberschaft
eines Werks zu machen, um zum Beispiel einen Text einem bestimmten
Autor zuzuordnen, Ergänzungen anderer Autoren aufzuspüren
oder Texte in eine chronologische Reihenfolge zu bringen [OAKES
1998: 199f.].
Was der Text bedeutet, wie diese Bedeutung
strukturiert ist oder ob das Geschriebene den Tatsachen entspricht oder
nicht, ist dabei nicht relevant. Entscheidend ist hingegegen,
diejenigen Merkmale zu finden, die einen bestimmten Text oder einen
Textausschnitt von einem anderen
eindeutig unterscheiden [MORTON:
1978: 7].
Weil die Stilometrie, da sie
ihre Daten vorzugsweise statistisch und wenn immer möglich mit
dem Computer auswertet, nur mit Stilmerkmalen arbeiten kann, die
numerisch ausgedrückt werden können, kommen einige
sprachliche Erscheinungen zur Auswertung nicht in Frage, obwohl sie
durchaus Bestandteile eines linguistischen oder
literaturwissenschaftlichen Stilbegriffs sind. Das gilt zum
Beispiel für Sprachfiguren wie Symbole und Metaphern, die nicht
eindeutig
definiert und (noch) nicht automatisch ermittelbar sind.
Laut
Oakes kann jede beliebig geartete sprachliche Erscheinung für die
stilometrische Analyse verwendet werden. Einzige Bedingung ist, dass
sie numerisch ausgedrückt werden kann [Oakes
1998: 202f.]. Die ausgewählten Merkmale sollten allerdings auch
für andere Textgruppen relevant sein [MCENNERY,
OAKES 2000:248].
Als weiteres Kriterium gilt, dass die als Vergleichsbasis
gewählten Merkmale nicht der Kontrolle des Autors unterliegen
sollten, was die erwähnten Sprachfiguren wiederum ausschliesst.
Vermutlich aus demselben Grund werden in der
Stilometrie zusätzlich zu den eher linguistischen auch anderere
Kriterien, wie zum Beispiel Buchstabenbigramme, verwendet, die schwer
mit einem alltäglichen Verständnis von Stil vereinbar sind,
aber
dafür auch kaum direkt vom Autor kontrolliert werden
können.
Die Existenz solcher nicht manipulierbarer Stilmerkmale ist für
die
Stilometrie zentral. Ohne sie würde jede Basis für einen
erkenntnisfördernden Vergleich fehlen. Ob die Annahme der Existenz
solcher Merkmale berechtigt ist, will ich an dieser Stelle nicht
abschliessend entscheiden, aber auf zwei Studien hinweisen, die
belegen, das zumindest Vorsicht geboten ist.
Dixon und Mannion unternahmen eine Studie zu
Oliver Goldsmith, einem
sehr flexiblen Schriftsteller, der zum Beispiel seinen Stil in der
indirekten Rede dem jeweiligen Sprecher anpasste [DIXON/MANNION
1993:3]. Um die für Goldsmith charakteristischen
Stilmerkmale zu bestimmen, verglichen sie seine Essays mit denjenigen
von vier zeitgenössischen Essayisten und eliminierten dabei alle
Tests, welche die verschiedenen Texte nicht genügend voneinander
unterschieden.
Bei der Auswertung der Untersuchungsresultate stellte sich jedoch
heraus, dass trotzdem zwei der Vergleichsautoren, beide in London
lebende anglo-irische Exilianten wie Goldsmith, immer sehr nahe bei
den Goldsmithclustern auftauchten.
Vorsicht geboten ist auch, wenn aus Materialmangel Texte anderer Genres zum Vergleich herangezogen werden müssen. Ein englisch-niederländisches Forscherteam untersuchte an den Texten des Nijmegen-Korpus die Unterschiede sowohl zwischen verschiedenen Autoren innerhalb des gleichen Genres, als auch zwischen Texten eines Autors, die aus verschiedenen Genres stammten. Die Untersuchungen ergaben, dass sich Texte aus dem selben Genre stärker ähnelten als solche desselben Autors. Innerhalb eines Genres hingegen liessen sich die Autoren voneinander unterscheiden [BAAYEN et. al.1996].
In
frühen stilometrischen Untersuchungen, ab der Mitte des 19.
Jahrhunderts, wurden als Merkmale vor allem die Längen von
Wörtern und Sätzen, die Wortstellung, Hapax legomena, aber auch
Rhytmuseigenschaften herangezogen [OAKES
1998: 202f.].
Die
Satzlänge wird auch noch in modernen Studien
verwendet, allerdings in der Regel
nur als ein Merkmal unter vielen.
Smith kam zum Schluss, dass die Satzlänge zwar nicht als
alleinstehendes Unterscheidungsmerkmal eingesetzt werden könne,
aber die Ergebnisse anderer Methoden in der Regel bestätige
[SMITH
1983: 77]. Die grössten Nachteile der
Satzlänge bestehen in der Kontrollier- und Imitierbarkeit durch
den Autor und in der Abhängigkeit von der Interpunktion, was sie
als Merkmal gerade für ältere Texte ungeeignet macht, da
man ansonsten Gefahr läuft, bis zu einem gewissen Grad statt der
Satzlängenvorlieben des Autors diejenigen eines Herausgebers zu
untersuchen [HOLMES
1994: 89].
Bei den auf lexikalischen Einheiten basierenden Ansätzen kann man grob zwei Richtungen unterscheiden. Einerseits diejenigen, welche mit den Häufigkeiten einzelner Wörter arbeiten und andererseits jene, welche Umfang und Differenziertheit des Wortschatzes untersuchen und messen [STAMATATOS et al. 2001: 195].
All
diesen Versuchen liegen die Annahmen zu Grunde, dass sich Autoren
erstens durch ihren Wortschatz voneinander unterscheiden und dass sie
zweitens über ihren Wortgebrauch nur beschränkt Kontrolle
ausüben können. Wenn dies stimmt, so sollte der
Wortgebrauch aus Gewohnheit und automatisch erfolgen, demzufolge
konsistent sein und somit zur Textzuordnung verwendet werden
können
[HOOVER
2003: 151f.]. Weil Leser die Differenziertheit des
Wortschatzes
nicht
den Tatsachen entsprechend wahrnehmen und als schwierig empfundene
Texte ihnen oft als wortschatzreich erscheinen [S. 152f.],
wären verlässliche und objektiv nachprüfbare Masse sehr
wünschenswert.
Zur
Messung der Wortschatzdifferenziertheit
wurden
verschiedene Masse entwickelt. Das wichtigste Problem dabei ist die
Abhängigkeit des Wortschatzes von der Textlänge. Für
alle der im folgenden erwähnten Wortschatzmasse wurden aber
zumindet Zweifel angemeldet, dass sie diese Bedingung erfüllen.
Das
Type-Token-Verhältnis reflektiert die
Häufigkeitsverteilung
der verwendeten Wörter. Dabei werden je nach Art der
Studie und dem Aufbereitungsgrad der verwendeten Daten alle
syntaktischen Ausprägungen eines Lexems als Tokens eines Types
gewertet oder nur Wörter mit identischer Schreibweise.
[HOLMES
1994: 97]. Sein grosser Nachteil ist die
Abhängigkeit von der Länge des zu analysierenden Textes.
Die Anzahl der Tokens ist dank der Wiederverwendbarkeit menschlicher
Sprachzeichen theoretisch unbegrenzt, die Zahl verschiedener Types
hingegen ist endlich und nimmt mit zunehmender Textmenge langsamer zu
[TWEEDIE/BAAYEN
1998: 325]. Daher
ist das Type-Token-Verhältnis nur für Vergleiche von Texten
mit identischer oder zumindest ähnlicher Länge geeignet
[HOLMES
1994: 92]. Dasselbe gilt für die durchschnittliche
Worthäufigkeit [TWEEDIE/BAAYEN
1998: 326],
das heisst
den Kehrwert des Type-Token-Verhältnisses, das als Mass für
die
Benutzung bisher nicht verwendeter Wörter interpretiert wird und
bisher nur auf Werke von Marlowe und Shakespeare angewendet wurde
[Holmes1994: 92].
Es
wurden verschiedene Versuche unternommen, das
Type-Token-Verhältnis mit Hilfe einfacher
mathematischer Transformationen zu normalisieren. Trotzdem sind alle
diese Funktionen nicht vollständig unabhängig von der
Textlänge [TWEEDIE/BAAYEN
1998: 331-333].
Der
grösste Teil aller in einem Text auftretenden Lexeme erscheinen
nur einmal. Diese Wörter nennt man hapax
legomena. Einige
davon kommen im betrachteten Text aufgrund ihrer normalen Verteilung
vor. Das sie einmal auftreten, ist aufgrund ihrer Häufigkeit
innerhalb der entsprechenden Sprache zu erwarten. Andere hingegen,
meistens Fachbegriffe oder altmodische Wörter, sind wirklich
selten und im betrachteten Text gewissermassen übervertreten und
damit für ihn charakteristisch. Viele qualitative
Literaturstudien haben sich auf die hapax legomena
konzentriert, weil sie den Hintergrund und die Interessen eines
Autors reflektieren sollen. Für die direkte statistische
Analyse, zum Beispiel mit dem χ2-Test, eignen sie sich
einzelne hapax legomena allerdings nicht, da die betrachteten Merkmale
dazu mindestens
fünf mal vorkommen müssen [OAKES
1998: 201f.].
Honorés
Mass der Wortschatzdifferenziertheit stützt sich auf die Anzahl
der hapax legomena. Je mehr von ihnen auftreten, als
desto
differenzierter gilt der Wortschatz des Autors. Indirekt misst
Honoré
damit die Neigung eines Autors, statt eines bereits verwendeten ein
neues Wort zu benutzen [HOLMES
1994: 97].
Dabei geht er von der Annahme aus, dass das Verhältnis der hapax
legomena zum Umfang des Wortschatzes bezüglich des
Logarithmus der Textgrösse konstant ist [TWEEDIE/BAAYEN
1998: 328f.].
Tatsächlich nimmt es mit zunehmender Textlänge aber monoton
ab [S. 332].
Sichel untersuchte die Anzahl der hapax dislegomena, der zweimal verwendeten Wörter in einem Text, und stellte fest, dass das Verhältnis zur Gesamtzahl der Wörter für Texte zwischen 1000 und 400'000 Wörtern nahezu konstant blieb. Er erklärte dies mit der Vermutung, dass die Anzahl neuer hapax legomena die Zahl der Wörter aufwiege, die durch erneutes Auftreten aus der hapax dislegomena Kategorie verschwänden [HOLMES 1994: 98]. Tweedie und Baayen haben aber gezeigt, dass das Verhältnis in einer Textprobe von 26’500 unter Annahme des Urnenmodells zuerst zu einem Maximum ansteigt und mit zunehmender Textlänge wieder abnimmt [TWEEDIE/BAAYEN 1998: 332f.]. Zudem war für dieses Mass die Variabilität zwischen verschiedenen Autoren ebenso gross wie jene innerhalb von Texten eines Autors. Es ist deshalb zur Unterscheidung verschiedener Autoren nicht geeignet [S. 335].
Während
die Masse von Sichel und Honoré den Wortschatz am unteren Rand
der Häufigkeitsverteilung untersuchen, arbeitet eine weitere
Reihe von Massen mit den häufig wiederholten Wörtern.
Simpsons Mass basiert auf der Wahrscheinlichkeit, dass
zwei zufällig
gewählte Wörter zum selben Type gehören. Das Mass
reagiert vor allem auf hochfrequente Wörter; die hapax
legomena fallen, obwohl sie einen sehr grossen Teil des
Wortschatzes ausmachen, kaum ins Gewicht [HOLMES
1994: 92]. Das Hinzufügen einiger der
seltener im Text vorkommenden Wörtern, wobei einige hapax
legomena zu dislegomena werden, führt sogar dazu,
dass der Text bezüglich des Wortschatzes als reichhaltiger
eingestuft wird, was allerdings der Intuition zuwiderläuft [HOOVER
2003: 153f.].
Dieselbe Wahrscheinlichkeit wie bei Simpson liegt auch Yules K-Charakteristik zu Grunde [OAKES 1998: 204]. Je mehr Wörter wiederholt werden, desto höher ist der Wert für K. Der Wert ist von der Textlänge unabhängig, sofern man davon ausgeht, dass die Wörter eines Textes unabhängig voneinander vorkommen, also einer Poisson-Verteilung folgen [HOLMES 1994: 92]. Tweedie und Baayen untersuchten den Einfluss der Diskursstruktur eines Textes auf die Verteilung von Wörtern und kamen zum Schluss, dass sie für eine verlässliche Analyse einbezogen werden muss, da auch die wenigen zumindest theoretisch konstanten Masse Abhängigkeiten von der Textlänge aufwiesen [TWEEDIE/BAAYEN 1998: 349].
Die
Entropie ist ein Mass für die Strukturiertheit
eines Textes. Sie
nimmt mit zunehmender Zufälligkeit und Ungeordnetheit zu.
Vermehrte innere Strukturierung führt zu einer Abnahme der
Entropie [HOLMES
1994: 93]. Auch dieses Mass wurde normalisiert um
den Einfluss der Textlänge auszuschliessen. Wie Tweedie und
Baayen gezeigt haben, ist es jedoch bezüglich der Textlänge
nicht konstant [TWEEDIE/BAAYEN
1998: 331-333]. Zudem erscheint einigen Autoren
die Interpretation der Entropie für den stilistischen Vergleich
problematisch [HOLMES
1994: 93]. Hoover führt in diesem
Zusammenhang die Untersuchungen Thoirons an, der einem Text Teile
dieses Textes hinzufügte, beziehungsweise den Text sogar
verdoppelte. Die beiden Experimente hatten nicht die erwarteten
Auswirkungen auf die Entropie, die in etwa konstant blieb, obwohl
eigentlich durch die zunehmenden Wiederholungen eine Abnahme zu
erwarten gewesen wäre. Hoover gibt allerdings zu bedenken, dass
diese Textverdoppelung den Stil in unnatürlicher Weise
beeinflusst und einen tiefen Eingriff in die Textstruktur darstellt.
Dies sieht man daran, dass sich Sichels Mass, das auf der Anzahl der
hapax legomena basiert, erwartungsgemäss grundlegend
ändert, während die Werte für die Entropie, die
Wiederholungsrate des häufigsten Wortes, Yules Charakteristik
und andere Masse völlig oder beinahe identisch bleiben [HOOVER
2003: 155-157]. Dies könnte ein Indiz dafür
sein, dass die Entropie Redundanz in einem Text nicht oder nur
ungenügend berücksichtigt.
Schlussfolgerung
zu den Wortschatzmassen
Von
den vorgestellten Wortschatzmassen ist keines tatsächlich
unabhängig von der Textlänge, womit ein wichtiges Ziel
nicht erreicht wurde. Hoover
kommt zum Schluss dass „a disputed text displaying very
different vocabulary richness cannot be reliably assumed to belong to
a different author.“ [HOOVER
2003: 168]. Texte eines
Autors oder sogar Abschnitte eines einzigen Textes unterscheiden sich
untereinander im Wortschatz, und damit auch in seiner
Differenziertheit, beinahe ebenso stark wie von Texten anderer
Autoren [S. 169].
Obwohl Wortschatzmasse teilweise richtige Resultate liefern, sind sie
nicht konsistent und verlässlich und sollten Hoovers Meinung
nach höchstens für Vorabklärungen verwendet werden
[S. 173].
Für die Verwendung der Häufigkeiten von Wörtern spricht allein schon die schiere Masse an zur Verfügung stehenden Variabeln. Da verschiedene Studien gezeigt haben, dass ein stilistisches Merkmal zur Unterscheidung von Autoren nicht ausreicht, beziehungsweise für ein bestimmtes Autorpaar eventuell überhaupt nicht diskriminiert, verspricht laut Mosteller und Wallace eine grosse Menge verschiedener Variabeln die beste Aussicht auf Erfolg. In einer Vorstudie zu den Federalist papers ermittelten sie alle identischen Buchstabensequenzen ohne Berücksichtigung ihrer Wortart, Bedeutung oder Schreibweise [MOSTELLER/WALLACE 1984: 16], konzentrierten sich aber schon bald auf die sogenannten Funktionswörter. Sie zählten dazu Präpositionen, Konjunktionen, Pronomen, einige Adverben und Adjektive sowie Hilfsverben. Der Vorzug der Funktionswörter ist, dass sie relativ unabhängig vom Inhalt sind [S. 17]. Potentielle Kontextabhängigkeiten sahen sie bei Pronomen und Hilfsverben und schlossen diese zum grössten Teil von ihren Betrachtungen aus [S. 22].
Die Funktionswörter können als Oberflächensignale für die Syntax angesehen werden [BAAYEN et. al. 121]. Konjunktionen zum Beispiel leiten je nach Sprache verschiedene Satzstrukturen ein. Im Deutschen markieren die unterordnenden Konjunktionen (z.B. dass, weil, wenn) Sätze mit finiter Verbstellung (Nebensätze), die nebenordnenden hingegen (z.B. aber, und, denn) reihen Hauptsätze aneinander. Oft existieren in beiden Klassen semantisch ähnliche Konjunktionen. So besteht zum Ausdruck der kausalen Beziehung die unterordnende Konjunktion weil ebenso wie die nebenordnende Konjunktion denn. Basierend auf diesem Wissen lassen sich viele Teilsätze ohne syntaktische Analyse in Haupt- oder Nebensätze einteilen, was Rückschlüsse darauf erlaubt, ob der betreffende Autor eher einen parataktischen oder hypotaktischen Stil pflegt.
Direkt auf die Syntax selbst zuzugreifen, ist relativ aufwendig. Relativ gute Resultate von Studien mit Funktionswörtern lieferten aber Hinweise auf den möglichen Nutzen der Verwendung von syntaktischen Regeln als stilistische Merkmale. Da sie grammatische Strukturen genauer beschreiben als auf Funktionswörtern basierende Annahmen, sollten sie mindestens ebenso gut diskriminieren wie diese [siehe OAKES 1998: 227-29].
Baayen, van
Halteren und Tweedie [BAAYEN
et al. 1996]
untersuchten, ob Texte besser durch syntaktische Strukturen oder
durch lexikalische Stilmerkmale unterschieden wurden. Um
Textsortenunterschiede und Abhänigkeiten von der Textlänge
auszuschliessen verwendeten sie zwei etwa gleichgrosse Ausschnitte aus
englischsprachigen Kriminalromanen zweier Autoren, die sie für die
Untersuchung in je 10 gleichmässige Abschnitte unterteilten. Zwei
Drittel der Texte dienten als Trainingskorpus, die restlichen 6 als
Testgrundlage. Sie wendeten fünf verschiedene Maase der
Wortschatzdifferenziertheit zuerst auf den gesamten Wortschatz und
anschliessend auf die aus dem annotierten Korpus extrahierten
Grammatikregeln an, die wie Wörter behandelt wurden. Der Versuch
mit den Grammatikregeln zeigte deutlich bessere Resultate. Auch die
fünfzig wichtigsten Funktionswörter wirkten als gute
Unterscheidungsmerkmale, besonders dann, wenn auch unterschiedliche
syntaktische Funktionen eines Funktionswortes berücksichtigt
wurden [BAAYEN
et al. 1996:124-126].
Stamatatos et al. verwendeten einen Chunker zur
Analyse von
griechischen Zeitungsartikeln [STAMATATOS et
al. 2001: 202-205 und
197f]. Als Stilmerkmale verwendeten sie unter anderem die Anzahl
und
durchschnittliche Länge einer Chunksorte und die
Vollständigkeit der
Analyse, also zum Beispiel die Anzahl unbekannter, das heisst seltener,
Wörter und die Menge möglicher ambiger Analysen [S. 199-201].
Stamatos et al. verglichen ihre Ergebnisse ebenfalls
mit einer Analyse
der 50 häufigsten Funktionswörter. Die durch den Chunker
gewonnenen
Merkmale lieferten die besseren Resultate [STAMATATOS
et al. 1996: 207f.].
Fehlzuordnungen traten vor allem bei kurzen Texten unter 1000
Wörtern
auf. Kleinere Textmengen erscheinen den Autoren aus diesem Grund
für
die Stylanalyse ungeeignet. [S. 208].
Stilometrische
Methoden kommen in verschiedensten Disziplinen zum Einsatz. In der
Literaturwissenschaft, der Herkunftsdisziplin der Stilometrie, dienen
sie vor allem zur Bestimmung der Autorschaft von umstrittenen oder
anonymen Texten. Die Werke Shakespeares gehören zu den
beliebtesten Untersuchungsgegenständen. Daneben werden
stilometrische Methoden auch verwendet, um die
Homogenität eines Textes zu überprüfen oder Texte
anhand veränderter Stilmerkmale chronologisch zu ordnen
[MCENNERY,
OAKES 2000: 548 und HOLMES 1994:99-101].
Allerdings
sind oft nicht genügend fundierte Modelle zur Beschreibung der
Stilveränderung vorhanden, um die chronologische Einordung
überzeugend zu begründen [HOLMES
1994: 100]. Darüber hinaus steht ein solches
Unterfangen auch in einem gewissen Widerspruch zur den
Autorschaftsbestimmungen implizit zu Grunde liegenden Auffassung,
dass Stilmerkmale unveränderlich seien [MCENNERY,
OAKES 2000: 550].
Die Rolle stilometrischer Methoden bei der Autorschaftsbestimmung zu
forensischen Zwecken wurde bereits weiter oben
genauer erläutert.
Der
Autorschaftsbestimmung nahe verwandt ist die Textklassifikation,
welche dieselben oder zumindest ähnliche Methoden verwendet und
versucht, Texte bestimmten Genres oder Textsorten zuzuorden.
Vereinzelt werden stilometrische Methoden auch angewendet, um spezielle Sprachformen zu untersuchen. Burrows untersuchte englischsprachige Erzählungen auf nationale Unterschiede [BURROWS 1996] und Holmes und Singh untersuchten die Einsatzmöglichkeiten von stilometrischen Methoden als Diagnoseinstrument für die Konversationsfähigkeiten von Patienten mit Brocaaphasie [HOLMES/SINGH 1996].
Baayen, Harald; Halteren, Hans van; Tweedie, Fiona (1996). Outside the cave of Shadows: Using Syntactic Annotation to Enhance Authorship Attribution. In: Literary and Linguistic Computing, Vol. 11, Nr. 3. S. 121-130.
Burrows, John F (1992). Computers and the Study of Literature. In: Butler, Christopher S. (Hrsg.) Computers and Written Texts. Oxford. S. 167-204.
Burrows, John F (1996). Tiptoeing into the Infinite: Testing for Evidence of National Differences in the Language of English Narrative. In: Research in Humanities Computing 4, Oxford.
Dixon,
Peter; Mannion, David (1993). Goldsmith’s Periodical Essays: A
Statistical Analysis of Eleven Doubtful Cases. In: Literary and
Linguistic Computing, Vol. 8, Nr. 1. S.
1-19.
Holmes, David I. (1994). Authorship Attribution. Computers and the Humanities, Nr. 28. S. 87 106.
Holmes, David I, Forsyth Richard S. (1995).The Federalist Revisited: New Directions in Authorship Attribution. Literary and Linguistic Computing, Vol. 10, Nr. 2. S. 111-127.
Holmes, David I; Singh Sameer (1996). A stylometric Analysis of Conversational Speech of Aphasic Patients. Literary and Linguistic Computing, Vol. 11, Nr. 3. S 133-140.
Hoover David L. (2003) Another
Perspective on Vocabulary Richness. Computers and the Humanities, Nr.
37. S. 151-178.
McEnery,
Tony; Oakes Michael
(2000). Authorship Identification and Computational Stylometry. In:
Dale, Robert; Moisl, Hermann; Somers, Harold (Hrsg.). Handbook of
Natural Language Processing. New York. S. 545-562.
Morton, Andrew Queen (1978). Literary Detection. How to prove Authorship and fraud in literature and documents. New York.
Mosteller, Frederick; Wallace, David L (1984). Applied Bayesian and Classical Inference. The Case of The Federalist Papers. New York.
Oakes Michael P. (1998).
Statistics for Corpus Linguistics. Edinburgh.
Smith, M.W.A. Recent Experience
and New Developments of Methods for the Determination of Authorship.
Association for Literary and Linguistic Computing Bulletin, 11, 1983,
S. 73-82.
Stamatatos, E.; Fakotakis, N; Kokkinakis, G. (2001). Computer-Based Authorship Attribution Without Lexical Measures. Computers and the Humanities, Nr. 35. S. 193-214.
Tweedie, Fiona J.; Baayen R. Harald (1998). How Variable May a Constant be? Measures of Lexical Richness in Perspective. Computers and the Humanities, Nr. 32. S. 323-352.