Bei der Digitalisierung mittelhochdeutscher Texte sind große Projekte angelaufen, die
allerdings im Moment stagnieren. Ein Zugriff auf viele Volltexte soll dereinst, die nötige Finanzierung vorausgesetzt,
über das "Digitale Mittelhochdeutsche Textarchiv"
möglich sein.
"Ziel des Vorhabens ist die Bereitstellung einer umfangreichen Sammlung mittelhochdeutscher Texte im Internet, die auf den wissenschaftlichen Standardausgaben beruhen und philologisch zuverlässig sind." 17 Texte wurden bis Ende 2004 im Internet freigeschaltet, seitdem scheint das Projekt auf Eis zu liegen. Die Texte wurden nach den jeweils maßgeblichen Ausgaben vollständig digitalisiert, mit XML kodiert und
können sowohl online angezeigt als auch heruntergeladen werden. Die Volltextsuche ist aus dem Textbrowser heraus
möglich. Als Volltexte stehen überwiegend geistliche Dichtungen
zur Verfügung: Albert von Augsburg: Ulrichsleben Annolied Altomünsterer Benediktinerregel
Berthold von Regensburg: Predigten Brun von Schönebeck: Das Hohe Lied Daniel
David von Augsburg: Paternoster; Die Sieben Staffeln des Gebets Göttweiger Trojanerkrieg Gundacker von Judenburg: Christi Hort
Heinrich von Hesler: Apokalypse Der sogenannte Heinrich von Melk: Von des todes gehugde; Vom Priesterleben Konrad von Heimesfurt: Werke Schlierbacher Altes Testament
(Vorreden) Der Stricker: Kleinere Dichtungen Johannes Tauler: Predigten Das Väterbuch
Weitere Volltexte sind über das Partnerprojekt
an der University of Virginia erreichbar. Bitte beachten Sie im Einzelfall den Bearbeitungsstand; nicht alle Texte wurden bislang Korrektur gelesen (Link 'Header'): Das Buch von guter Speise Deutschenspiegel Heinrich von Neustadt Johannes von Frankenstein: Der Kreuziger Kaiserchronik Konrad von Heimesfurt Meister Eckhart Mittelhochdeutsche Minnereden II Pilgerfahrt des träumenden Mönchs Rudolf von Ems: Willehalm von Orlens St. Pauler Evangelienreimwerk Wernher der Schweizer: Marienleben Wernher von Elmendorf: Moralium dogma philosophorum
"Das Projekt DDD ist die Initiative einer interdisziplinären Forschergruppe, die sich zusammengeschlossen
hat, um ein Digitales Referenzkorpus des Deutschen zu entwickeln, das die gesamte deutsche Textüberlieferung
umfasst. Die Zielsetzung ist eine Digitale Bibliothek, die Faksimiles von Handschriften und Drucken sowie deren
Inhalte in Originalsprache und Übersetzung bereitstellt." Das Projekt befindet sich noch in der Pilot-
und Antragsphase; Texte stehen noch nicht zur Verfügung.
"Das Frühneuhochdeutschkorpus entstand zwischen 1972 und 1985 an der Bonner Forschungsstelle
Frühneuhochdeutsch im Rahmen des Projekts Flexionsmorphologie des Frühneuhochdeutschen
unter Leitung von Werner Besch, Winfried Lenders (ab 1976), Hugo Moser und Hugo Stopp (bis 1981). Es diente als
Materialgrundlage für die Erarbeitung mehrerer Bände der Grammatik des Frühneuhochdeutschen (erschienen
im Verlag Carl Winter, Heidelberg). Das Korpus besteht aus 40 Quellen, die nach Sprachlandschaften und Zeitschnitten
(13501400, 14501500, 15501600 und 16501700) angeordnet sind. Es handelt sich um Auswahltexte mit einem Umfang
von jeweils ca. 30 Normalseiten. Sämtliche Texte sind mit Wortklassenangaben und z. T. mit Formenbestimmungen
annotiert." Die Texte stehen in drei Versionen zum Download bereit: XML-kodierte Version mit Wortklassenangaben
und Formenbestimmungen; HTML-kodierte Version ohne syntaktische und morphologische Informationen, aber direkt lesbar;
original-kodierte Version.
Das Münchener Corpus für Frühneuhochdeutsch erschließt seine Texte durch eine Suchfunktion, die zusätzlich zum Belegstellennachweis u.a. den Verweis auf das Deutsche Wörterbuch bietet. Von den zugrundeliegenden Texten ist in der Demoversion zur Zeit leider, welcher Text auch zur Anzeige ausgewählt wird, nur der Eulenspiegel abrufbar, die Liste der Texte lässt aber hoffen - unter anderem auf Piscator und einen Tundalus.
Die "Bibliotheca Augustana" stellt eine Vielzahl deutscher Texte des 8. bis 20. Jahrhunderts
als HTML-Versionen zur Verfügung. Die zugrunde liegenden Editionen wurden zumeist durch Ulrich Harsch überarbeitet (vgl. die jeweilige Angabe unter "Quellen, Kolophon"). Es handelt sich in der Regel um die maßgeblichen oder gute Editionen. Die Sammlung wird kontinuierlich erweitert.
Eine große Zahl alter Textausgaben und wissenschaftlicher Abhandlungen in vielen Sprachen stellt
Google Buchsuche zur Verfügung. Die Texte können zumeist als Seitenimages und pdf abgerufen werden. Die
Suche ist äußerst kompliziert, denn die Texte wurden bibliographisch nicht manuell erfaßt; stattdessen
wurden die Texte mittels OCR gescannt und das bisweilen erstaunliche Ergebnis in die Suchmaschine
eingespeist. Da viele Textausgaben in Frakturschrift gedruckt sind, verläuft eine Suche folglich nicht
selten im Sande. Zudem wurden viele Texte falsch zugeordnet, andere Texte wiederum willkürlich miteinander
verknüpft. Beispielsweise lassen sich Bände aus der Bibliothek
des litterarischen Vereins oft erst finden, indem man den vorhergehenden Reihenband sucht und mühsam dessen
Ende findet; hieran schließt dann bisweilen der anderweitig nicht auffindbare Folgeband. Das gleiche Verfahren
kann bei mehrbändigen Ausgaben zum Erfolg führen. Kaum ein Buchscan ist vollständig und fehlerfrei. Zudem 'verschwinden' einzelne Bücher aus dem Angebot oder tauchen mit einer neuen ID-Nummer wieder auf. Eine dauerhaft verläßliche Auflistung aller Texte ist daher unmöglich. Einen verdienstlichen Werkzeugkasten
zum Umgang mit Google Buchsuche hat Klaus Graf zusammengestellt (NetbibWiki).
Zahlreiche althochdeutsche und mittelhochdeutsche Texte finden sich im "Thesaurus Indogermanischer
Text- und Sprachmaterialien". Meist stehen die Texte in einer HTML- und einer WordCruncher-Version zur Verfügung;
die Benutzung ist teilweise allerdings auf TITUS-Mitglieder beschränkt.
Die MHDBDB umfaßt 232 Texte. Diese wurden lemmatisiert. Homographen sind teilweise disambiguiert, die Lemmata werden Bedeutungskategorien zugewiesen. Die Datenbank ist nach Lemmata und Strings abfragbar, wobei grundsätzlich auch komplexe Abfragen möglich sind. Der Zugriff auf die Volltexte ist nicht vorgesehen. Seit Oktober 2006 ist die MHDBDB mit den Mittelhochdeutschen Wörterbüchern - online (Lexer u. a.) verbunden.
Das Oxford Text Archive enthält verschiedene, durch Volltextsuche erschlossene althochdeutsche und mittelhochdeutsche Texte. Zum Download der vollständigen Textcorpora ist teils nur eine kostenlose Registrierung nötig, teils die schriftliche Anforderung per Formular. Die jeweilige Textedition wird genannt (Button 'More Info'). Texte: Tatian; Altdeutsche Predigten [Ausgaben von Anton E. Schönbach (Graz 1886-1891), Wilhelm Wackernagel (Basel 1876) und Karl Roth (Quedlinburg und Leipzig 1839)]; Die Vorauer Bücher Mosis; Eilhart von Oberg: Tristrant; Hartmann von Aue: Der arme Heinrich; Heinrich von Mügeln: Der Tum; der Pfaffe Konrad: Das Rolandslied; Konrad von Würzburg: Partonopier und Meliur; Konrad, von Würzburg: Trojanerkrieg; der Pfaffe Lamprecht: Alexanderlied; Nibelungenlied; Otte: Eraclius; Rudolf von Ems: Barlaam und Josaphat; Ulrich von Zatzikhoven: Lanzelet; Visio Tnugdali; Tundalus der Ritter; Wirnt von Grafenberg: Wigalois, der Ritter mit dem Rade; Heinrich Wittenweiler: Der Ring; Wolfram von Eschenbach: Lieder, Parzival, Titurel, Willehalm.
"Das im Frühjahr 1999 gestartete Projekt CAMENA (...) erfaßt Texte neulateinischer Dichtung
aus dem deutschen Sprachraum im Gesamtumfang von rund 60.000 Druckseiten auf der Grundlage alter Editionen."
Wilhelm Kühlmann, Heidelberg, und die UB Mannheim leisten mit diesem Projekt der neulateinischen Philologie
einen nicht hoch genug einzuschätzenden Dienst: Die Auswahl der Autoren ist umfassend, die Qualität der
eingescannten Druckseiten auch im Ausdruck sehr gut, und die Umsetzung in eText und die damit verbundenen Recherchemöglichkeiten
eröffnen die ganz neue Möglichkeit: Neben der Imitatio antiker Klassiker lassen sich so auch intertextuelle
Beziehungen zwischen neulateinischen Dichtern aufspüren.
Angegliedert wurde außerdem das 2004 gestartete Projekt "TERMINI - vernetzter Wortschatz lateinischer
Wissensliteratur der Frühen Neuzeit".
Außerordentlich umfangreiches Textkorpus zur mittellateinischen Literatur Italiens. Zahlreiche
Werke vom 11.13. Jh. stehen zur Verfügung, wobei die den Scans zugrunde liegenden Editionen aufgeführt
werden. Das italienische Projekt wird in Kooperation mit der "Unione Accademica Nazionale" betrieben und
macht einen professionellen und zuverlässigen Eindruck.
Die "Bibliotheca Augustana" stellt eine Vielzahl lateinischer Texte vom 7. vorchristlichen
bis zum 19. Jahrhundert als HTML-Versionen zur Verfügung. Die Textgrundlage ist leider oft nicht angeben; es
handelt sich aber offenbar in der Regel um die maßgeblichen oder gute Editionen. Die Sammlung wird kontinuierlich
erweitert.
Das Korpus beruht im wesentlichen auf dem diachronen Teil des Helsinki Corpus of English Texts. Die aktuelle
zweite Ausgabe des Korpus umfaßt insgesamt etwa 1.800.000 Wortformen aus Texten der Jahre 1500-1710. Jeder Text steht als Textdatei,
als Datei mit part-of-speech tagging und als Datei mit Parsing zur Verfügung - aber leider nur nach Erwerb
einer Lizenz.
Das frei zugängliche "Corpus del Español" umfaßt Texte mit insgesamt 100.000.000
(einhundert Millionen) Wörtern, davon 20.000.000 Wörtern aus dem 12. bis 14. Jahrhundert und 40.000.000
Millionen Wörter aus dem 15. bis 17. Jahrhundert. Eine Volltextrecherche ist möglich.
Das TBCHP ist ein syntaktisch annotiertes Textkorpus. Die Annotation sind orientiert am Penn-Helsinki
Parsed Corpus of Middle English. Das Korpus kann nach einer kostenfreien Anmeldung heruntergeladen werden.
Sammlung von zur Zeit etwa einem Dutzend nordischer Texte (u.a. Teile der Lieder-Edda nach dem Codex Regius, Codex Wormianus, Heimskringla). Vorbildlich und allein schon einen Besuch wert ist die Aufbereitung der Texte, die die Überlieferung wahlweise in Transkription, diplomatischer oder normalisierter Edition anzeigen, teilweise auch lemmatisiert sind. Das Auszeichnungsverfahren ist ebenfalls dokumentiert. Das Angebot enthält schließlich weiterhin umfassende Verweise auf Hilfsmittel für die Arbeit mit den Texten.