Aktuelles

Digitale Open-Access-Plattform „CorDeep“ eröffnet neue Möglichkeiten zur Erkennung von Bildmaterial in historischen Dokumenten

Die jüngsten Fortschritte bei der Objekterkennung durch Deep Learning haben sich in Bereichen von der medizinischen Diagnose bis zum autonomen Fahren positiv ausgewirkt. Die historische Forschung hat jedoch noch nicht von diesen Entwicklungen profitiert.CorDeep Logo

Um diese Lücke zu schließen, freuen sich die MPIWG-Forscher Jochen Büttner, Julius Martinetz, Hassan El-Hajj und Matteo Valleriani in Zusammenarbeit mit BIFOLD und MDPI, die neue CorDeep-Webanendung auf Basis von maschinellem Lernen vorzustellen. Die frei zugängliche Plattform stellt einen besonderen Versuch dar, die Kluft zwischen traditionellen und computergestützten Ansätzen in historischen Studien zu überbrücken.

CorDeep wird auf dem Sphaera-Korpus trainiert, einer Sammlung von 359 frühneuzeitlichen Lehrbüchern zur geozentrischen Kosmologie. Mit rund 78.000 Seiten, 30.000 visuellen Elementen - darunter Abbildungen von Maschinen und Instrumenten, geometrische Diagramme und astronomische Bilder - und 10.000 Seiten mit Tabellen dient es als umfangreicher visueller Datensatz für die Entwicklung von CorDeep.

Was ist das Besondere an CorDeep?

CorDeep ist in der Lage, visuelle Elemente aus historischen Quellen zu extrahieren und Seiten mit (alpha)numerischen Tabellen zu klassifizieren. Mit Hilfe eines quelloffenen YOLO-Algorithmus („You Only Look Once“) lokalisiert und kategorisiert diese experimentelle Webanwendung visuelle Elemente in Kategorien wie „Inhaltsillustrationen“, „Initialen“, „Verzierungen“ und „Druckermarken“. Dies wiederum ermöglicht es, visuelle Elemente in historischen Dokumenten schnell und präzise zu finden und zu organisieren.

A picture of a page from a Sphaera corpus, marked up to show visual elements

Page that displays all four identified classes (“Content Illustrations,” “Initials,” “Decorations,” and “Printers' Marks”). Left: Österreichische Nationalbibliothek. http://data.onb.ac.at/rep/1089F5CC. Right: courtesy of the Library of the Max Planck Institute for the History of Science.

CorDeep ermöglicht es Historikern auch, große Bilddatensätze in .csv-Tabellen für Forschungszwecke zu erzeugen und neue Datensätze für den Algorithmus zu erstellen. Die Plattform ermöglicht es Historikern somit, Muster in der visuellen Kultur genau zu erkennen, etwa wie sich die visuelle Sprache in der Wissenschaft im Laufe der Zeit entwickelt hat.

Der innovative Webdienst wurde auch unter dem Gesichtspunkt der Nachhaltigkeit entwickelt. CorDeep enthält eine Funktion, die anzeigt, wie viel Kohlendioxid bei jeder Datensatzsuche verbraucht wird. Dies wurde mit dem Ziel implementiert, zu verstehen, wie man das System so anpassen kann, dass es energieeffizienter wird. Je erfolgreicher CorDeep ist, desto höher ist die potenzielle Energieeffizienz, wenn es zu einem bevorzugten Dienst für die Bilddatenrecherche wird und die Entwicklung mehrerer anderer Webplattformen überflüssig macht.

CorDeep ausprobieren

Zugang zur digitalen CorDeep-Plattform

Greifen Sie hier auf die digitale CorDeep-Plattform zu und erkunden Sie Ihre eigenen visuellen historischen Datensätze.

Schicken Sie Ihr Feedback gerne an Matteo Valeriani-

valleriani@mpiwg-berlin.mpg.de