Digitale Open-Access-Plattform „CorDeep“ eröffnet neue Möglichkeiten zur Erkennung von Bildmaterial in historischen Dokumenten
- Dez 1, 2022
- Neue Publikation
- Abt. I
- Jochen BüttnerJulius MartinetzHassan El-HajjMatteo Valleriani
- Berlin Institute for the Foundations of Learning and Data (BIFOLD)The Sphere: Knowledge System Evolution and the Shared Scientific Identity in EuropeNetworks, Network Science, and Knowledge Graphs
Die jüngsten Fortschritte bei der Objekterkennung durch Deep Learning haben sich in Bereichen von der medizinischen Diagnose bis zum autonomen Fahren positiv ausgewirkt. Die historische Forschung hat jedoch noch nicht von diesen Entwicklungen profitiert.
Um diese Lücke zu schließen, freuen sich die MPIWG-Forscher Jochen Büttner, Julius Martinetz, Hassan El-Hajj und Matteo Valleriani in Zusammenarbeit mit BIFOLD und MDPI, die neue CorDeep-Webanendung auf Basis von maschinellem Lernen vorzustellen. Die frei zugängliche Plattform stellt einen besonderen Versuch dar, die Kluft zwischen traditionellen und computergestützten Ansätzen in historischen Studien zu überbrücken.
CorDeep wird auf dem Sphaera-Korpus trainiert, einer Sammlung von 359 frühneuzeitlichen Lehrbüchern zur geozentrischen Kosmologie. Mit rund 78.000 Seiten, 30.000 visuellen Elementen - darunter Abbildungen von Maschinen und Instrumenten, geometrische Diagramme und astronomische Bilder - und 10.000 Seiten mit Tabellen dient es als umfangreicher visueller Datensatz für die Entwicklung von CorDeep.
Was ist das Besondere an CorDeep?
CorDeep ist in der Lage, visuelle Elemente aus historischen Quellen zu extrahieren und Seiten mit (alpha)numerischen Tabellen zu klassifizieren. Mit Hilfe eines quelloffenen YOLO-Algorithmus („You Only Look Once“) lokalisiert und kategorisiert diese experimentelle Webanwendung visuelle Elemente in Kategorien wie „Inhaltsillustrationen“, „Initialen“, „Verzierungen“ und „Druckermarken“. Dies wiederum ermöglicht es, visuelle Elemente in historischen Dokumenten schnell und präzise zu finden und zu organisieren.
CorDeep ermöglicht es Historikern auch, große Bilddatensätze in .csv-Tabellen für Forschungszwecke zu erzeugen und neue Datensätze für den Algorithmus zu erstellen. Die Plattform ermöglicht es Historikern somit, Muster in der visuellen Kultur genau zu erkennen, etwa wie sich die visuelle Sprache in der Wissenschaft im Laufe der Zeit entwickelt hat.
Der innovative Webdienst wurde auch unter dem Gesichtspunkt der Nachhaltigkeit entwickelt. CorDeep enthält eine Funktion, die anzeigt, wie viel Kohlendioxid bei jeder Datensatzsuche verbraucht wird. Dies wurde mit dem Ziel implementiert, zu verstehen, wie man das System so anpassen kann, dass es energieeffizienter wird. Je erfolgreicher CorDeep ist, desto höher ist die potenzielle Energieeffizienz, wenn es zu einem bevorzugten Dienst für die Bilddatenrecherche wird und die Entwicklung mehrerer anderer Webplattformen überflüssig macht.
CorDeep ausprobieren
Zugang zur digitalen CorDeep-Plattform
Greifen Sie hier auf die digitale CorDeep-Plattform zu und erkunden Sie Ihre eigenen visuellen historischen Datensätze.
Schicken Sie Ihr Feedback gerne an Matteo Valeriani-