Informationen aus fremden Systemen übernehmen

In der Funktionsgruppe «Ingest» (deutsch: «Aufnahme» oder «Übernahme») des OAIS-Referenzmodells ISO 14721 werden zur Archivierung bereitgestellte Daten («Submission Information») auf Vollständigkeit und Fehler geprüft, in die Archivform («Archival Information») transformiert, mit Metadaten (z.B. zur Identifikation und Beschreibung) versehen und in das Archivsystem integriert.

  • Schnittstelle — Ingest besteht aus einer oder mehreren spezifizierten Archivschnittstellen, die trivial und automatisiert oder komplex und manuell sein können — je nachdem, wie gut Archiv und Quellsystem sowie Archivform und Quellform der Information aufeinander abgestimmt sind.
  • Kritikalität — Ingest ist aus Sicht der Nachvollziehbarkeit und Integrität die wichtigste Funktions-gruppe eines OAIS-konformen Archivsystems: Fehler und Informationsverluste im Ingest können später nicht mehr erkannt und behoben werden.

Der Standard ISO 20652 «Producer-archive interface — Methodology abstract standard» beschreibt unverbindlich ein Projektgerüst zur Durchführung des ersten Teils eines Ingestprozesses, von der Bestimmung des Archivierungsumfanges bis zu erfolgreichen Validierung der übernommenen Daten.

ISO 20652: Projektstruktur Ingest-Schnittstelle

Dieses Ansinnen scheint zuerst unsinnig, denn Datenschnittstellen gehören zum Tagesgeschäft der Informatik und umfassen immer auch fachliche, organisatorische und kommunikative Aspekte.

ISO 20652 richtet sich jedoch primär an Archive, die Informationen von mehreren fremden Produzenten übernehmen, denen sie keine Vorgaben machen können. Dazu gehören Gedächtnisinstitutionen wie staatliche Archive, Bibliotheken und Museen sowie Institutionen, die Forschungsdaten archivieren.

Das in ISO 20652 beschriebene Projektgerüst soll an die Bedürfnisse des Archivs angepasst werden, um Datenübernahmen effizient und nachvollziehbar abzuwickeln. (Einen analogen Ansatz verfolgt die deutsche Norm DIN 31645 «Leitfaden zur Informationsübernahme in digitale Langzeitarchive».)

  • Kommunikation — ISO 20652 bietet Archiven und Datenproduzenten eine einheitliche Terminologie (basierend auf ISO 14721), ermöglicht ein gemeinsames Verständnis des Vorhabens und verringert das Risiko von Missverständnissen und unerfüllten Erwartungen auf beiden Seiten.
  • Planbarkeit — ISO 20652 ermöglicht eine transparente Abschätzung von Aufwand, Kosten und Risiken für beide Seiten. Standardisierte Arbeitsschritte verhindern, dass wichtige Kriterien wie die spätere Benutzbarkeit bei der Definition des Datenumfangs vergessen werden.
  • Dokumentation — Die im Rahmen eines ISO 20652 Ingest-Projekts erstellten Ergebnisse machen die Datenübernahme dauerhaft nachvollziehbar, unterstützen das Erkennen von Fehlern und erhöhen die Vertrauenswürdigkeit der archivierten Informationen.

ISO 20652 hört dort auf, wo im Ingest die Transformation der validierten Übernahmedaten in ein Archivformat — «Archival Information Packages» (AIP) — beginnt. Das OAIS-Referenzmodell ISO 14721 macht auch für AIP nur konzeptionelle Vorgaben und lässt die konkrete Implementierung offen.

Eine zentrale konzeptionelle Anforderung von ISO 14721 ist, dass die archivierten Informationen nicht vom Archivsystem abhängen, sondern ohne Verlust an Authentizität, Integrität und Verstehbarkeit in ein anderes (OAIS-konformes) Archiv migriert werden können. Dies soll das Technologiefolge-Risiko verringern — denn auch jedes technische Archivsystem muss irgendwann abgelöst werden.

ISO 13527 «XML Formatted Data Unit (XFDU) structure and construction rules» definiert unverbindlich die Implementierung eines Daten- und Dateiformats für OAIS-Informationspakete mit Hilfe der Auszeichnungssprache XML zur Darstellung hierarchisch strukturierter Daten in Form von Textdateien.

  • OAIS-konform — XFDU ist konform mit dem konzeptionellen Datenmodell von ISO 14721, basiert auf XML-Standards und ermöglicht die Strukturierung komplexer Informationsobjekte.
  • Anpassbar — XFDU kann durch Profile an eigene Bedürfnisse angepasst werden und ermöglicht die Einbindung von fachspezifischen Metadatenstandards wie zum Beispiel METS («Metadata Encoding & Transmission Standard») und PREMIS («Data Dictionary for Preservation Metadata»).

ISO 20104:2015 «Producer-Archive Interface Specification (PAIS)» definiert Struktur und Implementierung eines OAIS-konformen SIP (Submission Information Package) als Ablieferungsschnittstelle zu einem OAIS-Archiv und zur Umsetzung eines Ingestprozesses nach der Projektmethodik ISO 20652 (siehe oben).

  • Transaktionale Syntax — Der Standard definiert zuerst eine abstrakte Syntax, in der ein SIP nicht einfach eine an das Archiv übermittelte Datei ist, sondern eine strukturierte Menge von unterschiedlichen und voneinander abhängigen Gruppen von Informationsobjekten, die vom Archiv als Transkationen verarbeitet (identifiziert, validiert und weiterverarbeitet) werden können.
  • Implementierung mit XFDU — Zusätzlich beschreibt ISO 20104:2015 die Implementierung eines vollständig OAIS-konformen SIP mit Hilfe des XML-Datenformats ISO 13527 (XFDU, siehe oben).
  • SIP-Typen — Der Standard beschreibt, wie diese SIP-Implementierung mit Hilfe sogenannter XFDU-Profile erweitert und so an eigene Bedürfnisse angepasst werden kann.

Die Standards ISO 20652, ISO 13527 und ISO 20104 sind Empfehlungen zur Methodik und Schnittstelle im Ingest von OAIS-Archiven. Sie sind nötig, um die Konformität eines Archivsystems mit dem OAIS-Referenzmodell ISO 14721 gemäss den Beurteilungskriterien in ISO 16363 oder DIN 31644 zu erreichen.