SlideShare ist ein Scribd-Unternehmen logo
Ideen Goobi Storage API

GOOBI – Steuerungsgremium, 23.9.2011, Berlin
     Christian Mahnke, SUB Göttingen
Bestehende Probleme bzw. Vorgaben

• Probleme mir der Anzahl der Unterordner (FS
  Problem - Dresden)
• Storage Anforderungen skalieren schlecht (SAN
  Kosten - Göttingen)
• Archivsystem (LZA - Alle)
High Level Anforderungen
•   Trennung zwischen Speicherbereichen (z.B. Produktions- und
    Archivbereich)
     – Regelbasierte Zuordnung (z.B Zeit, Präfixe für Master etc.)
•   Tiefere Hierarchien (z.B. um FS Limitierungen zu umgehen)
•   Import- / Exportfunktionalität
     – Bereitstellung im Präsentationssystem
     – Bereitstellung auf FTP Server eines Kunden
•   Kein zusätzlicher (oder geringer) Aufwand für Systemadministratoren
    gewünscht
•   Integritätsprüfungen und Ausfallsicherheit, sowie Nachvollziehbarkeit
    notwendig
•   Projektspezifische Konfigurationen (z.B. für zeitkritische Aufträge)
•   Implementierungen von Anforderungen sollten kombinierbar sein
•   Externe Zugriffsverfahren (z.B. via Samba) sollten berücksichtigt werden
     – Externe Applikationen (über CLI, z.B. Jhove(2)) sollen genutzt werden
        können.
Schichten

                                  Samba /       Statistik/
                     Metadaten                                Im- /
Anwendungsebene                   Dateifrei     Dokume                Suche
                      - editor                               Export
                                   - gabe        ntation




                                           Storage API
Storage Verwaltung
                                 Integritäts-
                     Regeln                      Metadaten        Pair Tree
                                   prüfung




Storage                JCR        Akubra          Merritt       Dateisystem
Anforderungen Anwendungsebene

• Transparenter Umgang mit Objekten
• Nutzung von URIs für interne Referenzierung
• Nutzung von Datenströmen (wo möglich)
• Bereitstellung als temporäre Datei für Legacy
  Code und externe Anwendungen (z.B. Samba)
   – Berücksichtigung von Berechtigungen
• Synchrone vs. asynchrone Bereitstellung für
  Nutzer
Anforderungen Storage Verwaltung
• Unterschiedliche Strategien (kombinierbar und
  projektspezifisch)
   – CDL Pair Tree
   – Caches bei Ausfall des unterliegenden Storages
     (schreiben)
   – Generierung von Prozessmetadaten
      • Versionierung für Metadaten
      • Checksummen, ggf. inklusive Integritätsprüfung,
        Transaktionssicherheit
• Unterschiedliche Aktivierungen
   – Manuelle Zuordnung (z.B. Export)
   – Schrittgesteuert (z.B. Archivierung)
   – Erkennung von ungenutzten Daten basierend auf
     Regeln (wie HSM)
Anforderungen Storage
• Unterschiedliche Abstraktionsebenen (Beispiele)
  – Dateisystem
      • Dateien und Verzeichnisse
   – „Objektspeicher“ – z.B. TextGrid
      • Objekte und Kollektionen (Beinhalten jeweils auch
        komplexe Metadaten)
• Unterschiedliche Semantiken (Beispiele)
  – Z.B. Update einer Datei vs. Update eines
    Objekts (s.o)
  – Implizite Versionierung (z.B. kein Löschen
    möglich)
  – Sichtbarkeit vs. Publizierung
Bestehende Vorarbeiten

• Anforderungsdefinition
• Teilweise prototypische Implementierung im
  Rahmen des MassenDigiMathe Projektes für
  Abbyy Server Kommunikation (siehe
  Präsentation OCR)
Vielen Dank!


       Fragen?
mahnke@sub.uni-goettingen.de



                               9

Weitere ähnliche Inhalte

PDF
Tribax Hintergrundpapier
PPTX
2011 06-01-unibas-communication&marketing
PDF
Pagina web morbe
PDF
E book trennung_2010
PDF
Martina Herring: Besucherorientierung im Museum. Qualifizierung von Mitarbeit...
PPTX
SUB OCR Implementierung
PPT
Fit für die digitale Bibliothek? (2007)
Tribax Hintergrundpapier
2011 06-01-unibas-communication&marketing
Pagina web morbe
E book trennung_2010
Martina Herring: Besucherorientierung im Museum. Qualifizierung von Mitarbeit...
SUB OCR Implementierung
Fit für die digitale Bibliothek? (2007)

Ähnlich wie Ideen Goobi Storage API (20)

PPTX
Dr. Thomas Petrik (Sphinx IT Consulting)
PDF
Performance-Analyse von Oracle-Datenbanken mit Panorama
PPTX
Data Mining und OLAP
PDF
imatics FormEngine
PDF
20111006 roadshow-io-performance
PDF
ColdFusion im Enterprise Umfeld - Deep Dive
PPTX
Basisinfrastruktur aus Entwicklersicht
PDF
Herausforderungen im Datenmanagement von Metadaten
PDF
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
PDF
DSpace as publication platform
PPT
SCAPE Skalierbare Langzeitarchivierung
PPTX
Der File Abstraction Layer
PDF
PostgreSQL: Die Freie Datenbankalternative
PDF
Ruby on Rails in a metro session
PDF
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
PPTX
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
PDF
Oracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
PPTX
Notes Sharepoint Migration
PDF
Ist GraphQL das bessere REST
PPT
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Dr. Thomas Petrik (Sphinx IT Consulting)
Performance-Analyse von Oracle-Datenbanken mit Panorama
Data Mining und OLAP
imatics FormEngine
20111006 roadshow-io-performance
ColdFusion im Enterprise Umfeld - Deep Dive
Basisinfrastruktur aus Entwicklersicht
Herausforderungen im Datenmanagement von Metadaten
Oracle-DB: Panorama-Sampler - Eigenes Workload Repository für Panorama
DSpace as publication platform
SCAPE Skalierbare Langzeitarchivierung
Der File Abstraction Layer
PostgreSQL: Die Freie Datenbankalternative
Ruby on Rails in a metro session
Wozu Portlets – reichen HTML5 und Rest nicht aus für moderne Portale?
Microservice-Architektur-Prozess für Software-Plattformen und Microservice-Ec...
Oracle-DB: Systematische Rasterfahndung nach Performance-Antipattern
Notes Sharepoint Migration
Ist GraphQL das bessere REST
Kooperative Angebote von GBV und GDZ im Bereich Digitalisierung
Anzeige

Mehr von cmahnke (7)

PPT
Tomcat as a service
PPT
eXist für Editionsprojekte
PPT
OCR Renderfarmen und TEI
PPT
Development Toolbox
PPT
Goobi
PDF
Bib Forge
PPT
Bibforge
Tomcat as a service
eXist für Editionsprojekte
OCR Renderfarmen und TEI
Development Toolbox
Goobi
Bib Forge
Bibforge
Anzeige

Ideen Goobi Storage API

  • 1. Ideen Goobi Storage API GOOBI – Steuerungsgremium, 23.9.2011, Berlin Christian Mahnke, SUB Göttingen
  • 2. Bestehende Probleme bzw. Vorgaben • Probleme mir der Anzahl der Unterordner (FS Problem - Dresden) • Storage Anforderungen skalieren schlecht (SAN Kosten - Göttingen) • Archivsystem (LZA - Alle)
  • 3. High Level Anforderungen • Trennung zwischen Speicherbereichen (z.B. Produktions- und Archivbereich) – Regelbasierte Zuordnung (z.B Zeit, Präfixe für Master etc.) • Tiefere Hierarchien (z.B. um FS Limitierungen zu umgehen) • Import- / Exportfunktionalität – Bereitstellung im Präsentationssystem – Bereitstellung auf FTP Server eines Kunden • Kein zusätzlicher (oder geringer) Aufwand für Systemadministratoren gewünscht • Integritätsprüfungen und Ausfallsicherheit, sowie Nachvollziehbarkeit notwendig • Projektspezifische Konfigurationen (z.B. für zeitkritische Aufträge) • Implementierungen von Anforderungen sollten kombinierbar sein • Externe Zugriffsverfahren (z.B. via Samba) sollten berücksichtigt werden – Externe Applikationen (über CLI, z.B. Jhove(2)) sollen genutzt werden können.
  • 4. Schichten Samba / Statistik/ Metadaten Im- / Anwendungsebene Dateifrei Dokume Suche - editor Export - gabe ntation Storage API Storage Verwaltung Integritäts- Regeln Metadaten Pair Tree prüfung Storage JCR Akubra Merritt Dateisystem
  • 5. Anforderungen Anwendungsebene • Transparenter Umgang mit Objekten • Nutzung von URIs für interne Referenzierung • Nutzung von Datenströmen (wo möglich) • Bereitstellung als temporäre Datei für Legacy Code und externe Anwendungen (z.B. Samba) – Berücksichtigung von Berechtigungen • Synchrone vs. asynchrone Bereitstellung für Nutzer
  • 6. Anforderungen Storage Verwaltung • Unterschiedliche Strategien (kombinierbar und projektspezifisch) – CDL Pair Tree – Caches bei Ausfall des unterliegenden Storages (schreiben) – Generierung von Prozessmetadaten • Versionierung für Metadaten • Checksummen, ggf. inklusive Integritätsprüfung, Transaktionssicherheit • Unterschiedliche Aktivierungen – Manuelle Zuordnung (z.B. Export) – Schrittgesteuert (z.B. Archivierung) – Erkennung von ungenutzten Daten basierend auf Regeln (wie HSM)
  • 7. Anforderungen Storage • Unterschiedliche Abstraktionsebenen (Beispiele) – Dateisystem • Dateien und Verzeichnisse – „Objektspeicher“ – z.B. TextGrid • Objekte und Kollektionen (Beinhalten jeweils auch komplexe Metadaten) • Unterschiedliche Semantiken (Beispiele) – Z.B. Update einer Datei vs. Update eines Objekts (s.o) – Implizite Versionierung (z.B. kein Löschen möglich) – Sichtbarkeit vs. Publizierung
  • 8. Bestehende Vorarbeiten • Anforderungsdefinition • Teilweise prototypische Implementierung im Rahmen des MassenDigiMathe Projektes für Abbyy Server Kommunikation (siehe Präsentation OCR)
  • 9. Vielen Dank! Fragen? mahnke@sub.uni-goettingen.de 9

Hinweis der Redaktion

  • #2: Diese Folien spiegeln Überlegungen aus dem Zeitraum 10/2009 bis 3/2010 wieder, sie werden inzwischen nicht mehr aktiv verfolgt. Es sind allerdings nachnutzbare Anforderungsdefinitionen vorhanden.
  • #4: Links: JHove http://hul.harvard.edu/jhove/
  • #5: Links: Pair Tree: https://confluence.ucop.edu/display/Curation/PairTree JCR: http://www.jcp.org/en/jsr/detail?id=170 Akubra: https://wiki.duraspace.org/display/AKUBRA/Akubra+Project Merritt
  • #6: Berechtigungen und Eigentümerschaft sind in diesem Modell nur spezielle Metadaten eines Dateisystems Asynchrone Dateioperation werden benötigt, um die Applikation beim Umgang mit großen Datenemengen nicht zu blockieren