Presentation by Lieven Devos at Informatie 2001 about the CaGeWeb project, digization of a card catalogue, in collaboration with UGent (Ghent University Library)
1. Het conversieproject van Cageweb vzw digitalisering van een steekkaartencatalogus ter ontsluiting van waardevol erfgoed Lieven De Vos Hogeschool Gent
2. Cageweb vzw: collecties en catalogi Cageweb = Catalogus Gentse Wetenschappelijke Bibliotheken in 1979 gesticht door wijlen Emiel Wille, ere-conservator van de Gentse universiteitsbibliotheek 12 Gentse archieven, bibliotheken en musea rijke collecties (15e-20e eeuw): incunabelen, biblia, partituren, iconografisch materiaal, devotieliteratuur, persknipsels, ... diverse lokale catalogussystemen gezamenlijke catalogus sinds 1979: ongeveer 350.000 steekkaarten cataloguszaal van de Centrale Bibliotheek van de Universiteit Gent B.T.K.-projecten, nadien periodieke aanvullingen
3. Cageweb vzw: leden Archief en Museum van de Socialistische Arbeidersbeweging Augustijnenklooster St. Stefanus Bisschoppelijk Seminarie Conservatorium Gent Klooster der Dominicanen Klooster Paters Ongeschoeide Karmelieten Koninklijke Academie voor Nederlandse Taal- en Letterkunde Koninklijke Bond der Oost-Vlaamse Volkskundigen Liberaal Archief Museum Arnold vander Haeghen: Stichting en Kabinet Maurice Maeterlinck Museum voor Schone Kunsten Stadsarchief
4. Cageweb vzw: Raad van Beheer Roos Van Driessche (voorzitter) Marina Teirlinck (secretaris) Johan Decavele (Stad Gent) Luc Pareyn (Liberaal Archief) Peter Schmidt (Bisschoppelijk Seminarie) Wouter Steenhaut (Archief en Museum van de Socialistische Arbeidersbeweging)
5. Het conversieproject: doelstellingen en kader DOELSTELLINGEN ontsluiting van de collecties via een WWW-catalogus bekendmaking van en vlotte toegang tot cultureel erfgoed ondersteuning van onderwijs en onderzoek KADER groei van het internet en de digitale informatiemaatschappij toenemende bibliotheekautomatisering vooruitgang van technologische oplossingen voor retroconversie stijgende interesse voor waardevol erfgoed
6. Het conversieproject: aanpak en fasering 1999: voorstudie en voorbereiding marktonderzoek globaal plan aanvraag voor subsidiëring offertes 2000: conversie van de steekkaarten leverancierkeuze implementatie van fase 1 (conversie) vanaf 2001: ontsluiting en verdere ontwikkeling implementatie van fase 2 (ontsluiting op het Web) optimalisering van de data uitbreiding van de catalogus
7. Voorstudie: marktonderzoek Princeton University: scanning van 6 miljoen fiches image browser (65000 indexkaarten) OCR en USMARC-conversie (aan de gang) http :// imagecat1 . princeton . edu / ecc Österreichische Nationalbibliothek: scanning image browser met inzoomsysteem Zentralbibliothek Zürich: scanning en OCR intelligente zoeksoftware: “fuzzy logic” Andere interessante voorbeelden: Heidelberg, Kopenhagen, Den Haag
10. Voorbereiding: globaal plan conversie: scanning, OCR en veldmarkering geen manuele conversie: hoge kostprijs en arbeidsintensiviteit kwaliteit van de meeste fiches: 90 % woordherkenning mogelijk analyse van de fiches: vrij uniforme structuur technologische vooruitgang uitbesteding, maar in nauw overleg met Cageweb ontsluiting: webcatalogus met zoekmogelijkheden op elk herkend woord en in een aantal velden vraagteken: manuele correctie of “intelligente” zoeksoftware ? opening naar de lokale bibliotheeksystemen (integratie van aanwezige elektronische bestanden) gecentraliseerde aanbieding en updating
12. Fase 1: conversie scanning uitbesteding aan Sercu Microdata 2 soorten scanners: Fujitsu 3099 en Kodak 3500 met ADF instellingen in functie van optimale OCR: resolutie: 300 dpi output: TIFF, zwart-wit andere parameters: helderheid en contrast problematisch: wegfiltering van gekleurde achtergrond en lijntjes verwerking: batch proces beeldverbetering (Kofax software): smoothing, filtering, deskewing, ... snelheid: 10000 fiches per dag (alles inbegrepen)
13. Fase 1: conversie optical character recognition (OCR) uitbesteding aan Arco Information OCR is de achilleshiel (uitvoerig getest en bijgestuurd) OCR software: ABBYY FineReader 4.0 Professional goede “full text” herkenning (patroonherkenning) leerfunctie: training van fout herkende patronen ondersteuning van 53 talen uitbreidbare woordenboeken output: ASCII tekstbestanden goede fiches (ca. 85 %): beoogde resultaat (90 % herkenning) enkel slechte resultaten bij handgeschreven fiches en een deel van de fiches met lijntjes of donkere achtergrond
14. Fase 1: conversie veldmarkering uitbesteding aan Arco Information formulierherkenning (in OCR fase zelf): niet haalbaar vermits er geen vaste lay-out is in de plaats daarvan: Visual Basic script voor veldmarkering in OCR output afgebakende velden: hoofdwoord, bibliotheekcode, plaatsnummer, zie-verwijzingen, rest (titel etc.) criteria: ruimtelijk (positie op de fiche) of inhoudelijk (bv. bibliotheekcodes)
18. Fase 2: ontsluiting op het WWW verwachtingen t.a.v. de zoeksoftware: zoekmogelijkheden op elk woord, in velden, met Booleaanse operatoren, truncatie, ... bladeren doorheen de oorspronkelijke, alfabetische structuur eenvoudige, gebruiksvriendelijke interface mogelijkheid tot koppeling aan thesauri extra functionaliteit: zoeksoftware met “fuzzy logic” ? meerwaarde: omzeilen van OCR fouten risico: meer ruis niet weerhouden, vooral vanwege de kostprijs flexibele integratie van lokale, elektronische catalogusrecords link vanuit database record naar het gescande beeld
20. Fase 2: ontsluiting de webcatalogus Aleph bibliotheeksysteem van de Universiteit Gent gebaseerd op een Oracle databank USMARC velden oorspronkelijk: zoeken op elk herkend woord zoeken in de records van een specifieke bibliotheek bladeren door indexen (hoofdwoord, titel, signatuur, …) link naar de gescande fiche (856-veld) vanuit elk record latere aanpassingen: ook bladeren door de gescande fiches rechtstreeks tonen van de gescande fiche als zoekresultaat
26. Verdere ontwikkelingen: optimalisering van de records verbetering van OCR fouten verfijning van de veldstructuren methodiek: beperking van manuele interventie door voorafgaande globale en semi-automatische correcties sturing en versoepeling van manueel verbeterwerk door softwarematige oplossingen (bv. sjablonen, filters, drop-down keuzemenu’s, …) gecentraliseerd of opgesplitst per bibliotheek via periodieke uploads (off line) of inputmodule (on line) goede afspraken en coördinatie
27. Verdere ontwikkelingen: optimalisering van de records globale verbeteringen in de databank: verwijdering rare tekens, opsporing niet herkende bibliotheekcodes, gedeeltelijke afbakening impressum, ... eerste fase in de manuele correcties (zomer 2001): zorgvuldig geselecteerde jobstudenten verbetering van titels en auteurs, verdere afbakening van impressum in Access bestanden (per bibliotheek) met link naar gescande fiche > ongeveer 1/3 verbeterd verbetering van hoofdwoorden in Excel bestanden (gecentraliseerd) op basis van alfabetische volgorde controle door bibliothecarissen
29. Verdere ontwikkelingen: integratie en uitbreiding integratie van gegevens uit de lokale elektronische catalogi Libis, Pallas, FileMaker, Allegro, ... periodieke downloads, conversie naar USMARC en upload in Aleph afspraken en coördinatie eventuele ontdubbeling van titelbeschrijvingen samenwerking met andere instellingen en verdere uitbreiding van de collectieve catalogus koppeling aan waardevol primair, multimediaal materiaal (gescande voorbladen, inhoudstafels, partituren, illustraties, ...)