Het conversieproject van Cageweb vzw digitalisering van een steekkaartencatalogus  ter ontsluiting van waardevol erfgoed Lieven De Vos Hogeschool Gent
Cageweb vzw: collecties en catalogi Cageweb = Catalogus Gentse Wetenschappelijke Bibliotheken in 1979 gesticht door wijlen Emiel Wille, ere-conservator van de Gentse universiteitsbibliotheek 12 Gentse archieven, bibliotheken en musea rijke collecties (15e-20e eeuw): incunabelen, biblia, partituren, iconografisch materiaal, devotieliteratuur, persknipsels, ... diverse lokale catalogussystemen gezamenlijke catalogus sinds 1979: ongeveer 350.000 steekkaarten cataloguszaal van de Centrale Bibliotheek van de Universiteit Gent B.T.K.-projecten, nadien periodieke aanvullingen
Cageweb vzw:  leden Archief en Museum van de Socialistische Arbeidersbeweging Augustijnenklooster St. Stefanus Bisschoppelijk Seminarie Conservatorium Gent Klooster der Dominicanen Klooster Paters Ongeschoeide Karmelieten Koninklijke Academie voor Nederlandse Taal- en Letterkunde Koninklijke Bond der Oost-Vlaamse Volkskundigen Liberaal Archief Museum Arnold vander Haeghen: Stichting en Kabinet Maurice Maeterlinck Museum voor Schone Kunsten Stadsarchief
Cageweb vzw:  Raad van Beheer Roos Van Driessche (voorzitter) Marina Teirlinck (secretaris) Johan Decavele (Stad Gent) Luc Pareyn (Liberaal Archief) Peter Schmidt (Bisschoppelijk Seminarie) Wouter Steenhaut (Archief en Museum van de Socialistische Arbeidersbeweging)
Het conversieproject:  doelstellingen en kader DOELSTELLINGEN ontsluiting van de collecties via een WWW-catalogus bekendmaking van en vlotte toegang tot cultureel erfgoed ondersteuning van onderwijs en onderzoek KADER groei van het internet en de digitale informatiemaatschappij toenemende bibliotheekautomatisering vooruitgang van technologische oplossingen voor retroconversie stijgende interesse voor waardevol erfgoed
Het conversieproject: aanpak en fasering 1999: voorstudie en voorbereiding marktonderzoek globaal plan aanvraag voor subsidiëring offertes 2000: conversie van de steekkaarten leverancierkeuze implementatie van fase 1 (conversie) vanaf 2001: ontsluiting en verdere ontwikkeling   implementatie van fase 2 (ontsluiting op het Web) optimalisering van de data uitbreiding van de catalogus
Voorstudie: marktonderzoek Princeton University: scanning van 6 miljoen fiches image browser (65000 indexkaarten) OCR en USMARC-conversie (aan de gang) http :// imagecat1 . princeton . edu / ecc Österreichische Nationalbibliothek: scanning image browser met inzoomsysteem Zentralbibliothek Zürich: scanning en OCR intelligente zoeksoftware: “fuzzy logic” Andere interessante voorbeelden:  Heidelberg, Kopenhagen, Den Haag
Voorstudie: image browser (Princeton)
Voorstudie: steekkaart uit Princeton
Voorbereiding: globaal plan conversie: scanning, OCR en veldmarkering geen manuele conversie: hoge kostprijs en arbeidsintensiviteit kwaliteit van de meeste fiches: 90 % woordherkenning mogelijk analyse van de fiches: vrij uniforme structuur technologische vooruitgang uitbesteding, maar in nauw overleg met Cageweb ontsluiting: webcatalogus met zoekmogelijkheden op elk herkend woord en in een aantal velden vraagteken: manuele correctie of “intelligente” zoeksoftware ? opening naar de lokale bibliotheeksystemen (integratie van aanwezige elektronische bestanden) gecentraliseerde aanbieding en updating
Voorbereiding: de partners FINANCIËLE STEUN TECHNISCHE EN LOGISTIEKE STEUN Centrale  Bibliotheek
Fase 1: conversie scanning uitbesteding aan Sercu Microdata 2 soorten scanners:  Fujitsu 3099 en Kodak 3500 met ADF instellingen in functie van optimale OCR: resolutie: 300 dpi output: TIFF, zwart-wit andere parameters: helderheid en contrast problematisch: wegfiltering van gekleurde achtergrond en lijntjes verwerking: batch proces beeldverbetering (Kofax software): smoothing, filtering, deskewing, ... snelheid: 10000 fiches per dag (alles inbegrepen)
Fase 1: conversie optical character recognition (OCR) uitbesteding aan Arco Information OCR is de achilleshiel (uitvoerig getest en bijgestuurd) OCR software: ABBYY FineReader 4.0 Professional goede “full text” herkenning (patroonherkenning) leerfunctie: training van fout herkende patronen ondersteuning van 53 talen uitbreidbare woordenboeken output: ASCII tekstbestanden goede fiches (ca. 85 %): beoogde resultaat (90 % herkenning) enkel slechte resultaten bij handgeschreven fiches en een deel van de fiches met lijntjes of donkere achtergrond
Fase 1: conversie veldmarkering uitbesteding aan Arco Information formulierherkenning (in OCR fase zelf): niet haalbaar vermits er geen vaste lay-out is in de plaats daarvan: Visual Basic script voor veldmarkering in OCR output afgebakende velden: hoofdwoord, bibliotheekcode, plaatsnummer, zie-verwijzingen, rest (titel etc.) criteria: ruimtelijk (positie op de fiche) of inhoudelijk (bv. bibliotheekcodes)
Fase 1: conversie  Prototype van een steekkaart
Fase 1: conversie  Image en OCR-resultaat
Fase 1: conversie  patronentraining bij OCR
Fase 2: ontsluiting op het WWW verwachtingen t.a.v. de zoeksoftware: zoekmogelijkheden op elk woord, in velden, met Booleaanse operatoren, truncatie, ... bladeren doorheen de oorspronkelijke, alfabetische structuur eenvoudige, gebruiksvriendelijke interface mogelijkheid tot koppeling aan thesauri extra functionaliteit: zoeksoftware met “fuzzy logic” ? meerwaarde: omzeilen van OCR fouten risico: meer ruis niet weerhouden, vooral vanwege de kostprijs flexibele integratie van lokale, elektronische catalogusrecords link vanuit database record naar het gescande beeld
Fase 2: ontsluiting op het WWW homepage:  http ://bib. hogent . be / cageweb
Fase 2: ontsluiting de webcatalogus Aleph bibliotheeksysteem van de Universiteit Gent gebaseerd op een Oracle databank USMARC velden oorspronkelijk: zoeken op elk herkend woord zoeken in de records van een specifieke bibliotheek bladeren door indexen (hoofdwoord, titel, signatuur, …) link naar de gescande fiche (856-veld) vanuit elk record latere aanpassingen: ook bladeren door de gescande fiches rechtstreeks tonen van de gescande fiche als zoekresultaat
Fase 2: ontsluiting de webcatalogus
Fase 2: ontsluiting eerste versie van de interface
Fase 2: ontsluiting vernieuwde interface
Fase 2: ontsluiting bladeren door de gescande fiches
Fase 2: ontsluiting bladeren door de gescande fiches
Verdere ontwikkelingen: optimalisering van de records verbetering van OCR fouten verfijning van de veldstructuren methodiek: beperking van manuele interventie door voorafgaande  globale en semi-automatische correcties sturing en versoepeling van manueel verbeterwerk door softwarematige oplossingen (bv. sjablonen, filters, drop-down keuzemenu’s, …) gecentraliseerd of opgesplitst per bibliotheek via periodieke uploads (off line) of inputmodule (on line) goede afspraken en coördinatie
Verdere ontwikkelingen: optimalisering van de records globale verbeteringen in de databank: verwijdering rare tekens, opsporing niet herkende bibliotheekcodes, gedeeltelijke afbakening impressum, ... eerste fase in de manuele correcties (zomer 2001): zorgvuldig geselecteerde jobstudenten verbetering van titels en auteurs, verdere afbakening van impressum in Access bestanden (per bibliotheek) met link naar gescande fiche > ongeveer 1/3 verbeterd verbetering van hoofdwoorden in Excel bestanden (gecentraliseerd) op basis van alfabetische volgorde controle door bibliothecarissen
Verdere ontwikkelingen: verbeteren in MS Access
Verdere ontwikkelingen: integratie en uitbreiding integratie van gegevens uit de lokale elektronische catalogi Libis, Pallas, FileMaker, Allegro, ... periodieke downloads, conversie naar USMARC en upload in Aleph afspraken en coördinatie eventuele ontdubbeling van titelbeschrijvingen samenwerking met andere instellingen en verdere uitbreiding van de collectieve catalogus koppeling aan waardevol primair, multimediaal materiaal (gescande voorbladen, inhoudstafels, partituren, illustraties, ...)
Nostalgie ?

More Related Content

PPTX
Tech Talk 19.06.2013 @ GlobalLogic (Lviv): "Ирония автоматизации"
PPTX
SE Louisiana Import Trends
PPT
Supporting uniformed officers in delivering therapy within a prison therapeut...
PDF
Annoluce a Transmedia bridge 2012
PPT
Therapy for female personality disorder offenders in custody who pose a risk ...
PPTX
SQA Days-13 @ Piter v3.1 web
PPT
Implementing the KUF: making the virtual a reality
Tech Talk 19.06.2013 @ GlobalLogic (Lviv): "Ирония автоматизации"
SE Louisiana Import Trends
Supporting uniformed officers in delivering therapy within a prison therapeut...
Annoluce a Transmedia bridge 2012
Therapy for female personality disorder offenders in custody who pose a risk ...
SQA Days-13 @ Piter v3.1 web
Implementing the KUF: making the virtual a reality

Similar to Cageweb Informatie2001 (20)

PPT
Open Vlacc V3 2007
PPTX
My Discoveries evaluatie 2015
PDF
Vlaamse handschriften - Overlegplatform voor erfgoedbibliotheken 2018
PPT
Trends en ervaringen zoekomgeving bibliotheekcollecties in Vlaanderen
PPT
Trends, ervaringen en infrastructuur bij de uitbouw van zoek- en ontdekomgevi...
PPT
Open vlacc oost vlaanderen
PPT
Theorie van het zoeken met Aquabrowser
PPT
Haalbaarheidsstudie MMLAB en MICT
PPTX
Bibliotheekautomatisering
PDF
Het Europeana Newspapers Project
PPT
Open Vlacc Centraal catalogiseren
PPT
Open Vlacc Centraal catalogiseren
PPTX
Geert Van Reyn, “Huis-, tuin- en keukentips bij kleinschalige digitaliserings...
PDF
Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...
PPTX
Bibliotheekportalen Liquid
Open Vlacc V3 2007
My Discoveries evaluatie 2015
Vlaamse handschriften - Overlegplatform voor erfgoedbibliotheken 2018
Trends en ervaringen zoekomgeving bibliotheekcollecties in Vlaanderen
Trends, ervaringen en infrastructuur bij de uitbouw van zoek- en ontdekomgevi...
Open vlacc oost vlaanderen
Theorie van het zoeken met Aquabrowser
Haalbaarheidsstudie MMLAB en MICT
Bibliotheekautomatisering
Het Europeana Newspapers Project
Open Vlacc Centraal catalogiseren
Open Vlacc Centraal catalogiseren
Geert Van Reyn, “Huis-, tuin- en keukentips bij kleinschalige digitaliserings...
Nieuwe bibliotheekwebsites voor bibs en publiek #3in1 #mobilefirst #stayconne...
Bibliotheekportalen Liquid
Ad

Cageweb Informatie2001

  • 1. Het conversieproject van Cageweb vzw digitalisering van een steekkaartencatalogus ter ontsluiting van waardevol erfgoed Lieven De Vos Hogeschool Gent
  • 2. Cageweb vzw: collecties en catalogi Cageweb = Catalogus Gentse Wetenschappelijke Bibliotheken in 1979 gesticht door wijlen Emiel Wille, ere-conservator van de Gentse universiteitsbibliotheek 12 Gentse archieven, bibliotheken en musea rijke collecties (15e-20e eeuw): incunabelen, biblia, partituren, iconografisch materiaal, devotieliteratuur, persknipsels, ... diverse lokale catalogussystemen gezamenlijke catalogus sinds 1979: ongeveer 350.000 steekkaarten cataloguszaal van de Centrale Bibliotheek van de Universiteit Gent B.T.K.-projecten, nadien periodieke aanvullingen
  • 3. Cageweb vzw: leden Archief en Museum van de Socialistische Arbeidersbeweging Augustijnenklooster St. Stefanus Bisschoppelijk Seminarie Conservatorium Gent Klooster der Dominicanen Klooster Paters Ongeschoeide Karmelieten Koninklijke Academie voor Nederlandse Taal- en Letterkunde Koninklijke Bond der Oost-Vlaamse Volkskundigen Liberaal Archief Museum Arnold vander Haeghen: Stichting en Kabinet Maurice Maeterlinck Museum voor Schone Kunsten Stadsarchief
  • 4. Cageweb vzw: Raad van Beheer Roos Van Driessche (voorzitter) Marina Teirlinck (secretaris) Johan Decavele (Stad Gent) Luc Pareyn (Liberaal Archief) Peter Schmidt (Bisschoppelijk Seminarie) Wouter Steenhaut (Archief en Museum van de Socialistische Arbeidersbeweging)
  • 5. Het conversieproject: doelstellingen en kader DOELSTELLINGEN ontsluiting van de collecties via een WWW-catalogus bekendmaking van en vlotte toegang tot cultureel erfgoed ondersteuning van onderwijs en onderzoek KADER groei van het internet en de digitale informatiemaatschappij toenemende bibliotheekautomatisering vooruitgang van technologische oplossingen voor retroconversie stijgende interesse voor waardevol erfgoed
  • 6. Het conversieproject: aanpak en fasering 1999: voorstudie en voorbereiding marktonderzoek globaal plan aanvraag voor subsidiëring offertes 2000: conversie van de steekkaarten leverancierkeuze implementatie van fase 1 (conversie) vanaf 2001: ontsluiting en verdere ontwikkeling implementatie van fase 2 (ontsluiting op het Web) optimalisering van de data uitbreiding van de catalogus
  • 7. Voorstudie: marktonderzoek Princeton University: scanning van 6 miljoen fiches image browser (65000 indexkaarten) OCR en USMARC-conversie (aan de gang) http :// imagecat1 . princeton . edu / ecc Österreichische Nationalbibliothek: scanning image browser met inzoomsysteem Zentralbibliothek Zürich: scanning en OCR intelligente zoeksoftware: “fuzzy logic” Andere interessante voorbeelden: Heidelberg, Kopenhagen, Den Haag
  • 10. Voorbereiding: globaal plan conversie: scanning, OCR en veldmarkering geen manuele conversie: hoge kostprijs en arbeidsintensiviteit kwaliteit van de meeste fiches: 90 % woordherkenning mogelijk analyse van de fiches: vrij uniforme structuur technologische vooruitgang uitbesteding, maar in nauw overleg met Cageweb ontsluiting: webcatalogus met zoekmogelijkheden op elk herkend woord en in een aantal velden vraagteken: manuele correctie of “intelligente” zoeksoftware ? opening naar de lokale bibliotheeksystemen (integratie van aanwezige elektronische bestanden) gecentraliseerde aanbieding en updating
  • 11. Voorbereiding: de partners FINANCIËLE STEUN TECHNISCHE EN LOGISTIEKE STEUN Centrale Bibliotheek
  • 12. Fase 1: conversie scanning uitbesteding aan Sercu Microdata 2 soorten scanners: Fujitsu 3099 en Kodak 3500 met ADF instellingen in functie van optimale OCR: resolutie: 300 dpi output: TIFF, zwart-wit andere parameters: helderheid en contrast problematisch: wegfiltering van gekleurde achtergrond en lijntjes verwerking: batch proces beeldverbetering (Kofax software): smoothing, filtering, deskewing, ... snelheid: 10000 fiches per dag (alles inbegrepen)
  • 13. Fase 1: conversie optical character recognition (OCR) uitbesteding aan Arco Information OCR is de achilleshiel (uitvoerig getest en bijgestuurd) OCR software: ABBYY FineReader 4.0 Professional goede “full text” herkenning (patroonherkenning) leerfunctie: training van fout herkende patronen ondersteuning van 53 talen uitbreidbare woordenboeken output: ASCII tekstbestanden goede fiches (ca. 85 %): beoogde resultaat (90 % herkenning) enkel slechte resultaten bij handgeschreven fiches en een deel van de fiches met lijntjes of donkere achtergrond
  • 14. Fase 1: conversie veldmarkering uitbesteding aan Arco Information formulierherkenning (in OCR fase zelf): niet haalbaar vermits er geen vaste lay-out is in de plaats daarvan: Visual Basic script voor veldmarkering in OCR output afgebakende velden: hoofdwoord, bibliotheekcode, plaatsnummer, zie-verwijzingen, rest (titel etc.) criteria: ruimtelijk (positie op de fiche) of inhoudelijk (bv. bibliotheekcodes)
  • 15. Fase 1: conversie Prototype van een steekkaart
  • 16. Fase 1: conversie Image en OCR-resultaat
  • 17. Fase 1: conversie patronentraining bij OCR
  • 18. Fase 2: ontsluiting op het WWW verwachtingen t.a.v. de zoeksoftware: zoekmogelijkheden op elk woord, in velden, met Booleaanse operatoren, truncatie, ... bladeren doorheen de oorspronkelijke, alfabetische structuur eenvoudige, gebruiksvriendelijke interface mogelijkheid tot koppeling aan thesauri extra functionaliteit: zoeksoftware met “fuzzy logic” ? meerwaarde: omzeilen van OCR fouten risico: meer ruis niet weerhouden, vooral vanwege de kostprijs flexibele integratie van lokale, elektronische catalogusrecords link vanuit database record naar het gescande beeld
  • 19. Fase 2: ontsluiting op het WWW homepage: http ://bib. hogent . be / cageweb
  • 20. Fase 2: ontsluiting de webcatalogus Aleph bibliotheeksysteem van de Universiteit Gent gebaseerd op een Oracle databank USMARC velden oorspronkelijk: zoeken op elk herkend woord zoeken in de records van een specifieke bibliotheek bladeren door indexen (hoofdwoord, titel, signatuur, …) link naar de gescande fiche (856-veld) vanuit elk record latere aanpassingen: ook bladeren door de gescande fiches rechtstreeks tonen van de gescande fiche als zoekresultaat
  • 21. Fase 2: ontsluiting de webcatalogus
  • 22. Fase 2: ontsluiting eerste versie van de interface
  • 23. Fase 2: ontsluiting vernieuwde interface
  • 24. Fase 2: ontsluiting bladeren door de gescande fiches
  • 25. Fase 2: ontsluiting bladeren door de gescande fiches
  • 26. Verdere ontwikkelingen: optimalisering van de records verbetering van OCR fouten verfijning van de veldstructuren methodiek: beperking van manuele interventie door voorafgaande globale en semi-automatische correcties sturing en versoepeling van manueel verbeterwerk door softwarematige oplossingen (bv. sjablonen, filters, drop-down keuzemenu’s, …) gecentraliseerd of opgesplitst per bibliotheek via periodieke uploads (off line) of inputmodule (on line) goede afspraken en coördinatie
  • 27. Verdere ontwikkelingen: optimalisering van de records globale verbeteringen in de databank: verwijdering rare tekens, opsporing niet herkende bibliotheekcodes, gedeeltelijke afbakening impressum, ... eerste fase in de manuele correcties (zomer 2001): zorgvuldig geselecteerde jobstudenten verbetering van titels en auteurs, verdere afbakening van impressum in Access bestanden (per bibliotheek) met link naar gescande fiche > ongeveer 1/3 verbeterd verbetering van hoofdwoorden in Excel bestanden (gecentraliseerd) op basis van alfabetische volgorde controle door bibliothecarissen
  • 29. Verdere ontwikkelingen: integratie en uitbreiding integratie van gegevens uit de lokale elektronische catalogi Libis, Pallas, FileMaker, Allegro, ... periodieke downloads, conversie naar USMARC en upload in Aleph afspraken en coördinatie eventuele ontdubbeling van titelbeschrijvingen samenwerking met andere instellingen en verdere uitbreiding van de collectieve catalogus koppeling aan waardevol primair, multimediaal materiaal (gescande voorbladen, inhoudstafels, partituren, illustraties, ...)