Nieuwe Tijdingen

Stuifzand werkt mee met de Vlaamse Erfgoedbibliotheken en meemoo aan een onderzoek naar een overkoepelend Vlaams krantenprogramma voor de digitalisering, ontsluiting en archivering van dit bedreigde erfgoed. Onze erfgoeddienst zet binnen dit project vooral in op het verbeteren van de tekstherkenning van reeds gedigitaliseerde kranten.

OCR (Optical Character Recognition) is een proces waarbij afbeeldingen van gedrukte teksten (bijvoorbeeld gedigitaliseerde krantenpagina’s) automatisch worden omgezet naar leesbare tekst. Op deze manier worden die digitale krantenpagina’s ook doorzoekbaar, zoals je kan zien in onze grote collectie kranten op www.kempenserfgoed.be. Maar deze teksten bevatten vaak nog veel fouten. Dat heeft te maken met de beperkingen van de OCR-technologie voor dit soort materiaal (met originelen in slechte staat, doordrukken van onderliggende pagina’s, voor een computer moeilijk leesbare lettertypes, papierkleur,…). Binnen het project Nieuwe Tijdingen onderzoeken we hoe we onze “oude” OCR-resultaten beter bruikbaar kunnen maken. De Vlaamse Erfgoedbibliotheken werken hiervoor samen met specialisten van de Staatsbibliothek zu Berlin. Als basis voor dit onderzoek maken we een zo betrouwbaar mogelijke transcriptie van een aantal krantenpagina’s. Letter voor letter typen we de pagina’s over, waarna we ook nog de opmaak van die pagina’s beschrijven (Welke titeltjes of woorden staan in het vet? Welke in het cursief?). Een zware, uitdagende klus waarvoor we kunnen rekenen op de straffe inzet van het Stadsarchief Geel, heemkring De Griffioen uit Dessel en Erfgoed Balen.

Het project Nieuwe Tijdingen gaat daarnaast ook nog onderzoeken hoe er een grootschalig digitaliseringsprogramma opgezet kan worden en hoe die digitale kranten zo goed mogelijk online beschikbaar gemaakt kunnen worden. Een boeiend, veelbelovend traject dus!

Contactgegevens

jolien@stuifzand.be