Digging up Data: Digitale opgravingen in Zuid-Holland

Gaat er ergens in Zuid-Holland een schop in de grond – bijvoorbeeld voor een nieuwe woonwijk – dan zorgt de provincie dat er geen historische bodemschatten verloren gaan. Door vindplaatsen te beschermen en onderzoek te doen. Archeologische vondsten en alle documentatie er omheen, moeten daarna voor publiek toegankelijk zijn. Best lastig, want hoe ontsluit je al die informatie? Bij dit big-data-vraagstuk schiet Incentro te hulp.

In de polders van Alphen stuit een archeoloog op een ‘baardmannetje’. Een middeleeuws kruikje, met een fraai bebaard gezichtje erop. Wauw! Zo’n mooie vondst wordt natuurlijk grondig bestudeerd. Waar is het precies gevonden? Hoe diep in de aarde? Gaandeweg wordt elk detail opgetekend. Tot dusver geen probleem, zal je denken. Klopt! Maar nu komt het: na enkele decennia keert het archeologisch proces zich om. De uitvoerige documentatie rondom vondsten stapelt zich op en vormt – laag na laag – een nieuwe informatiekorst. Wie er iets uit nodig heeft, zal opnieuw moeten graven.

outdated data

Het Provinciaal Archeologisch Depot in Alphen aan de Rijn verzamelt sinds 1948 alle vondsten en documentatie uit Zuid-Holland. Dat is inmiddels een aardige collectie: het depot huisvest duizenden voorwerpen en tienduizenden documenten. Gaandeweg wordt die verzameling wel gescand, maar daarmee is de informatie nog verre van bruikbaar. Want ook die scans verdwijnen weer in mapjes op cd’s, harddisks en in andere digitale aardlagen. Er is dus een nieuw archeologisch proces nodig om ze vindbaar en bruikbaar te maken.

graven naar goud

Werk je met big data, dan kom je de term ‘mining’ vaak tegen. Gravend in grote infobergen, zoekt de dataminer naar digitale goudaders: informatie die, in het juiste verband, kostbare inzichten oplevert. De ruwe brokken aarde bestaan in ons geval uit scans: pagina’s waarop tekeningen, foto’s en teksten in pixels zijn afgebeeld. We zoeken daarin naar alle mogelijke details. Wat is het voor document? Een tekening, bodemonderzoek of materiaalverslag? Over welk object gaat het, uit welke tijd, door wie gevonden? Met alles wat we te weten komen, labelen we de pagina’s. Als het ons lukt om alle scans zo te kenmerken, kun je er later op allerlei manieren in zoeken. ‘Alle foto’s van keramische bodemvondsten uit 1820?’ Die breng je dan in een handomdraai bij elkaar.

bergen verzetten

De timing van dit project is gunstig. Waarom? Data-giganten zoals Google en Microsoft hebben zelflerende software die massa’s informatie lezen, analyseren en labelen. Precies wat wij ook willen. We spannen Google’s Tesseract voor ons karretje om de data uit ‘t depot in Alphen aan de Rijn te activeren. Voor de kenners: we gebruiken R als platform, Image Magick poetst alle moddervlekken van de scans en Tesseract ‘leest’ daarna alle teksten en beelden voor ons door. Een gesmeerd proces wat veel bruikbare labels oplevert. Er is overigens nog altijd ruimte voor verbetering. We wachten met smacht op de aanstaande update van Tesseract.

data in zicht

Aan het eind van het project brengen we alle resultaten samen in een database. Via een app kunnen de professionals in Alphen hun data vlot doorzoeken, op allerlei manieren ordenen én stijlvol presenteren. Nieuwe labels voegen ze zelf eenvoudig toe. Nog een pluspunt: voor ons is het een kleine moeite om nieuwe functies aan de app toe te voegen. Nodeloos graven in data is daarmee echt verleden tijd. Wel is er nu alle ruimte voor diepgravend onderzoek. Goed nieuws voor de archeologen en conservatoren in Alphen aan de Rijn, en een schoolvoorbeeld van open data voor de provincie.