Nationale Bibliotheek van Noorwegen werkt aan kolossaal data-archief
De ambitie van de bibliotheek is groot, zo blijkt uit berichtgeving van Zdnet. Ze willen alles dat ooit in Noorwegen werd uitgebracht archiveren en beschikbaar maken voor iedereen. Het betreft onder andere boeken, kranten, manuscripten, posters, foto’s, films, websites, etc. Reeds 12 jaar lang is de bibliotheek bezig met het archiveren en er lijkt nog niet snel een einde aan te komen. Er wordt geschat dat het nog 30 jaar zal duren om het digitaliseringsproces af te ronden.
Op moment van schrijven bevat de digitale bibliotheek reeds meer dan 540.000 boeken en meer dan twee miljoen kranten. Het handige is vooral dat de documenten werden ingescand met een OCR-techniek, waardoor alles digitaal doorzocht kan worden. In september had het archief een omvang van 8,1 petabyte. Dagelijks wordt er zo’n vijf tot tien terabyte aan het archief toegevoegd.
Zoals het een bibliotheek betaamt willen ze de data ook beschikbaar stellen voor het grote publiek. Daarmee gaan echter wel wat uitdagingen gepaard, zoals de conversie van bestandsformaten. Deze formaten blijven immers niet bestaan op de lange termijn. Zo werden er bijvoorbeeld reeds 50 miljoen afbeeldingen geconverteerd naar een hedendaags bestandsformaat. Het converteren van deze bestanden vraagt echter heel wat tijd en rekenkracht. Bovendien hebben harde schijven een beperkte levensduur. Met zo’n grote hoeveel data moeten er actief harde schijven worden vervangen wanneer ze hun maximale levensduur (gemiddeld vijf jaar) bereiken.