17. tværsnitshøstning afsluttet

29. juni 2012

Den anden tværsnitshøstning i 2012 er netop afsluttet  på under 2 måneder.

En tværsnitshøstning giver et øjebliksbillede af den danske del af internettet på det tidspunkt, hvor vores webcrawlere kommer forbi.

Vi kørte tværsnitshøstningen i to step. Første step startede 6. maj med en grænse på 10 MB per domæne, dvs. vores høstere (webcrawlere) stopper høstningen af et givent domæne, når der er hentet 10 MB, og fortsætter med at høste et nyt domæne. Første step varede en uge.

Da vi ikke fik alt indhold med fra meget store websteder, som for eksempel Danmarks Radios og TV2’s hjemmesider, satte vi andet step i gang – nu med en grænse på 8 GB per domæne. Andet step blev sat i gang efter en uges pause (21. maj) og varede 37 dage.

Samlet har denne tværsnitshøstning varet 53 dage og vi har høstet 28 TB og 670 millioner dokumenter (filer).

I Netarkivets første år varede en tværsnitshøstning næsten et halvt år, vi kunne altså kun gennemføre 2 tværsnitshøstninger per år. Med den nuværende  høstningshastighed kan vi opfylde vore mål om at gennemføre 4 årlige tværsnitshøstninger.