Status

September/oktober 2016

  • Den 30. september blev årets tredje tværsnitshøstning med tilhørende høstninger af ministerier og mega store sites afsluttet.
  • Omlægningen af de selektive høstninger er afsluttet. Høstningerne er nu organiseret som beskrevet her. Høstningerne bliver nu overvåget og løbende og justeret efter behov.
  • En ”køreplan” for begivenhedshøstninger af folketings- og kommunalvalg er ved at være på plads. Ved hjælp af planen kan vi hurtig finde bla. Kandidater og sætte en høstning i gang, når der udskrives valg.
  • Vi har givet vores selektive høstninger af de sociale medier et make-over: Listen af indsamlede twitterprofiler og hashtags er revideret og en høstning af instagramkonti er sat i gang.

August 2016

  • I uge 36/37 starter en tværsnitshøstning med følgende delhøstninger:
    • Tværsnitshøstning med masimumsgrænse 100 MB per site
    • Ministerier og Styrelser
    • Mega Store Sites
  • Omlægningen af de selektive høstninger fortsætter
    • Udvalgte lokale/regionale nyhedsmedier (distriktsblad/ugeaviser og regionale nyhedsmedier) høstes nu selektivt høstningen overvåges. Målet er efterhånden at tilføje alle lokale/regionale nyhedsmedier til høstningen.
    • Twitterhøstninger revideres: profilerne gennemgås, der slettes og tilføjes.
    • Der er udvalgt 60 Facebook-profiler til høstning via Internet Archives løsning Archive-IT. Høstningen er sat i gang, men har desværre vist dårlige resultater
    • En særskilt Facebook høstning af Lars Løkkes profil blev gennemført den 30-08-2016 (dagen, hvor han offentliggjorde sin 2025 plan).
  • Begivenhedshøstningen Sommer OL 2016 kører videre indtil de Paralympiske lege 2016 er afsluttet.

Juli 2016

  • Som led i omlægningen af vores indsamlingsstrategi – mere selektiv indsamling, mindre tværsnitshøstninger-høstes alle landsdækkende nyhedsmedier nu selektivt. Det gælder både for avisers hjemmesider, nyhedsmedier, der kun udgives online og nyhedsportaler (samler stof fra andre nyhedsmedier og linker dertil fx efter en emensortering)
  • Alle lokale nyhedsmedier – det er regionale (online)aviser og ugeaviser – undersøges på opdateringsfrekvens, for derefter at kunne sætte en passende høstning op.
  • Med vores høster Heritrix 3 er vi ikke i stand til at høste Facebook profiler på en hensigtsmæssig måde. Archive-IT, den kommercielle del af Internet Archive, burger dog et tilføjelsesprogram, der muliggør indsamling af Facebook profiler. Vi har købt lagerplads hos Archive-IT for bla. at indsamle udvalgte repræsentative danske Facebook profiler og er i gang med en liste over disse udvalgte profiler.

Juni 2016

  • Anden tværsnitshøstning 2016, blev afsluttet den 28. juni. Der blev høstet 11.255.368.320.635 bytes / 242.114.319 dokumenter
  • Begivenhedshøstningen Sommer OL i Rio 2016 startede den 24. juni med fokus på officielle sites og de deltagende atleters hjemmesider og profiler på sociale medier. Samtidig bidrager vi til en international Sommer OL indsamling i IIPC regi.
  • Den løbende implementering af indsamlingsstrategien er kommet til universitetsrepositorierne samt undervisnings- og lovportaler:
    • Forskningsdatabaser: Vi er i gang med at indsamle alle danske forskningsdatabaser (PURE-repositorier) inklusive lokalt hostede publikationer (dvs. ikke fx registrerede publikationer, der hostes hos JSTOR eller Elsevier osv.).
    • Undervisningsportaler: Vi er ved at etablere kontakt til udbydere af portaler / sites med undervisningsmateriale med henblik på at få indsamlet indhold bag login. Det drejer sig fx om Systime og forlaget Alineas undervisningssites.
    • Schultz Lovportaler: Vi har fået login-information til forlaget Schultz’ samling af lovmateriale, bekendtgørelser, mv. Der er tale om en temmelig stor database. Efter sommerferien skal vi vurdere, hvilken indsamlingsmetode, der er mest hensigtsmæssig.
  • Formidlingspolitikken for et sidste brush up
  • En revision af samarbejdsaftalen mellem Statsbiblioteket og det Kongelige Bibliotek omkring Netarkivet er blevet godkendt af direktionerne på de to institutioner.

Maj 2016

  • Anden tværsnitshøstning 2016, som bliver den første i ny NAS, er igang med 818 kørende høstningsjobs. Der høstes max. 100 MB per domæne. Det bliver dermed en lille tværsnitshøstning jævnfør vores ændring af indsamlingsstrategi.
  • Begivenhedshøstningen  “Flygtninge” 2015 og frem er afsluttet. Vi har lavet en lille høstning af “Eurovision Song Contest”, med fokus på de danske deltagere på twitter og dækning af danske tema-sites. Begivenhedshøstningen Sommer OL er under forberedelse.
  • Implementering af en revideret indsamlingsstrategi forgår løbende. Den udvidede indsamling af nyhedsmedier på nettet er ved at falde på plads
  • Folketingets bibliotek stiller historiske (høstede) udgaver af folketingspartiernes hjemmesider til rådighed på deres læsesal; men er utilfredse med deres løsning. Derfor ser Netarkivet og Folketingets Bibliotek på mulighederne for et samarbejde i fremtiden.
  • Ansøgning imødekommet om godkendelse hos Aarhus Universitet i henhold til paraplygodkendelse hos Datatilsynet i forbindelse med et forskningsprojekt, hvor der skal analyseres materiale i det danske webarkiv Netarkivet.

April 2016

  • Vi har idriftssat NAS 5 (NetarchiveSuite 5) samt Heritrix 3
  • Næste tværsnit, som bliver den første i ny NAS, er planlagt igangsat i begyndelsen af maj, men vi afventer at alt kører godt i ny NAS.
  • Vi fortsætter med begivenhedshøstningen 2015 Flygtninge, den er dog efterhånden en meget lille høstning. Vi overvejer/forbereder lige nu forskellige indsamlingsscenarier i forhold til  Århus 2017 kulturby.
  • Begivenhedshøstninger i regi af IIPC: Vi har besluttet at deltage i Sommer OL + Online News Around the world: A Snapshot in Time.
  • Selektiv høstning: Vi har stadig problemer med at høste Facebook.  Måske kan vi benytte Archive-It til at høste noget.
  • Revidering af indsamlingsstrategi: Vi er i gang med at lave en samlet strategi, men det bliver også en løbende overgang. Udgangspunktet er færre dybe tværsnitshøstninger og flere større selektive høstninger. Blandt andet vil vi udvide indsamlingen af netnyhedsmedier og arbejder på en indsamlingsstrategi for det.
  • Corpus til SDU: Vi har afklaret de juridiske forudsætninger for udlevering og lavet et eksempeludtræk. Vi skal nu have afklaret de tekniske specifikationer og have aftaler på plads.
  • Der har været scientific advisory board meeting i DigHumLab . De enkelte temaer blev ikke vurderet, men overordnet modtog projektet stor ros, og der blev bl.a. sagt: “We are very pleased with the progress and success of DigHumLab, and impressed with the plans for the next phase”.
  • Adgang via læsesals-pc på SB fungerer pt. ikke. Der er lokaliseret en række fejl, og de er i gang med at blive udbedret efter Netarkivets retningslinjer, så vi kan tilbyde adgang igen.
  • Webdanica uden for .dk: Implementeringsprojektet er gået i gang.
  • Artiklen Netarkivet 10 år er udkommet i DF REVY
  • En privatperson er ved at arkivere hele arto.dk i forbindelse med sitets lukning 1. juni og har tilbud at donere indsamlingen til Netarkivet. Vi er selv i gang med ekstra til bunds gående høstninger i den forbindelse, og vores egne høstninger ser efter QA ud til at være dækkende.
  • Folketingets bibliotek er interesseret i at etablere adgang til materialet ”Politiske partiers hjemmesider 2001ff”, som de har doneret til Netarkivet. Vi er ved at undersøge mulighederne –  teknisk, kuratorisk, juridisk.

Marts 2016

  • Årets første tværsnitshøstning er afsluttet.
  • Vi er stadig i gang med begivenhedshøstningen om flygtningekrisen. Vi følger udviklingen og flytter fokus derefter.
  • Kuratorerne har afholdt 2 dages seminar. Første dag havde bl.a. fokus på indsamlingsstrategier, mens anden dag var introduktion og hands on med ny høstningsværktøj (NAS). 
  •  Vi er i gang med at revidere vores samlede strategi, men det bliver også en løbende overgang. Udgangspunktet er færre dybe tværsnitshøstninger og flere større selektive høstninger. Blandt andet vil vi udvide indsamlingen af netaviser og arbejder på en indsamlingsstrategi for det.
  • Vi er i gang med teste den nyeste version af kurateringsværktøjet (NAS 5) samt tilknyttet ny høsterversion (Heritrix 3).
  • Vi deltager med data i forskningsansøgningen Real time analysis and visualization of news streams. Netarkivet deltager under forudsætning af, at omkostningerne ved udtræk (twitter) dækkes via projektets eksterne finansiering.
  • Vi har afvist en anmodning om aktindsigt. Afvisningen er blevet besvaret med en ny anmodning, som pt. er under behandling.
  • Webdanica uden for .dk: Implementeringsprojektet er gået i gang.
  • Politik og strategi for formidling af materiale fra Netarkivet: Arbejdsgruppen har drøftet første udkast med TSJ, BHK, BNH + hele kuratorgruppen og efterfølgende revideret, jf. nedenfor.

Februar 2016

  • Årets 1. tværsnitshøstning kører stadig planmæssigt. Høstningsgrænsen for domæner er for første gang hævet fra 10 GB til 12 GB. Høstningen af den tilhørende Ministerier og Styrelser er afsluttet.
  • Vi er stadig i gang med begivenhedshøstningen 2015 Flygtninge. Indsamlingen har skiftet fokus undervejs efterhånden som begivenheden har ændret sig.
  • Politiken.dk høstes nu med ip-validering efter trekvart år uden høstning bag betalingsmuren.
  • Facebook.com ser ud til at have blokeret os, så i øjeblikket høster vi ingenting. Vi er i gang med at kigge på at reducere vores forespørgsler.
  • Redaktionsgruppe-møde afholdt 4. feb, og medlemmerne var inviteret til at komme med oplæg om hvad de mener er væsentlig dansk kulturarv inden for deres område + hvordan de evt. så udviklingen i de kommende år:  Konkret er der indledt et samarbejde med DFI omkring udveksling af links med filmmateriale. Desuden har SLKS leveret en liste over sites de ejer, som vi nu høster sammen med Ministerier og Styrelser-høstningen.
  • Vi har indledt afprøvning af procedure i forbindelse med paraply-godkendelse hos Datatilsynet. Processen tegner til at være enkel og kan bane vej for muligheden for at arbejde med personfølsomme data.
  • Politik og strategi for formidling af materiale fra Netarkivet: Vi har lavet et første udkast og haft en første diskussion med samlingsejerne.

Januar 2016

  • Netarkivets fritekst-indeks har netop rundet 10.000.000.000 dokumenter. Vi regner med at være up to date om 125 dage med det nuværende hardware-setup.
  • Vi fortsætter begivenhedshøstningen omkring flygtninge da situationen stadig ændrer sig, og der fortsat er aktivitet på netstederne. Vi deltager også stadig, i regi af IIPC, i en fællesindsamling omkring flygtninge.
  • Vi arbejder på at matche vores statistik ISO-standarden
  • Årets 1. tværsnitshøstning er i gang. Den forventes afsluttet inden første weekend i marts hvor en stor serverflytning skal finde sted.
  • Web-folk på Statsbiblioteket har udvidet deres billedsøgnings-eksperimenter med en funktionalitet hvor man kan uploade et billede og så finde alle forekomster af det billede (eksakt digitalt match).
  • Vi har været med til at udarbejde et projekt-forslag om en kommende verdensomspændende indsamling: “Online News Around the World: A Snapshot in Time” i IIPC regi.

December 2015

  • Vi er i gang med den 4. tværsnitshøstning 2015. En tværsnitshøstning er et øjebliksbillede af den danske del af internettet, når høsteren kommer forbi
  • Vi er i gang med at migrere til et opgraderet høstningssystem (Heritrix 3)
  • Vi er løbende i dialog med nyhedssites med login-indhold, for at finde den bedste løsning til at kunne indsamle indholdet til Netarkivet
  • Vi fortsætter en begivenhedshøstning om Folkeafstemningen om Retsforbeholdet for at indsamle debatten om resultatets konsekvenser blandt politikere mm. samt i danske og udvalgte udenlandske medier
  • Vi fortsætter begivenhedshøstningen om Flygtningekrisen 2015 med fokus på debatten på de sociale medier og pressedækningen fra udvalgte nabolande
  • Vi deltager ligeledes i en international begivenhedsindsamling i IIPC (International Internet Preservation Consortium) om Flygtningekrisen i Europa