FAQ

Her kan du finde svar på nogle af de mest stillede spørgsmål i forbindelse med vores indsamling.

1. Hvem er Netarkivet?

2. Hvad bliver arkiveret?

3. Hvorfor ignorerer Netarkivets crawlere robots.txt?

4. Hvad gør jeg, hvis jeg oplever tekniske problemer med Netarkivets crawlere

5. Hvorfor bliver jeg høstet så tit?

6. Forsøger Netarkivet at indsamle password beskyttet materiale?

7. Kan jeg risikere, at Netarkivets crawlere overbelaster min server?

8. Hvad sker der hvis jeg forhindrer jer i at høste mit site?

9. Udfylder Netarkivets crawler også formularer (forms)?

10. Er de sider, Netarkivet crawler fra mit website, ikke irrelevante for kulturarven?

11. Hvor lang tid gemmes materialet?

12. Hvordan med ophavsretsloven?

13. Hvem kan få adgang til data?

14. Hvad er det for en lov, Netarkivet referer til?

15. Er denne lov en konsekvens af nye EU-direktiver?

16. Hvordan kan jeg se, om min server er blevet besøgt af Netarkivets crawler?

17. Hvorfor udvikler Netarkivet deres egen crawler/spider/høster/robot?

18. Hvad gør jeg, hvis jeg har forslag til tekniske forbedringer af Netarkivets system?

19. Hvilke IP-adresser kommer Netarkivets robotter fra?

20. Hvorfor skal jeg kende Netarkivets IP-adresser?

21. Hvorfor overholder netarkivets robotter ikke HTML-meta-tags?

22. Hvad er Netarkivets User Agent?


1. Hvem er Netarkivet?

Netarkivet drives af Det Kongelige Bibliotek og Statsbiblioteket i fællesskab. Netarkivets formål er at arkivere materiale offentliggjort på den danske del af Internettet.


2. Hvad bliver arkiveret?

Som udgangspunkt ønsker vi at arkivere alt det materiale på internettet, som er offentliggjort på dansk eller henvender sig til danskere. Vores arkiv starter i juli 2005


3. Hvorfor ignorerer Netarkivets crawlere robots.txt?

På rigtig mange websites styrer robots.txt søgemaskinernes webcrawlere uden om materiale, som er helt nødvendigt for at kunne genskabe den oplevelse af en hjemmeside på et given tidspunkt.

Erfaringerne viser at hvis vi indsamler med respekt for robots.txt går vi glip af store mængder vitale data – fx. avisernes websites – men også 10.000-vis af private websites som anses for væsentlige bidrag til den danske kulturarv.

Efter helt samme principper har netarkivet muligheden for at tilsidesætte HTML-meta-tags


4. Hvad gør jeg, hvis jeg oplever tekniske problemer med Netarkivets crawlere

Vi vil meget gerne have, at du kontakter os per email: info@netarkivet.dk , hvis vores crawler skaber problemer for dit website.

Det vil hjælpe os meget, hvis mailen kunne inkludere følgende:

1: En liste af de berørte domæner (fx netarkivet.dk)
2: Domæne IP-adresser (fx 178.79.164.53, 130.226.229.32 etc.)
3: Domæne ’alias’ identiske hjemmesider med forskellige domænenavne
4: Eksempler på problemet (screenshots, logs etc.)

Så tager vi fat på problemet og vil forsøge at afhjælpe det hurtigst muligt og til størst mulig tilfredshed for såvel website som indsamling.


5. Hvorfor bliver jeg høstet så tit?

Vi høster hele den danske del af internettet 2-4 gange om året (tværsnitshøstninger).

Internetsider findes i alle størrelser, men de fleste er meget små – eller slet ikke i brug. For at høste effektivt starter vi med at lave en “lille” høstning med en max grænse på fx. 10Mb pr. domæne. Statistikkerne viser, at mere end 75% af alle danske websites er mindre end denne grænse. Resultaterne fra denne høstning bruger vi til at finde ud af hvilke domæner der overhovedet er aktive og til at gruppere de danske domæner efter størrelse. De domæner der ikke når den satte grænse anses for at være indsamlet komplet og vil derfor i udgangspunktet ikke blive besøgt før 3 måneder senere.

Herefter følger vi op med høstninger af større og større bidder, og sorterer dem fra som nåede grænsen af de tidligere høstninger. Det betyder at et mindre antal filer på større websites bliver høstet flere gange.

Ind i mellem har vi brug for at teste nye indsamlingmetoder og versioner af den benyttede webcrawler. Dette betyder i praksis at nogle websites kan få besøg flere gange. Vi tilstæber altid kun at lave meget små testhøstninger, hvorfor de ikke burde give nogen anledning til gener.

Imellem tværsnitshøstningerne høster vi udvalgte hyppigt opdaterede sites (som for eksempel nyhedsites) fra flere gange dagligt til en gang månedligt. Dette for at få et arkiv, der er så komplet som muligt.


6. Forsøger Netarkivet at indsamle password beskyttet materiale?

Vi ønsker ikke at få nogen brugeres passwords til hverken webmail, bank eller noget i den retning.

Det vi ønsker er at få oprettet Netarkivet som “bruger”, så vi kan læse fx de nyhedssites som kræver login – eventuelt mod betaling – men i princippet ønsker vi at kunne høste det, som alle kan få adgang til. Det er nemmest for os, hvis du giver vores høstere adgang via IP-validering (se spørgsmål 19 for IP-adresser). Vi vil rette henvendelse til dig herom.

Det er derfor der er et punkt i loven om brugernavne og passwords; for at vi kan få adgang til passwordbeskyttet indhold uden betaling. Materiale, der kun er beregnet for en lukket skare (som alle derfor IKKE i princippet kan få adgang til – fx interne familie-websites, firmaers intranet m.m.), anses ikke for offentliggjort og falder derfor ikke ind under bestemmelsen.



7. Kan jeg risikere, at Netarkivets crawlere overbelaster min server?

Vi har en belastningsgrænse på 3 http-connections pr. sekund. Det kan langt de fleste webservere følge med til.

Desuden indsamler vi fra 50 domæner ad gangen på hver server, så forespørgsler fordeles løbende over de 50 domæner, og den reelle forespørgselsfrekvens kommer ned under 1 pr. sek.

Igen er vi klar til at afhjælpe problemer, såfremt nogle websites oplever uhensigtsmæssigheder: info@netarkivet.dk



8. Hvad sker der hvis jeg forhindrer jer i at høste mit site?

Hvis vi bliver opmærksomme på det, vil vi rette henvendelse og prøve at finde frem til en løsning der tilgodeser dine behov og vores forpligtigelse til at indsamle bevare den danske kulturarv på Internettet. Hvis vi ikke kan blive enige, har vi i allersidste ende muligheden for at gå rettens vej (jf. Lov om pligtaflevering, § 21).



9. Udfylder Netarkivets crawler også formularer (forms)?

Teknisk skal man huske at skelne mellem POST og GET forespørgsler via http-protokollen.

Se f.eks.: www.w3.org

Vores crawler finder links, bl.a. via regulære udtryk – men vi sender altid kun GET-requests afsted.

Hvis webserveren i den anden ende også reagerer på GET på URLer, der egentlig kun var beregnet til POST så er det sådan set en program-fejl i de scripts der modtager forespørgslerne.Vi er altid klar til at afhjælpe problemer såfremt nogle websites oplever uhensigtsmæssigheder: info@netarkivet.dk



10. Er de sider, Netarkivet crawler fra mit website, ikke irrelevante for kulturarven?

Med hensyn til sidernes relevans er princippet i indsamlingen, at det i videst mulige omfang bør være fremtidens forskere, der afgør relevansen, snarere end aktører på indsamlingstidspunktet.

Hvis dit website indeholder mange ens kopier af det samme materiale (mirroring), og det opleves som et problem at vi henter alle kopier, så skriv til os: info@netarkivet.dk



11. Hvor lang tid gemmes materialet?

Så længe politikerne mener, at det er vigtigt at gemme vores kulturarv.

Det har de ment siden 1600-tallet, og vi forventer, at det fortsætter i århundreder endnu.

Vi planlægger ikke at smide ting ud, fordi de er blevet for gamle.



12. Hvordan med ophavsretsloven?

Pligtafleveringsloven tillader, at vi indsamler materiale der er underlagt ophavsret.

Pligtaflevering har eksisteret i århundreder. Trykt offentliggjort materiale bliver allerede arkiveret uden at bryde opretshavsloven.

Pligtaflevering dokumenterer vort samfund for eftertiden.



13. Hvem kan få adgang til Netarkivet?

Netarkivet er ikke et åbent arkiv, som f.eks. archive.org.

Der gives kun adgang til videnskabelige formål. Forskere, inkl. ph.d-studerende, kan få online adgang i forsknings- og statistisk øjemed ved henvendelse til info@netarkivet.dk . Herfra modtages ansøgningsblanket. Herudover gives der ikke adgang til arkivet.

For følsomme persondata gælder, at der kun vil blive givet adgang til forskere med et relevant forskningsemne, og al adgang vil være under kontrol. Forskning i følsomme persondata skal desuden godkendes af Datatilsynet.



14. Hvad er det for en lov, Netarkivet referer til?

Den 1. juli 2005 trådte den aktuelle pligtafleveringslov i kraft i Danmar, se http://www.pligtaflevering.dk/loven/index.htm: I den samlede lovtekst indgår såvel lovforslaget, tilhørende bemærkninger, den endelige lovtekst samt bekendgørelse mm.

Vi har lavet en mere letlæselig vejledning til producenter / netsteder som du kan finde her.



15. Er denne lov en konsekvens af nye EU-direktiver?

Nej, loven er et resultat af en modernisering af Kulturministeriets indsats for bevaring af kulturarven.



16. Hvordan kan jeg se, om min server er blevet besøgt af Netarkivets crawler?

Vores crawler identificerer sig med en streng der indeholder en URL til en infoside:

www.netarkivet.dk/webcrawler



17. Hvorfor udvikler Netarkivet deres egen crawler/spider/høster/robot?

Det gør vi ikke. Vi bruger open-source høsteren Heritrix, som er udviklet af Internet Archive i samarbejde med andre webarkiver og biblioteker fra hele verden.



18. Hvad gør jeg, hvis jeg har forslag til tekniske forbedringer af Netarkivets system?

Skriv endelig til os: info@netarkivet.dk



19. Hvilke IP-adresser kommer Netarkivets robotter fra?

Netarkivets robotter kommer pt. fra følgende IP-adresser:

130.225.26.132
130.225.26.133
130.225.26.135
130.225.26.136
130.225.26.139
130.226.228.72
130.226.228.73
130.226.228.74
130.226.228.75
130.226.228.76
130.226.228.79
130.226.228.80
130.226.228.81
130.226.228.82
130.226.228.83
130.226.228.84
130.226.228.85
130.226.228.86
130.226.228.87
130.226.228.88
130.226.228.89
130.226.228.90
130.226.228.91
130.226.228.92
130.226.228.93
130.226.228.94
130.226.228.95
130.226.228.96
130.226.228.97
130.226.228.98
130.226.228.99
130.226.228.100



20. Hvorfor skal jeg kende Netarkivets IP-adresser?

Nogle sites rummer automatisk eksklusion af robotter der ikke overholder robots.txt.

For at undgå at blokere Netarkivets robotter kan disse IP-adresser almindeligvis rimeligt nemt lægges i blokerings-mekanismen som tilladte IP-numre.



21. Hvorfor overholder netarkivets robotter ikke HTML-meta-tags?

se FAQ om robots.txt



22. Hvad er Netarkivets User Agent?

Vores User Agent finder du i følgende snip:

<map name=”http-headers”>

<string name=”user-agent”>Mozilla/5.0 (compatible; heritrix/1.14.4 +http://netarkivet.dk/webcrawler/)</string>

<string name=”from”>info@netarkivet.dk</string>

Du skal bruge User Agent for at kunne sætte din egen robots.txt. En robots.txt regel der gælder for netarkivet kan skrives således:

User-agent: netarkivet
Allow: /

Det fungerer fordi “netarkivet” indgår i vores User-Agent streng.