FAQ

Her kan du finde svar på nogle af de mest stillede spørgsmål i forbindelse med vores indsamling.

1. Hvem er Netarkivet?

2. Hvad bliver arkiveret?

3. Hvorfor ignorerer Netarkivets crawlere robots.txt?

4. Hvad gør jeg, hvis jeg oplever tekniske problemer med Netarkivets crawlere

5. Hvorfor bliver jeg høstet så tit?

6. Hvilke brugernavne og passwords vil I bede om at få udleveret?

7. Kan jeg risikere, at Netarkivets crawlere overbelaster min server?

8. Hvad sker der hvis jeg forhindrer jer i at høste mit site?

9. Udfylder Netarkivets crawler også formularer (forms)?

10. Er de sider, Netarkivet crawler fra mit website, ikke irrelevante for kulturarven?

11. Hvor lang tid gemmes materialet?

12. Hvordan med ophavsretsloven?

13. Hvem kan få adgang til data?

14. Hvad er det for en lov, Netarkivet referer til?

15. Er denne lov en konsekvens af nye EU-direktiver?

16. Hvordan kan jeg se, om min server er blevet besøgt af Netarkivets crawler?

17. Hvorfor udvikler Netarkivet deres egen crawler/spider/høster/robot?

18. Hvad gør jeg, hvis jeg har forslag til tekniske forbedringer af Netarkivets system?

19. Hvilke IP-numre kommer Netarkivets robotter fra?

20. Hvorfor skal jeg kende Netarkivets IP-numre?

21. Hvorfor overholder netarkivets robotter ikke HTML-meta-tags?


1. Hvem er Netarkivet?

Netarkivet er en virtuel organisation, der drives af Det Kongelige Bibliotek og Statsbiblioteket.
Netarkivets formål er at arkivere materiale offentliggjort på den danske del af Internettet.


2. Hvad bliver arkiveret?

Som udgangspunkt ønsker vi at arkivere alt det materiale, som en almindelig dansker kan opleve ved at klikke sig rundt i en browser. Det er vores ønske at kunne rekonstruere den oplevelse, man har som bruger af Internettet i 2006.


3. Hvorfor ignorerer Netarkivets crawlere robots.txt?

På rigtig mange websites styrer robots.txt søgemaskinernes webcrawlere uden om materiale, som er helt nødvendigt for at kunne genskabe den oplevelse, man har som bruger af Internettet i 2006.
Erfaringerne viser at hvis vi indsamler med respekt for robots.txt går vi glip af store mængder vitale data - fx. avisernes websites - men også 10.000-vis af private websites som anses for væsentlige bidrag til den danske kulturarv.
Statistik fra juli 2005 viser at der under .dk-domænet findes mindst 35.000 robots.txt filer - netarkivet har ikke manuelle ressourcer til at tage stilling til disse en for en.
Efter helt samme principper har netarkivet muligheden for at tilsidesætte HTML-meta-tags


4. Hvad gør jeg, hvis jeg oplever tekniske problemer med Netarkivets crawlere

Vi vil meget gerne have, at man kontakter os per e-post: , hvis vores crawler skaber problemer for et website.
Gør man det, tager vi fat på problemet og vil forsøge at afhjælpe det hurtigst muligt og til størst mulig tilfredshed for såvel website som indsamling.


5. Hvorfor bliver jeg høstet så tit?

Vi høster hele den danske del af internettet 4 gange om året.

Internetsider findes i alle størrelser, men der er langt flest der er meget små - eller slet ikke i brug. For at høste effektivt starter vi med at lave en "lille" høstning med en max grænse på fx. 10Mb pr. domæne. Statistikkerne viser, at mere end 75% af alle danske websites er mindre end denne grænse. Resultaterne fra denne høstning bruger vi til at finde ud af hvilke domæner der er overhovedet er aktive og til at gruppere de danske domæner efter størrelse. De domæner der ikke når den satte grænse anses for at være indsamlet komplet og vil derfor i udgangspunktet ikke blive besøgt før 3 måneder senere.
Herefter følger vi op med høstninger af større og større bidder, og sorterer dem fra som nåede grænsen af de tidligere høstninger. Det betyder at et mindre antal filer på større websites bliver høstet flere gange.

Ind i mellem har vi brug for at teste nye indsamlingmetoder og versioner af den benyttede webcrawler. Dette betyder i praksis at nogle websites kan få besøg flere gange. Vi tilstæber altid kun at lave meget små testhøstninger hvorfor de ikke burde give nogen anledning til gener.


6. Hvilke brugernavne og passwords vil I bede om at få udleveret?

Vi skaffer som udgangpunkt brugernavn og passwords på den måde, alle andre danskere gør: ved at udfylde en formular på de websites, vi gerne vil arkivere. Vi ønsker kun det materiale, som enhver dansker kan se på Internettet.
Vi ønsker ikke at få nogen brugeres passwords til hverken webmail, bank eller noget i den retning.
Det vi ønsker er at få oprettet en bruger så vi kan læse f.eks. de nyhedssites som kræver at man logger ind. På gratis nyhedssites, kan vi selvfølgelig bare oprette en bruger, men fx. betalingsaviser bliver vi nødt til at rette henvendelse for at få et brugernavn og password. Det er derfor der er et punkt i loven om brugernavne og passwords; for at vi kan få disse brugernavne/passwords uden betaling.
Materiale, der kun er beregnet for en lukket skare (som alle derfor IKKE i princippet kan få adgang til - fx. familie-websites, firmaers intranet...m.m.) anses ikke for offentliggjort og falder derfor ikke ind under bestemmelsen.


7. Kan jeg risikere, at Netarkivets crawlere overbelaster min server?

Vi har en belastningsgrænse på 3 http-connections pr. sekund. Det kan langt de fleste webservere følge med til.
Desuden indsamler vi fra 50 domæner ad gangen på hver server, så forespørgsler fordeles løbende over de 50 domæner og den reelle forespørgselsfrekvens kommer ned under 1 pr. sek.
Igen er vi klar til at afhjælpe problemer såfremt nogle websites oplever uhensigtsmæssigheder:


8. Hvad sker der hvis jeg forhindrer jer i at høste mit site?

Hvis vi bliver opmærksomme på det, vil vi rette henvendelse og prøve at finde frem til en løsning der tilgodeser dine behov og vores forpligtigelse til at indsamle bevare den danske kulturarv på Internettet. Hvis vi ikke kan blive enige, har vi i allersidste ende muligheden for at gå rettens vej.


9. Udfylder Netarkivets crawler også formularer (forms)?

Teknisk skal man huske at skelne mellem POST og GET forespørgsler via http-protokollen.
Se f.eks.: www.w3.org
Vores crawler finder links bla. via regulære udtryk - men vi sender altid kun GET-requests afsted.
Hvis webserveren i den anden enden også reagerer på GET på URLer, der egentlig kun var beregnet til POST så er det sådan set en program-fejl i de scripts der modtager forespørgslerne.Vi er altid klar til at afhjælpe problemer såfremt nogle websites oplever uhensigtsmæssigheder:


10. Er de sider, Netarkivet crawler fra mit website, ikke irrelevante for kulturarven?

Med hensyn til sidernes relevans er princippet i indsamlingen, at det i videst mulige omfang bør være fremtidens forskere, der afgør relevansen, snarere end aktører på indsamlingstidspunktet.
Hvis dit website indeholder mange ens kopier af det samme materiale (mirroring), og det opleves som et problem at vi henter alle kopier, så skriv til os:


11. Hvor lang tid gemmes materialet?

Så længe politikerne mener, at det er vigtigt at gemme vores kulturarv.
Det har de ment siden 1600-tallet, og vi forventer, at det fortsætter i århundreder endnu.
Vi planlægger ikke at smide ting ud fordi de er blevet for gamle.


12. Hvordan med ophavsretsloven?

Pligtafleveringsloven tillader, at vi indsamler materiale der er underlagt ophavsret.
Pligtaflevering har eksisteret i århundreder. Trykt offentliggjort materiale bliver allerede arkiveret uden at bryde opretshavsloven. Pligtaflevering dokumenterer vort samfund for eftertiden.


13. Hvem kan få adgang til data?

Netarkivet.dk er ikke et åbent arkiv, som f.eks. archive.org.
For personfølsomme data gælder det, at der vil kun blive givet adgang til forskere med et relevant forskningsemne, og al adgang vil være under kontrol. Forskning i personfølsomme data skal desuden godkendes hos Datatilsynet.
Loven rummer mulighed for at der kan gives adgang fra specielle maskiner på Det Kongelige Bibliotek og Statsbiblioteket til data der ikke rummer personfølsomme data


14. Hvad er det for en lov, Netarkivet referer til?

Den 1. juli trådte en ny pligtafleveringslov i kraft i Danmark: http://www.ft.dk/Samling/20041/lovforslag/L77/som_fremsat.htm
I den samlede lovtekst indgår såvel lovforslaget, tilhørende bemærkninger, den endelige lovtekst samt bekendgørelse mm.
Vi har lavet en mere letlæselig vejledning til producenter / netsteder som du kan finde her


15. Er denne lov en konsekvens af nye EU-direktiver?

Nej, loven er et resultat af en modernisering af Kulturministeriets indsats inden for bevaring af kulturarven.


16. Hvordan kan jeg se, om min server er blevet besøgt af Netarkivets crawler?

Vores crawler identificerer sig med en streng der indeholder en URL til en infoside:
http://netarkivet.dk/website/info.html


17. Hvorfor udvikler Netarkivet deres egen crawler/spider/høster/robot?

Det gør vi ikke. Vi bruger open-source høsteren Heritrix, som er udviklet af Internet Archive i samarbejde med de andre nordiske webarkiver og biblioteker fra hele verden.


18. Hvad gør jeg, hvis jeg har forslag til tekniske forbedringer af Netarkivets system?

Skriv endelig til os:


19. Hvilke IP-numre kommer Netarkivets robotter fra?

Netarkivets robotter kommer pt. fra følgende IP-numre:
130.226.228.7
130.226.228.8
130.226.228.72
130.226.228.73
130.225.26.132
130.225.26.133
130.225.26.135
130.225.26.136
130.225.27.140


20. Hvorfor skal jeg kende Netarkivets IP-numre?

Nogle sites rummer automatisk eksklusion af robotter der ikke overholder robots.txt.
For at undgå at blokere Netarkivets robotter kan disse IP-numre almindeligvis rimeligt nemt lægges i blokerings-mekanismen som tilladte IP-numre.


21. Hvorfor overholder netarkivets robotter ikke HTML-meta-tags?

se FAQ om robots.txt