kildetekster

NetarchiveSuite.
Er det komplette system til arkivering af netsteder udviklet og brugt af netarkivet.dk. Det er udgivet i open source under LGPL licensen. Du kan læse meget mere og downloade koden her (på engelsk)


Den følgende kildetekst er udviklet af Netarkivet.dk, og er tilgængelig til fri nedhentning under GNU Public License. Koden der er tilgængelig herunder bliver ikke længere vedligeholdt, men du skal være velkommen til at stille spørgsmål hvis du ikke kan få den til at virke.

Java ARC værktøjer (dk.netarkivet.ArcUtils)

Dette er en samling Java klasser til at håndtere ARC format filer. ARC filer laves væsentligts af Heritrix, men kan også laves af HTTrack med et simpelt plugin. Det er et fladt ASCII format, designet til at være robus og selvbeskrivende.

Tar-filen nedenfor indeholder følgende klasser:

ARCFileOutput.java
En klasse der understøtter skrivning af nye ARC filer.
ARCInputStream.java
En InputStream der læser enkelt indgange i ARC filer.
BinSearch.java
En simpel implementation af et kommando-linje værktøj, der tillader binær søgning for at finde indgange i .cdx filer.
ExtractCDX.java
Et værktøk til at udtrække .cdx filer fra ARC eller .dat filer. Bemærk at det kan have problemer med komprimerede ARC filer.
GetPage.java
Et kommando-linje værktøj der henter enkelte indgange ud af ARC filer.
GetPage2.java
En version af GetPage.java der efterligner Alexaværktøjets av_getpage.

Den eneste dokumentation der er tilgængelig lige nu er de JavaDoc-kommentarer der står i koden.

Hent den nyeste version:
JavaArcUtils version 0.3


ProxyViewer (dk.netarkivet.proxyviewer)

Dette er et Java program der muliggør browser-tilgang til ARC filer. Den virker som en normal web proxy, men i stedet for at tilgå det nuværende internet, lader den brugeren tilgå de arkivede filer med enhver proxy-klar browser. Dette giver en god illusion af at browse nettet som det så ud da arkivet blev lavet.

ProxyViewer bruger Java version 1.4 (kompileret med '-source 1.4') og følgende extra pakker:

  • dk.netarkivet.ArcUtils
  • org.mortbay.jetty
  • javax.servlet

Dette arkiv indeholder installationsinstruktioner (på engelsk), et diagrammatisk overblik over systemet, og følgende klasser med JavaDoc:

ARCArchiveAccess.java
Interface til ArcUtils pakken.
ArchivesInstruction.java
Server kommandoer der styrer arkivet..
CDXEntry.java
'struct' klasse for indgange i en CDX fil.
DefaultInstruction.java
Server kommando for når ingen andre kommandoer passer til.
GetMetaDataInstruction.java
Server kommando for at få metadata for de sidst tilgåede sider.
HttpHandler.java
Interface til Jetty proxy serveren.
Instruction.java
Abstract superklasse for server kommandoer
MissingURLLogger.java
Klasse der ved at udskrive de ikke-arkiverede URLer man browser forbi kan hjælpe med at forbedre arkivet.
ProxyLauncher.java
Startklassen i programmet, håndterer kommandolinieargumenter..
ProxyServer.java
Hovedklassen, samler de andre klasser og uddelegerer opgaver.
Response.java
En indpakning af Jetty's "response" klasse, samler svardata.
ServerInstruction.java
Server kommandoer til at justere serverens opførsel.
SessionData.java
Indeholder information om en session (et tilgængeligt arkiv).
SessionHandler.java
Håndterer at skifte mellem sessioner.

Hent den nuværende version:
ProxyViewer version 0.1