kildetekster
NetarchiveSuite.
Er det komplette system til arkivering af netsteder udviklet og brugt af netarkivet.dk. Det er udgivet i open source under LGPL licensen. Du kan læse meget mere og downloade koden her (på engelsk)
Den følgende kildetekst er udviklet af Netarkivet.dk, og er tilgængelig til fri nedhentning under GNU Public License. Koden der er tilgængelig herunder bliver ikke længere vedligeholdt, men du skal være velkommen til at stille spørgsmål hvis du ikke kan få den til at virke.
Dette er en samling Java klasser til at håndtere ARC format filer. ARC filer laves væsentligts af Heritrix, men kan også laves af HTTrack med et simpelt plugin. Det er et fladt ASCII format, designet til at være robus og selvbeskrivende.
Tar-filen nedenfor indeholder følgende klasser:
- ARCFileOutput.java
- En klasse der understøtter skrivning af nye ARC filer.
- ARCInputStream.java
- En InputStream der læser enkelt indgange i ARC filer.
- BinSearch.java
- En simpel implementation af et kommando-linje værktøj, der tillader binær søgning for at finde indgange i .cdx filer.
- ExtractCDX.java
- Et værktøk til at udtrække .cdx filer fra ARC eller .dat filer. Bemærk at det kan have problemer med komprimerede ARC filer.
- GetPage.java
- Et kommando-linje værktøj der henter enkelte indgange ud af ARC filer.
- GetPage2.java
- En version af GetPage.java der efterligner Alexaværktøjets av_getpage.
Den eneste dokumentation der er tilgængelig lige nu er de JavaDoc-kommentarer der står i koden.
Hent den nyeste version:
JavaArcUtils version 0.3
Dette er et Java program der muliggør browser-tilgang til ARC filer. Den virker som en normal web proxy, men i stedet for at tilgå det nuværende internet, lader den brugeren tilgå de arkivede filer med enhver proxy-klar browser. Dette giver en god illusion af at browse nettet som det så ud da arkivet blev lavet.
ProxyViewer bruger Java version 1.4 (kompileret med '-source 1.4') og følgende extra pakker:
- dk.netarkivet.ArcUtils
- org.mortbay.jetty
- javax.servlet
Dette arkiv indeholder installationsinstruktioner (på engelsk), et diagrammatisk overblik over systemet, og følgende klasser med JavaDoc:
- ARCArchiveAccess.java
- Interface til ArcUtils pakken.
- ArchivesInstruction.java
- Server kommandoer der styrer arkivet..
- CDXEntry.java
- 'struct' klasse for indgange i en CDX fil.
- DefaultInstruction.java
- Server kommando for når ingen andre kommandoer passer til.
- GetMetaDataInstruction.java
- Server kommando for at få metadata for de sidst tilgåede sider.
- HttpHandler.java
- Interface til Jetty proxy serveren.
- Instruction.java
- Abstract superklasse for server kommandoer
- MissingURLLogger.java
- Klasse der ved at udskrive de ikke-arkiverede URLer man browser forbi kan hjælpe med at forbedre arkivet.
- ProxyLauncher.java
- Startklassen i programmet, håndterer kommandolinieargumenter..
- ProxyServer.java
- Hovedklassen, samler de andre klasser og uddelegerer opgaver.
- Response.java
- En indpakning af Jetty's "response" klasse, samler svardata.
- ServerInstruction.java
- Server kommandoer til at justere serverens opførsel.
- SessionData.java
- Indeholder information om en session (et tilgængeligt arkiv).
- SessionHandler.java
- Håndterer at skifte mellem sessioner.
|