Vil du beholde alle bogmærker, du interesserer dig offline?  Vi viser dig, hvordan du opretter dit eget open-source selvhostede webarkiv.

Sådan opretter du din egen private selvhostede læst-det-senere app

Reklame Internettet er en enorm skatkammer af viden. Men det er flygtigt, og der er ingen garantier for, at det indhold, du kan lide, vil være der i fremtiden. Hvis du ikke har råd til at miste dette indhold, kan du bruge et webarkiveringsværktøj til at gemme en kopi af websiden. Mange mennesker bruger læse-senere tjenester til at gemme webartikler. Dis

Reklame

Internettet er en enorm skatkammer af viden. Men det er flygtigt, og der er ingen garantier for, at det indhold, du kan lide, vil være der i fremtiden. Hvis du ikke har råd til at miste dette indhold, kan du bruge et webarkiveringsværktøj til at gemme en kopi af websiden.

Mange mennesker bruger læse-senere tjenester til at gemme webartikler. Disse apps fungerer bedst med tekstbaseret indhold og håndterer ikke kompliceret webside-design eller medier korrekt. Vil du have mere kontrol?

Lad os se, hvordan du kan oprette en klon af Instapaper eller Pocket på din computer uden at miste noget aktiv på websiden.

Præsentation af ArchiveBox

ArchiveBox er en Open Source-løsning, der kan hjælpe dig med at være vært for dit eget alternativ til en arkiveringstjeneste som Wayback Machine. Du opgiver ikke dit privatliv eller forbliver låst i en service, du ikke kan kontrollere.

Det tager listen over webadresser, du vil arkivere, og opretter en lokal, gennemsøelig HTML-klon af indholdet i flere formater. Det inkluderer lokale kopier i HTML, et skærmbillede af siden, en PDF-fil og WARC (Web ARChive).

Disse kopier bliver hos dig, selvom den originale webside forsvinder i fremtiden.

ArchiveBox er skrevet i Python 3. Det bruger også afhængigheder som Wget, Headless Chrome, Youtube-dl og andre Unix-værktøjer til at gemme websiden. Du har ikke brug for en konstant kørende backend-server. Kør det bare hver gang du vil importere nye links og opdatere den statiske output.

Når arkiveringen er afsluttet, kan du åbne det genererede output / index.html i din browser for at se arkivet.

ArchiveBox

Fordele ved ArchiveBox

  • Det arkiverer linkene i flere filformater, der fungerer som sikkerhedskopier.
  • Den forsøger at bevare den originale webside ved hjælp af sofistikerede indfangningsmetoder.
  • Har evnen til automatisk at udpakke indholdet og gemme det i en enkelt mappe.
  • Det giver også en enkel kommandolinjegrænseflade til at håndtere flere links, feeds og bogmærker. Du skal indstille det én gang og køre det i en tidsplan for at arkivere nyere links.

Ulemper ved ArchiveBox

  • ArchiveBox udtrækker alle aktiver fra websiden. Det bruger meget diskplads og er CPU-intensiv.
  • Appen kræver tre eller flere afhængigheder ud over Python 3.5. Det tager prøve og fejl for at få disse komponenter til at fungere sammen.
  • Appen understøtter ikke Windows OS fuldstændigt. Du skal installere Docker eller aktivere Windows Subsystem for Linux (WSL) Sådan køres et Linux Desktop Brug af Windows Subsystem til Linux Sådan køres et Linux Desktop Brug af Windows Subsystem til Linux Vil du køre Linux på din Windows PC? Her er, hvordan du kører et Linux-skrivebord i Windows ved hjælp af Windows Subsystem til Linux. Læs mere . Selv da fungerer nogle funktioner muligvis ikke.

Understøttede operativsystemer

ArchiveBox understøtter officielt følgende operativsystemer:

  • macOS: 10.12 Sierra med Homebrew.
  • Linux: Ubuntu, Debian (med APT). Appen fungerer (eller måske ikke) i distros som Fedora, CentOS, SUSE, Arch og mere.
  • BSD: FreeBSD, OpenBSD, NetBSD (med pkg).

Afhængigheder

ArchiveBox er et fleksibelt webarkiveringsværktøj. Du skal installere følgende afhængigheder og opfylde minimumskravene.

  • Python 3. Brug ikke standard Python 2.0, der leveres med macOS.
  • Wget 1.16
  • Chromium 59. Hvis du allerede bruger Google Chrome, skal du ikke installere Chromium.
  • Youtube-dl (valgfrit): Medieressourcer har brug for meget lagerplads. Giv det en detaljeret tanke, før du arkiverer dine bogmærker.

Konfigurer ArchiveBox

Der er to måder at konfigurere ArchiveBox - Automatisk og manuel .

I den automatiske metode vil et hjælpescript installere appen og deres afhængigheder. Men du kan ikke løse problemet, hvis der opstår en fejl. Det er bedre at installere appen manuelt.

Til demonstrationsformål bruger vi macOS 10.14.6.

Installation af afhængigheder

Den bedste måde at installere afhængigheder er gennem en pakkeadministrator kaldet Homebrew. Hvis du vil forstå det grundlæggende, skal du se denne artikel om, hvordan du installerer Mac-apps med Homebrew.

Åben terminal og skriv

 brew install python3 git wget curl youtube-dl 
 brew cask install chromium 

(Spring over dette, hvis du allerede har Google Chrome / Chromium installeret i applikationer)

Kontroller versionstallet for alle afhængigheder

Skriv ind for at kontrollere versionstallet for alle afhængigheder

 dependency app --version 

(Udskift afhængighedsappen med python3, wget, youtube-dl og mere)

Kontroller versionen af ​​alle afhængigheder

Download dine bogmærker eksportfil

Alle de læs senere tjenester og browsere kan eksportere dine bogmærker som en HTML-fil. Følg instruktionerne i denne artikel om, hvordan du eksporterer bogmærker fra din browser Sådan migreres bogmærker mellem Chrome, Firefox og / eller Edge Sådan migreres bogmærker mellem Chrome, Firefox og / eller Edge Vil du overføre dine bogmærker til en ny browser eller sikkerhedskopiere dem? Sådan gør du i Chrome, Firefox og Edge. Læs mere . Du kan også gemme et enkelt link eller listen over webadresser i en tekstfil.

Installer ArchiveBox

Klon repoen fra GitHub. Åben terminal og skriv

 git clone https://github.com/pirate/ArchiveBox 

Derefter,

 cd ArchiveBox/ 

Når du kloner denne repo, opretter installationsprogrammet en ArchiveBox-mappe i dit hjemmekatalog. Denne mappe indeholder alle de vigtigste applikations- og konfigurationsfiler.

installer ArchiveBox

Føj din URL til arkivet

Hvis du vil arkivere et enkelt link, skal du skrive

 echo 'https://example.com'| ./archive 

arkivering af et enkelt link

Naviger til din ArchiveBox-mappe for at se den nyligt oprettede outputmappe . Herinde ser du en index.html-fil.

ArchiveBox outputmappe

Tilføjelse af flere links til arkivet

Når du vil gemme flere links (snesevis eller mere), er det bedre at tilføje dine links til en tekstfil. Appen analyserer webadresserne inde i filen og arkiverer dem. Åben terminal og skriv

 ./archive [Path to Your File.txt] 

Hvis din fil er placeret i mappen Downloads, ser din sti ud

 ./archive /Users/(Home directory name)/Downloads/links.txt 

Vent et par minutter / timer for at afslutte processen. For at få adgang til dit arkiv skal du åbne output / index.html i din browser. Du kan sortere efter kolonne, søge titel ved hjælp af feltet i øverste højre afsnit og se det samlede antal links i bunden.

arkiverede links gennem ArchiveBox

Klik på favicon under kolonnen Filer for at besøge detaljesiden. Du finder links til individuelt filformat som det ses på skærmbilledet. Det samme link uploades også til archive.org.

detaljside for hvert arkiveret link

På samme måde kan du eksportere dine Instapaper- eller Pocket-links som en HTML-fil. Indtast derefter

 ./archive ~/Downloads/instapaper-export.html 

Du kan også importere en liste over links fra feed-URL'en. Men husk, at du muligvis støder på for mange fejl eller timeout-sessioner. Hvis der er tusinder af webadresser, er det bedre at opdele dem i mindre filer for at øge succesraten.

Konfigurer ArchiveBox

Standardindstillingerne fungerer i de fleste tilfælde, men der er visse vigtige parametre, du kan justere for at få flere funktioner. Konfigurationsfilen lever i

 ~/ArchiveBox/etc/ArchiveBox.conf.default 

Bemærk: Modificer ikke denne fil, fordi de slettes, når du opdaterer appen. Skriv ind for at oprette en vedvarende konfigurationsfil

 cp ~/ArchiveBox/etc/ArchiveBox.conf.default ~/.ArchiveBox.conf 

Kommandoen cp opretter en duplikatkopi af konfigurationsfilen i dit hjemmekatalog. Som standard er filen ikke synlig i dit bibliotek. Tryk på Cmd + Skift + periode for at afsløre . Åbn konfigurationsfilen i TextEdit.

kopi af ArchiveBox-konfigurationsfilen

Parametre

ArchiveBox tilbyder dig mange muligheder. Her er nogle vigtige;

  • ONLY_NEW : Indstil dette til sandt for at downloade arkivet til nyligt tilføjede links. Kommer nyttig, hvis du regelmæssigt bogmærke links.
  • TIMEOUT : Mulige værdier er 60 eller 120 sekunder. Hvis du ser hyppige timeoutfejl, øg den til 120 sekunder.
  • URL_BLACKLIST : Du kan bruge regex-udtryk til at ekskludere bestemte domæner, udvidelser eller URL-mønstre fra arkivet.
  • FETCH_MEDIA : Hent alle lyd- og videofiler ved hjælp af youtube-dl. Indstil dette til sandt, når du har nok lagerplads.
  • WGET_USER_AGENT : Brug den til at ændre brugeragenten under arkivering. Hvis du blokeres af bestemte servere, kommer denne indstilling nyttig.

Hvis du vil vide mere om konfigurationsdetaljerne, kan du besøge ArchiveBox-konfigurationen for at få flere oplysninger.

Udgivelse af dit arkiv

Arkivet, der er produceret af ArchiveBox, er kompatibelt med enhver udbyder, der kan være vært for statisk HTML. For eksempel GitHub-sider.

Du kan også betjene den fra en hjemmeserver eller VPS ved direkte at uploade outputmappen til dit webkatalog.

Sørg for, at du ikke kører noget indhold som CGI eller PHP, du kun vil være vært for statiske HTML-filer.

Hosting af dit arkiv har både fordele og ulemper. Når du downloader links fra tilfældige sider, skal du forstå farerne ved at være vært med ondsindede CSS- og JS-filer i dit delte domæne. Du ønsker måske også at sortliste dine arkiver i filen robots.txt for at forblive privat.

Download hele websteder offline

Webarkivering har tiltrukket sig opmærksomhed i de sidste par år. De registrerer hele indholdet af en webside, inklusive kildetype-HTML, indlejrede billeder, typografiblade og JavaScript-kode. ArchiveBox passer lige ind i den brede kategori af webarkiveringsværktøjer og -tjenester.

Hvis du er frustreret over Instapaper eller Pocket, er ArchiveBox et fremragende alternativ. Bortset fra webartikler, kan du måske arkivere hele websteder for at få adgang til dem offline eller for at bevare deres viden. Hvis dette interesserer dig, skal du læse dette stykke, hvordan du downloader et websted til offline-læsning. Sådan downloades et helt websted til offlinelæsning Sådan downloades et helt websted til offlinelæsning. Sådan downloader du hele websteder til offline-læsning, så du har adgang til når du ikke har Wi-Fi eller 4G. Læs mere .

Udforsk mere om: Instapaper, Online bogmærker, Open Source, Pocket, Internetarkivet.