alle Dokumente im Griff

Meine Erfahrungen mit Paperless ngx – Die geniale Dokumentenverwaltung

Paperless-ngx gehört seit einiger Zeit zu meinen liebsten Computerprogrammen. Ich nutze es auf dem Raspberry Pi und habe fast alle meiner analogen wie auch digitalen Dokumente dort eingepflegt. Wie ich mit diesem Dokumenten-Management-System arbeite und meine Erfahrungen damit, demonstriere ich in diesem Beitrag.

Ich hatte bereits vor einigen Jahren damit begonnen, sämtliche Dokumente in meinem Aktenordner (ich besitze tatsächlich nur einen) zu digitalisieren und die Digitalisate parallel dazu auf der Festplatte meines PCs abzuspeichern. Vermutlich obsolete Originale vieler dieser Digitalisate hatte ich entsorgt – daher reicht mir auch nur ein physischer Ordner. Per se digitale Dokumente hatte ich parallel dazu gespeichert. Von diesen gibt es ja immer mehr: Meine Krankenkasse beispielsweise schickt mir mitunter auch per E-Mail wichtige Post. Also führte ich gleich zwei digitale Ordner und verschob später alle obsoleten Digitalisierungen in einen dritten Ordner.

Mit dem kostenlosen Paperless-ngx hat dieses Wirrwarr aber ein Ende:

Bildschirmfoto: Die Software Paperless ngx in einem Browser mit einigen digitalisierten Dokumenten

Das grafische Oberfläche von Paperless-ngx wird über den Browser („Web-Oberfläche“) aufgerufen.

Fast meine gesamte Post befindet sich nun in der Datenbank dieses Dokumenten-Managementsystems. Der Clou: Paperless-ngx ist lernfähig: Es kann das Datum eines Dokumentes selbst ermitteln und weiß irgendwann auch, den richtigen Absender („Korrespondent“) zuzuweisen sowie die Art des Dokumentes („Dokumenttyp“). Es kann auch die Verschlagwortung („Tag“) grob automatisch erledigen. Jegliche Texte sind durchsuchbar. Die Dokumente sind – je nach Filter – separat listbar. Aber der Reihe nach:

Diese Software möchte ein Linux-Betriebssystem als Unterbau haben. Ich nutze sie auf meinem Raspberry Pi. Denn richtig Spaß macht sie erst auf einem System, welches permanent aktiv ist. Und der Raspberry verbraucht kaum Strom.

So arbeite ich mit Paperless-ngx

Ein simpler Vorgang sieht bei mir so aus:

  1. Ich erhalte von meiner Bank eine E-Mail, dass ein neuer Kontoauszug verfügbar wäre.
  2. Ich öffne auf dem Smartphone die Banking-App, darin den Kontoauszug und klicke auf ›Teilen‹. Ich teile diesen mit einer App, mittels welcher ich Zugang zu meinem Heimnetz habe (wo der Raspberry aktiv ist). Ich nutze hierzu unter Android die App MiXplorer. Damit verschiebe ich eine Kopie des Dokumentes in den s. g. consume-Ordner von Paperless auf dem Pi:Bildschirmfoto: Windows Explorer mit dem Paperless-ngx-Ordner, grüner Pfeil zeigt auf den Consume-Ordner.Alles, was neu in diesem Ordner ankommt, wird automatisch von Paperless-ngx verarbeitet. Nach erfolgreichem Einpflegen in den Bestand wird diese temporäre Kopie aus dem consume-Ordner automatisch wieder gelöscht. Selbstverständlich kann man hier auch manuell (z. B. über den Windows-Explorer) Dateien hineinziehen. Der Raspberry muss natürlich im Heimnetzwerk ansprechbar sein (via Samba).

    Man kann Dokumente natürlich auch manuell über die Weboberfläche importieren, wenn man keinen Netzwerkzugriff hat. Dies ist halt nur etwas umständlich.

  3. Paperless-ngx hat nun das neue Dokument verarbeitet und es erscheint auf der Web-Oberfläche in der Übersicht „Unbestätigte Dokumente“. Jedes neu eingepflegte Dokument erhält bei mir automatisch strikt das Schlagwort Unbestätigt. Mit dieser Logik habe ich gute Erfahrungen gemacht. Je nachdem, ob bereits vorher Dokumente mit ähnlichen Begriffen im Text eingepflegt worden sind, verschlagwortet die Software die neuen entsprechend gleich weiter, definiert ein Datum sowie ggf. den Dokumenttyp (z. B. „Kontoauszug“) und versucht, den Absender zu definieren. Diese Angaben benötigt man später zum genauen Sortieren / Auswählen. Falls das Dokument ein reines Bild war, wurde per OCR von Paperless eine Texterkennung vorgenommen – alles automatisch, in einem Rutsch.
  4. Später (wenn ich mal Zeit habe) besuche ich die Web-Oberfläche von Paperless-ngx und schaue mir alle neu eingetroffenen Dokumente an. Sie sind ja leicht durch das „Unbestätigt“-Schlagwort erkennbar und man kann sie auch separat listen. Nun schaue ich, ob das automatisch generierte Datum stimmt bzw. alle anderen automatisch generierten Zuweisungen. Wenn nicht, definiere ich dies manuell – und die Software lernt durch diesen Schritt wieder etwas hinzu. Beim nächsten Import wird sie noch klüger sein. Als Letztes entferne ich je den „Unbestätigt“-Tag. Nun sind diese Dokumente fester Bestandteil meiner digitalen Bibliothek.

Mit analoger Briefpost verhält es sich fast genau so. Aber hier muss das Papier natürlich vorher noch digitalisiert werden, bevor es in Paperless-ngx eingepflegt wird:

Smartphone mit Dokumenten-Scanner-App liegt auf einem Papierdokument.

Es gibt heute sehr gute und einfach zu bedienende Dokumenten-Scanner-Apps für das Smartphone. Einen richtigen (aber langsamen) Scanner benötige ich nicht mehr. Diese Smartphone-Apps beschneiden das digitalisierte Papier automatisch, richten es korrekt aus und fertigen einen Kontrastausgleich an x. Nach diesem Vorgang erfolgt bei mir wieder das Teilen an den Consume-Ordner im Netzwerk (via MiXplorer). Das geht alles sehr schnell und unkompliziert. Ein PC bzw. Laptop muss hierbei gar nicht involviert sein.

x Bei nicht spiegelnden Papieroberflächen nutze ich immer das Blitzlicht des Smartphones: Dann verschwinden Knicke im Papier, da sie durch das frontale Licht keine Schatten werfen können. Außerdem ist die Vorlage dann gleichmäßig ausgeleuchtet.

Scannhalter für ein Smartphone zum Dgitalisieren von Dokumenten.
Tipp: Wer sehr viele Dokumente auf einmal mit dem Smartphone digitalisieren möchte, sollte sich ggf. so einen Scan-Halter ansehen. Man muss dann je nur noch das Papier austauschen und die App per Pfiff oder Warten automatisch auslösen lassen (falls so etwas unterstützt wird).

Ich bin tatsächlich begeistert von Paperless-ngx. Den PC muss ich für solche Aufgaben gar nicht mehr anschalten. Alles erfolgt bequem vom Sofa aus. Nur für die Kontrolle der neu eingelesenen Dokumente setze ich mich dann doch lieber an den Laptop (es ginge auch vom Handy / Tablet aus – sogar via spezieller App). Die digitalen und die analogen Dokumente befinden sich nun zusammen in meiner digitalen Bibliothek bzw. sind nun chronologisch unabhängig von ihrer Art managebar.

Läuft gut auf einem Raspberry Pi – aber nicht auf jedem

Ich hatte viele Jahre einen Raspberry Pi 3B+ mit 1 GB RAM genutzt. Alle meine Programme liefen darauf flott genug. Leider taugt dieser nicht für Paperless-ngx. Denn diese Software benötigt mehr Arbeitsspeicher. Es sollten tatsächlich ab ca. 3 GB RAM sein. Dann friert auch nichts mehr ein und für den gewöhnlichen Heimgebrauch läuft die Software darauf auch genügend stabil. Ich hatte mir daher extra einen Raspberry Pi 4 mit 4 GB RAM gekauft. Als Betriebssystem nutze ich DietPi ohne grafische Oberfläche.

Allerdings sollte man in der docker-compose.env-Datei einige Einstellungen vornehmen, die Paperless-ngx lieber etwas langsam arbeiten lässt. Beispielsweise habe ich hier definiert, dass nie mehrere Dokumente gleichzeitig verarbeitet werden können (PAPERLESS_TASK_WORKERS=1) und ich nutze nur drei Kerne des Prozessors (PAPERLESS_THREADS_PER_WORKER=3).

Auf Zusatzkomponenten wie ›Gotenberg‹ oder ›Tika‹ verzichte ich. Mit ihnen kann man auch Office-Dokumente oder E-Mails einlesen. Aber sie scheinen mir zu viel Last zu verursachen.

Weniger ist mehr: Meine Schlagwörter und Dokumenttypen

Bevor man Dokumente in Paperless-ngx einpflegt, sollte man zunächst einige Vorgaben ausfüllen. Denn jedem Dokument werden später ja gewisse Eigenschaften zugewiesen bzw. die Software versucht dies automatisch zu tun.

Korrespondent

Dies sollte klar sein: Hier legt man zunächst alle Absender für die gesammelten Dokumente an. Dies werden viele sein – z. B. Krankenkasse, Hermann Müller, Arbeitsamt, MeineBank, usw. Bevor ich alle meine Dokumente in Paperless-ngx importiert hatte, notierte ich, von wem diese eigentlich stammen. Da kommt ganz schön viel zusammen.

Schlagwort

Hier sollte man vorsichtig sein und nicht zu viele Schlagwörter („Tags“) anlegen. Ich nutze lediglich vier:

  • Unbestätigt

    Dieser Tag ist temporär und wird jedem neuen Dokument zunächst automatisch zugeordnet.

  • Papier

    Das Original befindet sich auf Papier bzw. in meinem Aktenordner.

  • Digital

    Das Dokument ist per se digital gewesen.

  • Original entsorgt

    Das Dokument befand sich auf Papier, wurde aber entsorgt. Gut. dass ich nun sicherheitshalber noch eine digitale Kopie habe und dass diese entsprechend gekennzeichnet ist.

Mehr Schlagwörter benötige ich nicht, um meine Dokumente später (in Kombination mit Datum, Korrespondent und Dokumenttyp) zu ordnen bzw. mir ganz spezielle heraus zu fischen.

Dokumenttyp

Optional kann man auch noch Dokumenttypen definieren. Ich nutze hier derzeit nur zwei:

  • Kontoauszug
  • Betriebsausgaben

Man kann auch noch benutzerdefinierte Felder erstellen bzw. diese den Dokumenten zuweisen. Doch ich benötige so etwas nicht. Paperless ist tatsächlich recht einfach zu verstehen und auch für Anfänger sofort gut nutzbar. Es ist ein recht logisch aufgebautes Programm.

Findet Duplikate

Zu meiner Überraschung stellt Paperless sogar fest, wenn ein Dokument (mit anderem Dateinamen) bereits in der Datenbank vorhanden ist. Es durchsucht ja auch den tatsächlichen Textinhalt. Wenn man also ein selbst digitalisiertes Dokument einpflegt und dieses ggf. bereits vorher schon (als digitale PDF aus einer E-Mail) eingepflegt wurde, kann das Programm darauf hinweisen. Dies wird nicht immer funktionieren. Es hilft aber bei der Organisation. Apropos E-Mail:

E-Mails bzw. Anhänge automatisch einpflegen

Paperless-ngx kann auch auf das eigene E-Mail-Konto zugreifen bzw. auf bestimmte Unterordner dort. Dann kann es den Anhang einer bestimmten E-Mail nehmen und in die Bibliothek einpflegen. Dies alles ist natürlich mittels Filter konfigurierbar und selbstverständlich funktioniert auch hier die automatische Verschlagwortung.

Diese Funktionalität teste ich jedoch derzeit noch. Was bei mir leider nicht funktioniert, ist das Einpflegen der E-Mail selbst – also des Textkörpers. Vermutlich müsste ich hierfür Gotenberg oder Tika installieren (s. o.).

Wo landen eigentlich meine Dokumente?

Bei der Installation von Paperless-ngx (bei mir via ›Docker‹) kann man den Pfad angeben, wo alle Daten gespeichert werden. Dies sind die eigentlichen Dokumente und die Datenbankdateien. Bei mir landet alles auf einem USB-Stick, der an meinem Raspberry Pi angesteckt ist.

Es lässt sich zudem die Speicherstruktur definieren. Bei mir werden die Dokumente im Dateisystem so gespeichert:

KorrespondentJahrDokument

Dies hat den großen Vorteil, dass alle Dokumente – selbst nach Ausfall von Paperless-ngx – weiterhin logisch sortiert sind.

Wenn man sich also irgendwann gegen dieses Dokumenten-Managementsystem entscheiden sollte, hat man weiterhin eine schlüssige Struktur seiner Dokumente – unabhängig von Software oder Betriebssystem. Nur die Verschlagwortung usw. wäre dann verloren. Ändert man innerhalb von Paperless z. B. den Korrespondenten, verschiebt sich entsprechend auch die Datei im Dateisystem.

Außerdem behält Paperless-ngx alle Originaldokumente parallel zu den bearbeiteten (OCR) bei – je in zwei verschiedenen (aber gleichen) Ordner-Strukturen.

Backups Backups Backups

Digitale Daten können ganz schnell weg sein. Mittels Zeitauslöser und Skript lasse ich jede Nacht via dem kleinen Tool ›rsync‹ auf dem Raspberry Pi eine Kopie des Paperless-Ordners auf dem USB-Stick auf der SD-Karte des Pi anfertigen. Rsync aktualisiert bei der Kopie ja nur das, was tatsächlich beim Original verändert wurde. Das geht dann entsprechend schnell. Ca. einmal im Monat kopiere ich dann von Windows aus den Netzwerkordner via Backup-Programm verschlüsselt auf einen entfernten Server. Sollte es also einen Hausbrand geben, ist wenigstens der Großteil meiner Dokumente noch digital via Internet abrufbar.

Bildschirmfoto: Cronicle = Weboberfläche automatisches Einschalten nach Zeiten
Anstelle der einfachen Crontab nutze ich zum automatischen Ausführen von (Backup-) Skripten das schöne Cronicle.

Nicht alle Dokumente in Paperless

Bei mir braucht nur jemand den USB-Stick am Raspberry Pi abzuziehen und hat somit alle meine Dokumente unverschlüsselt in der Hosentasche. Daher habe ich tatsächlich sensible Post nicht in Paperless eingepflegt, sondern speichere diese weiterhin regulär innerhalb eines TrueCrypt- bzw. VeraCrypt-Containers auf meinem PC.

Hier hakt es noch

Paperless ist noch nicht perfekt. Bei mir (auf dem Raspberry Pi) dauert es manchmal recht lange, wenn ich via Schnellvorschau ein PDF-Dokument ansehen möchte (genau so wie im Editier-Modus), bis dieses erscheint. Hier hilft es, wenn man in den Einstellungen des Programms das Häkchen setzt bei „Benutze PDF-Betrachter des Webbrowsers“. Dies betrifft alle Dokumente, bei denen Paperless selbst das OCR (die Texterkennung) durchgeführt hatte.

Außerdem spinnt das Texteinlesen von Paperless bei einigen wenigen PDF-Dokumenten: Alle Kontoauszüge einer bestimmten Bank werden bei mir innerhalb von Paperless zwar korrekt angezeigt. Kopiere ich aber einen Textteil daraus, erhalte ich beim Einfügen nur Kauderwelsch. Demzufolge gelingt hier auch ein Einlesen bzw. eine automatische Verschlagwortung nicht. Daher lasse ich Paperless tatsächlich jedes Dokument neu OCRen (also stets eine Texterkennung vornehmen („force“)). Dies dauert zwar deutlich länger, aber ab nun „tröpfeln“ bei mir ja nur gelegentlich neue Dokumente ein, nachdem ich meinen gesamten Bestand einmalig eingepflegt hatte x.

x Als ich ca. 500 Dokumente manuell auf einmal einpflegte, fertigte ich vorher die Texterkennung (OCR) bzw. das Umwandeln in PDF-Dateien unter Windows mit einem entsprechenden Programm (NAPS2) auf meinem PC an. Dies geht viel schneller als via Raspberry Pi. Paperless übersprang dann beim Import dieser Dokumentenmasse je diesen Prozessor-belastenden Schritt. Zumindest unter Windows kann man zum Importieren übrigens auch ganze Ordner in die Weboberfläche ziehen.

Zugriff auf die Dokumente von Unterwegs

Ich greife via VPN vom z. B. Handy oder Laptop von unterwegs auf mein Heimnetzwerk zu. So etwas kann man ja recht einfach via ›WireGuard‹ bereits über den eigenen Router (z. B. FritzBox) einrichten. Da mein Raspberry Pi den ganzen Tag aktiv ist, sind meine Dokumente bzw. ist Paperless permanent online und kein Drittanbieter hat somit Zugriff auf meine Dokumente. Es gibt ja viele Menschen, die ihre Dokumente irgendwelchen Cloud-Anbietern anvertrauen. Dies ist mir viel zu brisant.

Fazit

Wenn man Paperless-ngx erst einmal trainiert- und – den eigenen Bedürfnissen entsprechend – konfiguriert hat, macht dieses Programm viel Spaß, sorgt für Übersicht und spart viel Zeit. Ich habe durchweg gute Erfahrungen mit diesem kostenlosen Dokumenten-Management-System gemacht. Allerdings sollte man sich zeitnah unbedingt eine vernünftige Backup-Strategie überlegen. Schnell können solche digitale Daten auch wieder verschwunden sein.

➜ Eine sehr gute, ausführliche bzw. mehrteilige Anleitung für Paperless-ngx findet man hier auf der Datenautobahn.

Kommentar schreiben

Hier gibt es die Möglichkeit für Resonanz. Pflichtfelder sind mit * markiert.

Kommentare erscheinen nicht sofort bzw. werden manuell freigegeben. Mit dem Absenden des Formulars stimmen Sie der Datenschutzerklärung zu bzw., dass Ihre eingegebenen Daten gespeichert werden. IP-Adressen werden dabei grundsätzlich nicht gespeichert.