Paperless‑NGX im Praxis‑Check: So digitalisierst du deinen Dokumentenfluss richtig

Was du mit Paperless‑NGX sofort erreichst

Paperless‑NGX (oft auch als paperless ngx geschrieben) ist eine selbstgehostete Open‑Source‑Lösung, die Papierdokumente, PDFs und E‑Mails automatisiert erfasst, per OCR durchsuchbar macht, klassifiziert und sauber ablegt. Du bekommst eine zentrale, schnelle, datenschutzfreundliche und kosteneffiziente Dokumentenablage – ohne Vendor‑Lock‑in und mit voller Kontrolle über deine Daten.

Automatische OCR: Gescannte PDFs und Bilder werden durchsuchbar.
Intelligente Klassifizierung: Korrespondent, Dokumenttyp, Datum, Tags – Vorschläge lernfähig.
E-Mail-Import: IMAP‑Anbindung, automatisierter Abruf, Zuordnung zu Korrespondenten.
Flexible Ablagestrategien: Dateinamen-Templates und Speicherpfade pro Kategorie.
Volltextsuche und Filter: Finde Inhalte nach Begriff, Zeitraum, Typ oder Absender.
Self‑Hosted: Betrieb im Heimnetz, auf NAS oder Server – Datenschutz by Design.

Merke: Paperless‑NGX ist kein “Scanner” im engeren Sinne. Es verarbeitet, sortiert, verschlagwortet, archiviert und macht deine Dokumente auffindbar – der Scan kommt aus deinem Multifunktionsgerät, Smartphone oder einem Hot‑Folder.

Architektur auf einen Blick

Unter der Haube setzt Paperless‑NGX auf eine robuste, modulare Architektur. Das sorgt für Stabilität, gute Performance und einfache Erweiterbarkeit.

OCR‑Pipeline: Basierend auf OCRmyPDF/Tesseract; unterstützt mehrere Sprachen.
Datenbank: PostgreSQL oder SQLite – für Produktion wird PostgreSQL empfohlen.
Task‑Queue: Redis/Celery für asynchrone Verarbeitung und sauberes Queueing.
Optionale Dienste: Gotenberg (Office‑→PDF‑Konvertierung), Apache Tika (Text‑Extraktion aus Office‑Dokumenten).
Web‑UI & API: Moderne Oberfläche und REST‑API für Automationen/Integrationen.

paperless ngx

Deployment-Varianten: Docker, NAS oder Server

Die meisten setzen heute auf Docker, weil es Updates, Abhängigkeiten und Stabilität stark vereinfacht. Für Synology‑NAS gibt es erprobte Setups, und wer maximale Flexibilität braucht, nutzt einen (V)Server.

Variante	Geeignet für	Aufwand	Leistung	Besonderheiten
Docker Compose (Home‑Server/NUC)	Privat, Freelancer	Gering	Hoch (je nach Hardware)	Schnelle Updates, wenig Pflege
Synology NAS (Docker/Portainer)	Heimnetz, kleine Büros	Niedrig–Mittel	Solide	Dateifreigaben, Backups on‑board
VPS/dedizierter Linux‑Server	Mobilzugriff, Teams	Mittel–Hoch	Sehr hoch	Erfordert härtere Sicherheitsmaßnahmen

Minimaler Docker‑Compose‑Stack

So sieht ein schlanker Start aus. Passe Volumes, Passwörter, Ports und Umgebungsvariablen an deine Umgebung an.

version: "3.8"
services:
  db:
    image: postgres:16
    environment:
      POSTGRES_DB: paperless
      POSTGRES_USER: paperless
      POSTGRES_PASSWORD: change-me
    volumes:
      - db_data:/var/lib/postgresql/data

  redis:
    image: redis:7
    command: ["redis-server", "--save", "", "--appendonly", "no"]

  webserver:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    depends_on:
      - db
      - redis
    environment:
      PAPERLESS_REDIS: redis://redis:6379
      PAPERLESS_DBHOST: db
      PAPERLESS_DBNAME: paperless
      PAPERLESS_DBUSER: paperless
      PAPERLESS_DBPASS: change-me
      PAPERLESS_TIME_ZONE: Europe/Berlin
      PAPERLESS_OCR_LANGUAGE: deu+eng
    ports:
      - "8000:8000"
    volumes:
      - data:/usr/src/paperless
      - consume:/usr/src/paperless/consume

volumes:
  db_data:
  data:
  consume:

Optional ergänzt du Gotenberg und Tika für Office‑Dokumente. Beachte, dass beide Dienste spürbar RAM/CPU benötigen.

Erster Workflow: Von der Quelle zur durchsuchbaren Ablage

Du hast drei typische Eingangskanäle. In der Praxis nutzt man häufig alle parallel:

Hot‑Folder: Dein Scanner schreibt in den “consume”-Ordner; Paperless‑NGX zieht, OCRt und klassifiziert automatisch.
E‑Mail‑Import (IMAP): Eingangs‑Postfächer werden überwacht; PDF‑Anhänge wandern in die Verarbeitung, E‑Mails werden protokolliert.
Web‑Upload: Drag‑and‑Drop im Browser – schnell, wenn Dateien schon auf dem Rechner liegen.

Die Pipeline erledigt danach das meiste allein: OCR, Extraktion, Klassifizierungs‑Vorschläge (Korrespondent, Dokumenttyp, Datum, Tags) und Ablage nach Regeln oder Speicherpfaden. Deine Aufgabe: prüfen, bestätigen, ggf. korrigieren. Mit jedem bestätigten Dokument werden die Vorschläge genauer.

Klassifizierung & Metadaten im Detail

Der eigentliche Mehrwert entsteht durch konsequente Metadaten. Das System kennt Kernobjekte, die du im Web‑UI pflegst:

Korrespondent: Wer hat versendet (z. B. Stadtwerke, Versicherung, Steuerberater)?
Dokumenttyp: Was ist es (Rechnung, Vertrag, Mahnung, Bescheid, Protokoll)?
Tags: Freie Schlagworte, auch thematisch – jetzt optional verschachtelt (bis zu fünf Ebenen).
Datum: Erkannt oder gesetzt (z. B. Rechnungsdatum).
Speicherpfad: Zielstruktur im Dateisystem abseits des globalen Dateinamenschemas.

Der Zuweisungsalgorithmus nutzt Dokumentinhalte (Text aus OCR) und vorhandene Regeln. Du kannst beispielsweise definieren: “Wenn im Text ‘Abschlag’ und ‘Stadtwerke’ vorkommt, dann Dokumenttyp: Rechnung, Tag: Energie, Korrespondent: Stadtwerke”. Mit der Zeit lernt das System aus deinen Entscheidungen und macht bessere Vorschläge.

Speicherpfade vs. Dateinamenschema

Global steuerst du die Benennung über ein Format (z. B. PAPERLESS_FILENAME_FORMAT). Speicherpfade erlauben zusätzlich, einzelne Kategorien anders zu strukturieren – etwa nach Jahr/Korrespondent oder besonders flach für Versicherungsschreiben. Das ist nützlich, wenn externe Systeme auf Ordnerstrukturen angewiesen sind oder du bestimmte Archive unabhängig exportieren willst.

Szenario	Dateinamen (global)	Speicherpfad (kategoriebezogen)	Beispiel
Rechnungen allgemein	{created}-{correspondent}-{title}.pdf	Jahr/{correspondent}	2025/Stadtwerke/2025-02-14-Stadtwerke-Abschlag.pdf
Versicherung	{created}-{title}.pdf	Versicherung/Police	Versicherung/Police/2025-01-31-Beitragsanpassung.pdf
Behördliche Bescheide	{correspondent}-{created}.pdf	Behörde/{doc_type}	Behörde/Bescheid/Bürgeramt-2025-03-10.pdf

paperless ngx

E‑Mail‑Integration: Vom Posteingang ins Archiv

Paperless‑NGX kann mehrere IMAP‑Konten überwachen. Du definierst Regeln, welche Mails oder Anhänge importiert werden (z. B. nur PDFs, nur von bestimmten Absendern). Neuere Versionen haben die E‑Mail‑Workflows deutlich verbessert:

Mehrfachversand per E‑Mail: Sende mehrere archivierte Dokumente in einem Schritt weiter.
Absender‑Mapping: E‑Mail‑Adressen direkt bestehenden Korrespondenten zuordnen – nützlich bei kryptischen Absendern.
Übersicht verarbeiteter E‑Mails: Transparenz, was wann importiert wurde.

Damit erreichst du, dass z. B. alle Eingangsrechnungen, die per Mail kommen, automatisiert im DMS landen – inklusive OCR, Volltextsuche und sauberer Klassifizierung.

Neuere Versionen: Noch mehr Automatisierung

In aktuellen Releases sind einige Funktionen dazugekommen, die den Alltag beschleunigen:

ASN‑Label‑Erkennung: Scanne mehrere Briefe am Stück und trenne automatisch an bestimmten Stickern/Markern.
Verschachtelte Tags (bis zu fünf Ebenen): Thematische Ordnung wie Ordner – ohne die Nachteile starrer Ordnerlogik, da ein Dokument mehrere Tags erhalten kann.
Filter auf Speicherpfade: Erstelle Regeln/Aktionen abhängig vom endgültigen Ablageort.

Das Ergebnis ist mehr Geschwindigkeit beim Massen‑Scan, eine bessere Strukturierung und noch granularere Automatisierung über die gesamte Pipeline.

Sicherheit, Datenschutz und Betrieb

Der größte Vorteil: Du hostest selbst. Damit bleiben alle Inhalte unter deiner Kontrolle – ein zentraler Punkt für Datenschutz und Compliance.

Host‑Sicherheit: Betreibe die Instanz auf vertrauenswürdiger Hardware. Verwende aktuelle Images und halte dein System aktuell.
Netzwerk: Greife im Idealfall nur intern zu. Für externen Zugriff nutze einen Reverse‑Proxy (z. B. Traefik/Nginx) mit HTTPS und IP/SSO‑Schutz (Authelia/Keycloak).
Backups: Sichere Datenbank und Dokumente regelmäßig. Teste Rücksicherungen und ergänze Off‑Site‑Backups.
Verschlüsselung: TLS im Transportweg, Festplattenverschlüsselung auf OS/NAS‑Ebene.
Rechte & Rollen: Gib Zugriff nur den Personen, die ihn wirklich brauchen; benutze starke Passwörter und ggf. SSO.

Hinweis: Wenn du keine Lust auf Betrieb hast, existieren Managed‑Angebote mit dedizierten Instanzen in deutschen Rechenzentren, verschlüsselten Backups und AVV (DSGVO). Beurteile dabei sorgfältig Vertragsbedingungen, Datenresidenz und Exportmöglichkeiten.

Ressourcen & Performance‑Tuning

Paperless‑NGX läuft auch auf kleiner Hardware, doch OCR und Office‑Konvertierung sind CPU‑/RAM‑hungrig. Plane ausreichend Reserven ein – insbesondere, wenn du viele Dokumente in kurzen Intervallen verarbeitest.

Komponente	Typische Auswirkungen	Empfehlung
Basissystem (Web/UI, OCR)	2–4 GB RAM, 2 vCPUs reichen für Privathaushalt	Für Komfort 4 GB+ RAM
Gotenberg	Deutlicher RAM‑Verbrauch bei Office‑Konvertierung	Zusätzlich 1–2 GB RAM einkalkulieren
Apache Tika	RAM‑hungrig je nach Dokumentenformat	Zusätzlich 1 GB RAM einkalkulieren
Redis/Celery	Gering, aber essenziell für Queueing	Standard‑Konfiguration genügt

Scanner‑Einstellungen für gute OCR

300 dpi (mindestens), besser 400 dpi bei feinen Schriften.
Graustufen für Textdokumente – guter Kompromiss zwischen Qualität und Dateigröße.
Duplex einschalten, um Rückseiten automatisch mitzunehmen.
Gerader Einzug und saubere Vorlagen minimieren Schieflagen/Artefakte.
OCR‑Sprachen passend setzen (z. B. “deu+eng”).

Best Practices aus der Praxis

Die Strategie entscheidet, wie reibungslos dein System läuft. Diese Muster haben sich bewährt:

Ein Eingangskanal pro Quelle: Scanner → Hot‑Folder, Rechnungs‑Mailkonto → IMAP, Downloads → Web‑Upload.
Frühe Regeln definieren: Korrespondenten, häufige Dokumenttypen, erste Tags, grobe Speicherpfade – nicht überplanen.
Batches scannen: Viele Seiten am Stück scannen und per ASN‑Labels automatisch trennen lassen.
Wöchentlicher Kontrollblick: Offene Vorschläge bestätigen, Fehler korrigieren, Regeln schärfen.
Such‑First denken: Tags sparsam und aussagekräftig. Volltext ist extrem mächtig – nutze Filter (Zeiträume, Typen, Korrespondenten).
Exports & Backups: Regelmäßig testen – besonders vor größeren Updates.

Integration & Automatisierung

Über die REST‑API und Webhooks/Automations‑Tools kannst du Paperless‑NGX in deine Umgebung integrieren:

Accounting: Exportiere Rechnungen monatlich als ZIP und verarbeite sie weiter (z. B. Belegtransfer).
Benachrichtigungen: Sende dir eine Nachricht, wenn neue Dokumente eines bestimmten Typs eintreffen.
Low‑Code‑Flows: Node‑RED/Automatisierung: Nach Import → Tag setzen → externes System updaten.

Typische Stolpersteine und Lösungen

OCR erkennt Umlaute/Feintext schlecht: Prüfe DPI, Graustufen, OCR‑Sprachpakete; vermeide stark komprimierte Scans.
Office‑Dateien werden nicht konvertiert: Gotenberg/Tika ergänzen; genügend RAM einplanen.
E‑Mail‑Import greift nicht: IMAP‑Rechte, Ordnernamen, Filterregeln checken; Logs ansehen.
Klassifizierung passt nicht: Vorschläge regelmäßig bestätigen/korrigieren; Regeln präzisieren; eindeutige Stichworte im Dokumenttitel nutzen.
Langsame Verarbeitung: OCR‑Jobs serialisieren? Mehr vCPUs/ RAM? Batch‑Fenster planen.

Beispielszenarien

Privat

Scanner → Hot‑Folder; IMAP für Vertrags‑ und Versicherungs‑Mails; Tags wie “Haushalt”, “Kfz”, “Versicherung”; Korrespondenten “Stadtwerke”, “Krankenkasse”; Speicherpfade nach Jahr/Kategorie. Ergebnis: In Sekunden findest du Verträge, Garantiescheine oder Bescheide.

Freelancer

Separates Rechnungs‑Postfach per IMAP; Dokumenttyp “Eingangsrechnung/Ausgangsrechnung”; Tags: “Buchhaltung”, “Kunde_X”. Monatlicher Export in die Buchhaltung; Speicherpfade trennen privat/geschäftlich. Ergebnis: Saubere Belegkette, zeitsparende Übergabe.

Kleines Unternehmen

Mehrere Scanner schreiben in je eigene Hot‑Folder; Regeln nach Abteilung; ASN‑Trennung für Massenscans; IMAP‑Import für Bestellbestätigungen. Reverse‑Proxy mit SSO, restriktive Netzwerkfreigaben und tägliche Backups. Ergebnis: Transparenter, prüfbarer Dokumentenfluss.

Konfiguration: Wichtige Umgebungsvariablen

Diese Settings triffst du meist in Docker‑Compose:

PAPERLESS_TIME_ZONE: Zeitzone (z. B. Europe/Berlin)
PAPERLESS_OCR_LANGUAGE: OCR‑Sprachen (z. B. deu+eng)
PAPERLESS_FILENAME_FORMAT: globales Dateinamenschema
PAPERLESS_REDIS, PAPERLESS_DB*: Queue und Datenbank
PAPERLESS_CONSUME_IN_PLACE: Dateien im Eingangsordner belassen statt zu verschieben (mit Bedacht verwenden)

Feinheiten wie Speicherpfade, Tags, Dokumenttypen und Korrespondenten pflegst du anschließend bequem im Web‑UI. Starte mit wenigen, klaren Regeln – du kannst später jederzeit verfeinern.

Warum sich Paperless‑NGX rechnet

Lizenzkosten: 0 € – Open‑Source, Community‑getrieben.
Transparenz – Quellcode einsehbar, kein Lock‑in, offene Datenstrukturen.
Skalierbar – Vom Raspberry Pi bis zum großen Server.
Datenschutz – Vollständige Datenhoheit, Hosting nach deinen Compliance‑Vorgaben.

Roadmap‑nahe Entwicklungen (Beispiele)

Die Release‑Notes zeigen stetige Fortschritte: verbesserte E‑Mail‑Workflows, feinere Filter (inkl. Speicherpfade), erweiterte Tag‑Hierarchien und Scanner‑Workflows wie die ASN‑Trennung. Das Projekt reagiert schnell auf Community‑Feedback – ein wesentlicher Vorteil gegenüber proprietären Lösungen mit langen Upgrade‑Zyklen.

Fazit

Paperless‑NGX bringt Ordnung in den Dokumentendschungel: OCR, intelligente Klassifizierung, flexible Ablage und starke Suche – alles selbstgehostet und ohne Lizenzkosten. Mit Docker ist die Inbetriebnahme unkompliziert, NAS‑ und Server‑Setups sind gut dokumentiert. Neuere Releases mit verschachtelten Tags, E‑Mail‑Verbesserungen, Speicherpfad‑Filtern und ASN‑Trennung steigern die Automatisierung spürbar. Wenn du konsequent Metadaten pflegst, ein paar einfache Regeln definierst und solide Backups etablierst, wird Paperless‑NGX zur zuverlässigen, schnellen und datenschutzfreundlichen Drehscheibe für deine Dokumente – privat, freiberuflich oder im kleinen Unternehmen.

FAQ

Was ist der schnellste Weg, um mit paperless ngx zu starten?
Docker‑Compose nutzen, Volumes für Daten/Consume definieren, OCR‑Sprache setzen, Web‑UI aufrufen, ersten Hot‑Folder/IMAP‑Import konfigurieren.
Brauche ich Gotenberg und Tika zwingend?
Nein. Für reine PDF/Scan‑Workflows reicht die Basis. Gotenberg/Tika sind sinnvoll, wenn du viele Office‑Formate automatisch in PDFs wandeln bzw. daraus Text extrahieren willst.
Wie viel RAM/CPU sollte ich einplanen?
Für Privathaushalt 2–4 GB RAM und 2 vCPUs als Basis. Mit Gotenberg/Tika eher 4–8 GB RAM. Je mehr Batch‑OCR du fährst, desto stärker profitieren CPU‑Kerner.
Kann ich mehrere E‑Mail‑Konten anbinden?
Ja. Du kannst mehrere IMAP‑Konten überwachen, Filter definieren, Absender Korrespondenten zuordnen und verarbeitete Mails nachvollziehen.
Wie funktioniert die Klassifizierung – ist das “echte KI”?
Paperless‑NGX macht lernende Vorschläge auf Basis deiner Bestätigungen/Korrekturen und Regeln. Du steuerst Präzision durch gute Metadaten und eindeutige Stichworte.
Wie sichere ich meine Daten?
Regelmäßige Backups von Datenbank und Dokumenten‑Volume. Rücksicherung testen. Zusätzlich Off‑Site‑Backups einplanen. Bei externem Zugriff HTTPS/Reverse‑Proxy einsetzen.
Kann ich meine bestehende Ordnerstruktur übernehmen?
Ja. Über Speicherpfade kannst du Kategorien in definierte Ordner lenken. Der globale Dateiname bleibt konsistent, während einzelne Bereiche eigene Strukturen verwenden.
Gibt es mobile Apps?
Du kannst die Web‑Oberfläche mobil nutzen und Dokumente per Smartphone‑Scan via Hot‑Folder (z. B. Cloud‑Sync) oder per E‑Mail ins System bringen.
Was mache ich bei schiefer oder schlechter OCR?
Scanner‑DPI erhöhen (300–400), Graustufen nutzen, OCR‑Sprachen korrekt setzen, Vorlagen sauber einziehen lassen. Notfalls Dokument vorverarbeiten (Deskew/Entfernen von Artefakten).
Kann ich Dokumente exportieren/migrieren?
Ja. Es gibt Export‑Funktionen, und da Dateien plus Metadaten strukturiert vorliegen, ist ein Wechsel oder externer Audit problemlos möglich.
Wie schütze ich den Zugang am besten?
Intern betreiben oder extern nur via Reverse‑Proxy mit HTTPS, IP‑Filter, SSO (z. B. Authelia/Keycloak). Starke Passwörter, regelmäßige Updates, geloggte Zugriffe.