Was du mit Paperless‑NGX sofort erreichst
Paperless‑NGX (oft auch als paperless ngx geschrieben) ist eine selbstgehostete Open‑Source‑Lösung, die Papierdokumente, PDFs und E‑Mails automatisiert erfasst, per OCR durchsuchbar macht, klassifiziert und sauber ablegt. Du bekommst eine zentrale, schnelle, datenschutzfreundliche und kosteneffiziente Dokumentenablage – ohne Vendor‑Lock‑in und mit voller Kontrolle über deine Daten.
- Automatische OCR: Gescannte PDFs und Bilder werden durchsuchbar.
- Intelligente Klassifizierung: Korrespondent, Dokumenttyp, Datum, Tags – Vorschläge lernfähig.
- E-Mail-Import: IMAP‑Anbindung, automatisierter Abruf, Zuordnung zu Korrespondenten.
- Flexible Ablagestrategien: Dateinamen-Templates und Speicherpfade pro Kategorie.
- Volltextsuche und Filter: Finde Inhalte nach Begriff, Zeitraum, Typ oder Absender.
- Self‑Hosted: Betrieb im Heimnetz, auf NAS oder Server – Datenschutz by Design.
Merke: Paperless‑NGX ist kein “Scanner” im engeren Sinne. Es verarbeitet, sortiert, verschlagwortet, archiviert und macht deine Dokumente auffindbar – der Scan kommt aus deinem Multifunktionsgerät, Smartphone oder einem Hot‑Folder.
Architektur auf einen Blick
Unter der Haube setzt Paperless‑NGX auf eine robuste, modulare Architektur. Das sorgt für Stabilität, gute Performance und einfache Erweiterbarkeit.
- OCR‑Pipeline: Basierend auf OCRmyPDF/Tesseract; unterstützt mehrere Sprachen.
- Datenbank: PostgreSQL oder SQLite – für Produktion wird PostgreSQL empfohlen.
- Task‑Queue: Redis/Celery für asynchrone Verarbeitung und sauberes Queueing.
- Optionale Dienste: Gotenberg (Office‑→PDF‑Konvertierung), Apache Tika (Text‑Extraktion aus Office‑Dokumenten).
- Web‑UI & API: Moderne Oberfläche und REST‑API für Automationen/Integrationen.

Deployment-Varianten: Docker, NAS oder Server
Die meisten setzen heute auf Docker, weil es Updates, Abhängigkeiten und Stabilität stark vereinfacht. Für Synology‑NAS gibt es erprobte Setups, und wer maximale Flexibilität braucht, nutzt einen (V)Server.
| Variante | Geeignet für | Aufwand | Leistung | Besonderheiten |
|---|---|---|---|---|
| Docker Compose (Home‑Server/NUC) | Privat, Freelancer | Gering | Hoch (je nach Hardware) | Schnelle Updates, wenig Pflege |
| Synology NAS (Docker/Portainer) | Heimnetz, kleine Büros | Niedrig–Mittel | Solide | Dateifreigaben, Backups on‑board |
| VPS/dedizierter Linux‑Server | Mobilzugriff, Teams | Mittel–Hoch | Sehr hoch | Erfordert härtere Sicherheitsmaßnahmen |
Minimaler Docker‑Compose‑Stack
So sieht ein schlanker Start aus. Passe Volumes, Passwörter, Ports und Umgebungsvariablen an deine Umgebung an.
version: "3.8"
services:
db:
image: postgres:16
environment:
POSTGRES_DB: paperless
POSTGRES_USER: paperless
POSTGRES_PASSWORD: change-me
volumes:
- db_data:/var/lib/postgresql/data
redis:
image: redis:7
command: ["redis-server", "--save", "", "--appendonly", "no"]
webserver:
image: ghcr.io/paperless-ngx/paperless-ngx:latest
depends_on:
- db
- redis
environment:
PAPERLESS_REDIS: redis://redis:6379
PAPERLESS_DBHOST: db
PAPERLESS_DBNAME: paperless
PAPERLESS_DBUSER: paperless
PAPERLESS_DBPASS: change-me
PAPERLESS_TIME_ZONE: Europe/Berlin
PAPERLESS_OCR_LANGUAGE: deu+eng
ports:
- "8000:8000"
volumes:
- data:/usr/src/paperless
- consume:/usr/src/paperless/consume
volumes:
db_data:
data:
consume:
Optional ergänzt du Gotenberg und Tika für Office‑Dokumente. Beachte, dass beide Dienste spürbar RAM/CPU benötigen.
Erster Workflow: Von der Quelle zur durchsuchbaren Ablage
Du hast drei typische Eingangskanäle. In der Praxis nutzt man häufig alle parallel:
- Hot‑Folder: Dein Scanner schreibt in den “consume”-Ordner; Paperless‑NGX zieht, OCRt und klassifiziert automatisch.
- E‑Mail‑Import (IMAP): Eingangs‑Postfächer werden überwacht; PDF‑Anhänge wandern in die Verarbeitung, E‑Mails werden protokolliert.
- Web‑Upload: Drag‑and‑Drop im Browser – schnell, wenn Dateien schon auf dem Rechner liegen.
Die Pipeline erledigt danach das meiste allein: OCR, Extraktion, Klassifizierungs‑Vorschläge (Korrespondent, Dokumenttyp, Datum, Tags) und Ablage nach Regeln oder Speicherpfaden. Deine Aufgabe: prüfen, bestätigen, ggf. korrigieren. Mit jedem bestätigten Dokument werden die Vorschläge genauer.
Klassifizierung & Metadaten im Detail
Der eigentliche Mehrwert entsteht durch konsequente Metadaten. Das System kennt Kernobjekte, die du im Web‑UI pflegst:
- Korrespondent: Wer hat versendet (z. B. Stadtwerke, Versicherung, Steuerberater)?
- Dokumenttyp: Was ist es (Rechnung, Vertrag, Mahnung, Bescheid, Protokoll)?
- Tags: Freie Schlagworte, auch thematisch – jetzt optional verschachtelt (bis zu fünf Ebenen).
- Datum: Erkannt oder gesetzt (z. B. Rechnungsdatum).
- Speicherpfad: Zielstruktur im Dateisystem abseits des globalen Dateinamenschemas.
Der Zuweisungsalgorithmus nutzt Dokumentinhalte (Text aus OCR) und vorhandene Regeln. Du kannst beispielsweise definieren: “Wenn im Text ‘Abschlag’ und ‘Stadtwerke’ vorkommt, dann Dokumenttyp: Rechnung, Tag: Energie, Korrespondent: Stadtwerke”. Mit der Zeit lernt das System aus deinen Entscheidungen und macht bessere Vorschläge.
Speicherpfade vs. Dateinamenschema
Global steuerst du die Benennung über ein Format (z. B. PAPERLESS_FILENAME_FORMAT). Speicherpfade erlauben zusätzlich, einzelne Kategorien anders zu strukturieren – etwa nach Jahr/Korrespondent oder besonders flach für Versicherungsschreiben. Das ist nützlich, wenn externe Systeme auf Ordnerstrukturen angewiesen sind oder du bestimmte Archive unabhängig exportieren willst.
| Szenario | Dateinamen (global) | Speicherpfad (kategoriebezogen) | Beispiel |
|---|---|---|---|
| Rechnungen allgemein | {created}-{correspondent}-{title}.pdf | Jahr/{correspondent} | 2025/Stadtwerke/2025-02-14-Stadtwerke-Abschlag.pdf |
| Versicherung | {created}-{title}.pdf | Versicherung/Police | Versicherung/Police/2025-01-31-Beitragsanpassung.pdf |
| Behördliche Bescheide | {correspondent}-{created}.pdf | Behörde/{doc_type} | Behörde/Bescheid/Bürgeramt-2025-03-10.pdf |

E‑Mail‑Integration: Vom Posteingang ins Archiv
Paperless‑NGX kann mehrere IMAP‑Konten überwachen. Du definierst Regeln, welche Mails oder Anhänge importiert werden (z. B. nur PDFs, nur von bestimmten Absendern). Neuere Versionen haben die E‑Mail‑Workflows deutlich verbessert:
- Mehrfachversand per E‑Mail: Sende mehrere archivierte Dokumente in einem Schritt weiter.
- Absender‑Mapping: E‑Mail‑Adressen direkt bestehenden Korrespondenten zuordnen – nützlich bei kryptischen Absendern.
- Übersicht verarbeiteter E‑Mails: Transparenz, was wann importiert wurde.
Damit erreichst du, dass z. B. alle Eingangsrechnungen, die per Mail kommen, automatisiert im DMS landen – inklusive OCR, Volltextsuche und sauberer Klassifizierung.
Neuere Versionen: Noch mehr Automatisierung
In aktuellen Releases sind einige Funktionen dazugekommen, die den Alltag beschleunigen:
- ASN‑Label‑Erkennung: Scanne mehrere Briefe am Stück und trenne automatisch an bestimmten Stickern/Markern.
- Verschachtelte Tags (bis zu fünf Ebenen): Thematische Ordnung wie Ordner – ohne die Nachteile starrer Ordnerlogik, da ein Dokument mehrere Tags erhalten kann.
- Filter auf Speicherpfade: Erstelle Regeln/Aktionen abhängig vom endgültigen Ablageort.
Das Ergebnis ist mehr Geschwindigkeit beim Massen‑Scan, eine bessere Strukturierung und noch granularere Automatisierung über die gesamte Pipeline.
Sicherheit, Datenschutz und Betrieb
Der größte Vorteil: Du hostest selbst. Damit bleiben alle Inhalte unter deiner Kontrolle – ein zentraler Punkt für Datenschutz und Compliance.
- Host‑Sicherheit: Betreibe die Instanz auf vertrauenswürdiger Hardware. Verwende aktuelle Images und halte dein System aktuell.
- Netzwerk: Greife im Idealfall nur intern zu. Für externen Zugriff nutze einen Reverse‑Proxy (z. B. Traefik/Nginx) mit HTTPS und IP/SSO‑Schutz (Authelia/Keycloak).
- Backups: Sichere Datenbank und Dokumente regelmäßig. Teste Rücksicherungen und ergänze Off‑Site‑Backups.
- Verschlüsselung: TLS im Transportweg, Festplattenverschlüsselung auf OS/NAS‑Ebene.
- Rechte & Rollen: Gib Zugriff nur den Personen, die ihn wirklich brauchen; benutze starke Passwörter und ggf. SSO.
Hinweis: Wenn du keine Lust auf Betrieb hast, existieren Managed‑Angebote mit dedizierten Instanzen in deutschen Rechenzentren, verschlüsselten Backups und AVV (DSGVO). Beurteile dabei sorgfältig Vertragsbedingungen, Datenresidenz und Exportmöglichkeiten.
Ressourcen & Performance‑Tuning
Paperless‑NGX läuft auch auf kleiner Hardware, doch OCR und Office‑Konvertierung sind CPU‑/RAM‑hungrig. Plane ausreichend Reserven ein – insbesondere, wenn du viele Dokumente in kurzen Intervallen verarbeitest.
| Komponente | Typische Auswirkungen | Empfehlung |
|---|---|---|
| Basissystem (Web/UI, OCR) | 2–4 GB RAM, 2 vCPUs reichen für Privathaushalt | Für Komfort 4 GB+ RAM |
| Gotenberg | Deutlicher RAM‑Verbrauch bei Office‑Konvertierung | Zusätzlich 1–2 GB RAM einkalkulieren |
| Apache Tika | RAM‑hungrig je nach Dokumentenformat | Zusätzlich 1 GB RAM einkalkulieren |
| Redis/Celery | Gering, aber essenziell für Queueing | Standard‑Konfiguration genügt |
Scanner‑Einstellungen für gute OCR
- 300 dpi (mindestens), besser 400 dpi bei feinen Schriften.
- Graustufen für Textdokumente – guter Kompromiss zwischen Qualität und Dateigröße.
- Duplex einschalten, um Rückseiten automatisch mitzunehmen.
- Gerader Einzug und saubere Vorlagen minimieren Schieflagen/Artefakte.
- OCR‑Sprachen passend setzen (z. B. “deu+eng”).
Best Practices aus der Praxis
Die Strategie entscheidet, wie reibungslos dein System läuft. Diese Muster haben sich bewährt:
- Ein Eingangskanal pro Quelle: Scanner → Hot‑Folder, Rechnungs‑Mailkonto → IMAP, Downloads → Web‑Upload.
- Frühe Regeln definieren: Korrespondenten, häufige Dokumenttypen, erste Tags, grobe Speicherpfade – nicht überplanen.
- Batches scannen: Viele Seiten am Stück scannen und per ASN‑Labels automatisch trennen lassen.
- Wöchentlicher Kontrollblick: Offene Vorschläge bestätigen, Fehler korrigieren, Regeln schärfen.
- Such‑First denken: Tags sparsam und aussagekräftig. Volltext ist extrem mächtig – nutze Filter (Zeiträume, Typen, Korrespondenten).
- Exports & Backups: Regelmäßig testen – besonders vor größeren Updates.
Integration & Automatisierung
Über die REST‑API und Webhooks/Automations‑Tools kannst du Paperless‑NGX in deine Umgebung integrieren:
- Accounting: Exportiere Rechnungen monatlich als ZIP und verarbeite sie weiter (z. B. Belegtransfer).
- Benachrichtigungen: Sende dir eine Nachricht, wenn neue Dokumente eines bestimmten Typs eintreffen.
- Low‑Code‑Flows: Node‑RED/Automatisierung: Nach Import → Tag setzen → externes System updaten.
Typische Stolpersteine und Lösungen
- OCR erkennt Umlaute/Feintext schlecht: Prüfe DPI, Graustufen, OCR‑Sprachpakete; vermeide stark komprimierte Scans.
- Office‑Dateien werden nicht konvertiert: Gotenberg/Tika ergänzen; genügend RAM einplanen.
- E‑Mail‑Import greift nicht: IMAP‑Rechte, Ordnernamen, Filterregeln checken; Logs ansehen.
- Klassifizierung passt nicht: Vorschläge regelmäßig bestätigen/korrigieren; Regeln präzisieren; eindeutige Stichworte im Dokumenttitel nutzen.
- Langsame Verarbeitung: OCR‑Jobs serialisieren? Mehr vCPUs/ RAM? Batch‑Fenster planen.
Beispielszenarien
Privat
Scanner → Hot‑Folder; IMAP für Vertrags‑ und Versicherungs‑Mails; Tags wie “Haushalt”, “Kfz”, “Versicherung”; Korrespondenten “Stadtwerke”, “Krankenkasse”; Speicherpfade nach Jahr/Kategorie. Ergebnis: In Sekunden findest du Verträge, Garantiescheine oder Bescheide.
Freelancer
Separates Rechnungs‑Postfach per IMAP; Dokumenttyp “Eingangsrechnung/Ausgangsrechnung”; Tags: “Buchhaltung”, “Kunde_X”. Monatlicher Export in die Buchhaltung; Speicherpfade trennen privat/geschäftlich. Ergebnis: Saubere Belegkette, zeitsparende Übergabe.
Kleines Unternehmen
Mehrere Scanner schreiben in je eigene Hot‑Folder; Regeln nach Abteilung; ASN‑Trennung für Massenscans; IMAP‑Import für Bestellbestätigungen. Reverse‑Proxy mit SSO, restriktive Netzwerkfreigaben und tägliche Backups. Ergebnis: Transparenter, prüfbarer Dokumentenfluss.
Konfiguration: Wichtige Umgebungsvariablen
Diese Settings triffst du meist in Docker‑Compose:
PAPERLESS_TIME_ZONE: Zeitzone (z. B. Europe/Berlin)PAPERLESS_OCR_LANGUAGE: OCR‑Sprachen (z. B. deu+eng)PAPERLESS_FILENAME_FORMAT: globales DateinamenschemaPAPERLESS_REDIS,PAPERLESS_DB*: Queue und DatenbankPAPERLESS_CONSUME_IN_PLACE: Dateien im Eingangsordner belassen statt zu verschieben (mit Bedacht verwenden)
Feinheiten wie Speicherpfade, Tags, Dokumenttypen und Korrespondenten pflegst du anschließend bequem im Web‑UI. Starte mit wenigen, klaren Regeln – du kannst später jederzeit verfeinern.
Warum sich Paperless‑NGX rechnet
- Lizenzkosten: 0 € – Open‑Source, Community‑getrieben.
- Transparenz – Quellcode einsehbar, kein Lock‑in, offene Datenstrukturen.
- Skalierbar – Vom Raspberry Pi bis zum großen Server.
- Datenschutz – Vollständige Datenhoheit, Hosting nach deinen Compliance‑Vorgaben.
Roadmap‑nahe Entwicklungen (Beispiele)
Die Release‑Notes zeigen stetige Fortschritte: verbesserte E‑Mail‑Workflows, feinere Filter (inkl. Speicherpfade), erweiterte Tag‑Hierarchien und Scanner‑Workflows wie die ASN‑Trennung. Das Projekt reagiert schnell auf Community‑Feedback – ein wesentlicher Vorteil gegenüber proprietären Lösungen mit langen Upgrade‑Zyklen.
Fazit
Paperless‑NGX bringt Ordnung in den Dokumentendschungel: OCR, intelligente Klassifizierung, flexible Ablage und starke Suche – alles selbstgehostet und ohne Lizenzkosten. Mit Docker ist die Inbetriebnahme unkompliziert, NAS‑ und Server‑Setups sind gut dokumentiert. Neuere Releases mit verschachtelten Tags, E‑Mail‑Verbesserungen, Speicherpfad‑Filtern und ASN‑Trennung steigern die Automatisierung spürbar. Wenn du konsequent Metadaten pflegst, ein paar einfache Regeln definierst und solide Backups etablierst, wird Paperless‑NGX zur zuverlässigen, schnellen und datenschutzfreundlichen Drehscheibe für deine Dokumente – privat, freiberuflich oder im kleinen Unternehmen.
FAQ
-
Was ist der schnellste Weg, um mit paperless ngx zu starten?
Docker‑Compose nutzen, Volumes für Daten/Consume definieren, OCR‑Sprache setzen, Web‑UI aufrufen, ersten Hot‑Folder/IMAP‑Import konfigurieren. -
Brauche ich Gotenberg und Tika zwingend?
Nein. Für reine PDF/Scan‑Workflows reicht die Basis. Gotenberg/Tika sind sinnvoll, wenn du viele Office‑Formate automatisch in PDFs wandeln bzw. daraus Text extrahieren willst. -
Wie viel RAM/CPU sollte ich einplanen?
Für Privathaushalt 2–4 GB RAM und 2 vCPUs als Basis. Mit Gotenberg/Tika eher 4–8 GB RAM. Je mehr Batch‑OCR du fährst, desto stärker profitieren CPU‑Kerner. -
Kann ich mehrere E‑Mail‑Konten anbinden?
Ja. Du kannst mehrere IMAP‑Konten überwachen, Filter definieren, Absender Korrespondenten zuordnen und verarbeitete Mails nachvollziehen. -
Wie funktioniert die Klassifizierung – ist das “echte KI”?
Paperless‑NGX macht lernende Vorschläge auf Basis deiner Bestätigungen/Korrekturen und Regeln. Du steuerst Präzision durch gute Metadaten und eindeutige Stichworte. -
Wie sichere ich meine Daten?
Regelmäßige Backups von Datenbank und Dokumenten‑Volume. Rücksicherung testen. Zusätzlich Off‑Site‑Backups einplanen. Bei externem Zugriff HTTPS/Reverse‑Proxy einsetzen. -
Kann ich meine bestehende Ordnerstruktur übernehmen?
Ja. Über Speicherpfade kannst du Kategorien in definierte Ordner lenken. Der globale Dateiname bleibt konsistent, während einzelne Bereiche eigene Strukturen verwenden. -
Gibt es mobile Apps?
Du kannst die Web‑Oberfläche mobil nutzen und Dokumente per Smartphone‑Scan via Hot‑Folder (z. B. Cloud‑Sync) oder per E‑Mail ins System bringen. -
Was mache ich bei schiefer oder schlechter OCR?
Scanner‑DPI erhöhen (300–400), Graustufen nutzen, OCR‑Sprachen korrekt setzen, Vorlagen sauber einziehen lassen. Notfalls Dokument vorverarbeiten (Deskew/Entfernen von Artefakten). -
Kann ich Dokumente exportieren/migrieren?
Ja. Es gibt Export‑Funktionen, und da Dateien plus Metadaten strukturiert vorliegen, ist ein Wechsel oder externer Audit problemlos möglich. -
Wie schütze ich den Zugang am besten?
Intern betreiben oder extern nur via Reverse‑Proxy mit HTTPS, IP‑Filter, SSO (z. B. Authelia/Keycloak). Starke Passwörter, regelmäßige Updates, geloggte Zugriffe.
