引言

Paperless-ngx 是一个强大的开源文档管理系统,可以帮助我们实现无纸化办公。本文将介绍如何使用定制的 Docker 镜像快速部署一个支持中文 OCR 的 Paperless-ngx 系统。

Paperless-ngx 简介

Paperless-ngx 是一个文档归档系统,它可以:

  • 自动扫描和 OCR 识别文档
  • 智能分类和标签管理
  • 全文检索
  • Web 界面管理
  • API 接口支持

定制镜像特性

这个定制版本的 Docker 镜像在官方版本基础上增加了以下特性:

  • 内置中文简体和繁体 OCR 支持
  • 自动更新到最新版本

部署步骤

1. 环境准备

首先创建项目目录并下载必要的配置文件:

mkdir paperless-ngx
cd paperless-ngx

# 下载 compose 配置
wget -O compose.yaml https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/refs/heads/main/docker/compose/docker-compose.postgres-tika.yml

# 使用定制镜像
sed -i 's/ghcr.io\/paperless-ngx\/paperless-ngx:latest/liuweitao\/paperless-ngx:latest/g' compose.yaml

# 下载环境配置
wget https://raw.githubusercontent.com/liuweitao/DockerHub-AutoBuild/master/paperless-ngx/.env
wget https://raw.githubusercontent.com/liuweitao/DockerHub-AutoBuild/master/paperless-ngx/docker-compose.env

2. 配置说明

需要注意的关键配置项:

系统配置

  • PAPERLESS_URL: 服务访问地址
  • PAPERLESS_TIME_ZONE: 时区设置
  • USERMAP_UIDUSERMAP_GID: 运行用户权限

OCR 配置

  • PAPERLESS_OCR_LANGUAGES: 已安装的 OCR 语言包
  • PAPERLESS_OCR_LANGUAGE: 默认 OCR 识别语言

3. 启动服务

# 拉取镜像
docker compose pull

# 创建管理员账号
docker compose run --rm webserver createsuperuser

# 启动服务
docker compose up -d

系统使用

文档存储结构

系统包含以下重要目录:

  • data: 数据库和索引文件存储
  • media: 文档处理后的存储位置
  • export: 文档导出目录
  • consume: 文档导入监控目录

文档处理流程

  1. 将文档放入 consume 目录
  2. 系统自动扫描并进行 OCR 识别
  3. 根据规则进行分类和标签添加
  4. 可通过 Web 界面查看和管理文档

最佳实践建议

1. 安全性考虑

  • 建议使用 HTTPS 进行加密访问
  • 配置反向代理保护服务
  • 定期更新系统和镜像

2. 性能优化

  • 为文档存储预留足够空间
  • 根据需要调整 OCR 语言包
  • 合理设置文档处理队列

3. 数据备份

  • 定期备份数据库
  • 备份重要的配置文件
  • 考虑使用外部存储服务

结语

通过使用这个支持中文 OCR 的 Paperless-ngx Docker 镜像,我们可以快速部署一个功能完善的文档管理系统。系统的自动化程度高,维护简单,适合个人和小团队使用。

参考资源