引言
Paperless-ngx 是一个强大的开源文档管理系统,可以帮助我们实现无纸化办公。本文将介绍如何使用定制的 Docker 镜像快速部署一个支持中文 OCR 的 Paperless-ngx 系统。
Paperless-ngx 简介
Paperless-ngx 是一个文档归档系统,它可以:
- 自动扫描和 OCR 识别文档
- 智能分类和标签管理
- 全文检索
- Web 界面管理
- API 接口支持
定制镜像特性
这个定制版本的 Docker 镜像在官方版本基础上增加了以下特性:
- 内置中文简体和繁体 OCR 支持
- 自动更新到最新版本
部署步骤
1. 环境准备
首先创建项目目录并下载必要的配置文件:
mkdir paperless-ngx
cd paperless-ngx
# 下载 compose 配置
wget -O compose.yaml https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/refs/heads/main/docker/compose/docker-compose.postgres-tika.yml
# 使用定制镜像
sed -i 's/ghcr.io\/paperless-ngx\/paperless-ngx:latest/liuweitao\/paperless-ngx:latest/g' compose.yaml
# 下载环境配置
wget https://raw.githubusercontent.com/liuweitao/DockerHub-AutoBuild/master/paperless-ngx/.env
wget https://raw.githubusercontent.com/liuweitao/DockerHub-AutoBuild/master/paperless-ngx/docker-compose.env
2. 配置说明
需要注意的关键配置项:
系统配置
PAPERLESS_URL
: 服务访问地址PAPERLESS_TIME_ZONE
: 时区设置USERMAP_UID
和USERMAP_GID
: 运行用户权限
OCR 配置
PAPERLESS_OCR_LANGUAGES
: 已安装的 OCR 语言包PAPERLESS_OCR_LANGUAGE
: 默认 OCR 识别语言
3. 启动服务
# 拉取镜像
docker compose pull
# 创建管理员账号
docker compose run --rm webserver createsuperuser
# 启动服务
docker compose up -d
系统使用
文档存储结构
系统包含以下重要目录:
data
: 数据库和索引文件存储media
: 文档处理后的存储位置export
: 文档导出目录consume
: 文档导入监控目录
文档处理流程
- 将文档放入
consume
目录 - 系统自动扫描并进行 OCR 识别
- 根据规则进行分类和标签添加
- 可通过 Web 界面查看和管理文档
最佳实践建议
1. 安全性考虑
- 建议使用 HTTPS 进行加密访问
- 配置反向代理保护服务
- 定期更新系统和镜像
2. 性能优化
- 为文档存储预留足够空间
- 根据需要调整 OCR 语言包
- 合理设置文档处理队列
3. 数据备份
- 定期备份数据库
- 备份重要的配置文件
- 考虑使用外部存储服务
结语
通过使用这个支持中文 OCR 的 Paperless-ngx Docker 镜像,我们可以快速部署一个功能完善的文档管理系统。系统的自动化程度高,维护简单,适合个人和小团队使用。