Alloy on OHTLY Blog

自建 PostgreSQL 可观测性：Prometheus 指标 + Loki 日志告警方案

Fri, 29 May 2026 20:21:07 +0800

前言链接到标题

PostgreSQL 是生产环境最常用的关系型数据库之一。当服务挂了、连接爆了、死锁了，需要第一时间感知。

单纯靠 Prometheus 指标可以告诉你「连接数超了」，但说不出原因；单纯靠日志可以告诉你「too many connections」，但没有量化趋势。

本文的方案是 指标 + 日志协同监控，形成完整可观测性闭环：

指标告警 → 感知异常（量变）
日志告警 → 定位根因（质变）
统一通知 → 飞书即时推送

graph TD PG[PostgreSQL 17
monkey:5432] --> PE[postgres-exporter
monkey:9187] PE --> PM[Prometheus
robin:9090] PM --> AM[Alertmanager
robin:9093] PG -->|Docker logs| AL[Alloy
monkey:12346] AL --> LK[Loki
robin:3100] LK -->|Loki Ruler LogQL| AM AM --> AT[alert-transformer
robin:9091] AT --> OC[OpenClaw
rivo:18789] OC --> FS[飞书] subgraph 指标路径 PE PM end subgraph 日志路径 AL LK end subgraph 通知路径 AM AT OC FS end

两条路径独立采集、独立告警，最终汇总到同一个通知链路。

Windmill 日志监控：Alloy + Loki Ruler 告警实战

Fri, 29 May 2026 18:20:00 +0800

前一篇介绍了用 Alloy + Loki 给 CouchDB 做日志告警。这篇文章是同一套路在 Windmill 上的应用。

Windmill 是一个工作流调度平台，由多个 Docker 容器组成：server（API 服务）、worker（任务执行）、worker_gpu（GPU 任务）。这些容器的日志里包含各种运行错误——

API Token 权限不足
S3 存储配置丢失
Worker 执行异常

它们不会体现在 Prometheus 指标上，只有查看容器日志才能发现。需要一套日志级的告警来及时发现。

CouchDB 日志监控：Alloy + Loki Ruler 告警

Fri, 29 May 2026 17:57:00 +0800

上篇《用 Prometheus 监控 Docker CouchDB 实例》介绍了用 couchdb-exporter 采集 CouchDB 的运行指标（存活状态、连接数等），通过 Prometheus + Alertmanager 实现指标级告警。

但这个方案有一个盲区：CouchDB 的 Erlang 进程错误不会体现在 Prometheus 指标上。比如 _users 数据库缺失导致的持续报错，exporter 的指标一切正常，只有 docker logs 才能看到 [error]。需要一个日志级别的告警渠道来填补这个空白。

Alloy on OHTLY Blog

自建 PostgreSQL 可观测性：Prometheus 指标 + Loki 日志告警方案

前言 链接到标题

架构 链接到标题

Windmill 日志监控：Alloy + Loki Ruler 告警实战

CouchDB 日志监控：Alloy + Loki Ruler 告警

前言链接到标题

架构链接到标题