给小型 API 加可观测性:从 0 到 1 的轻量方案

不引入重型平台,也能把问题看清楚

Posted on 2026-02-06 · 后端开发

先把日志、延迟、错误率三件事做好,再谈复杂监控栈。

这篇文章记录我最近的真实实践,内容都来自最近几周的项目维护和日常开发。

我这次的做法

  • 结构化日志统一字段
  • 采集 P95 延迟和错误率
  • 按请求 ID 回放问题链路

可直接复用的检查项

# 先确认现状
# 再做最小变更
# 最后记录结果与回滚方案

如果你也在做类似工作,建议先建立最小流程,再逐步补充自动化和监控。