先把日志、延迟、错误率三件事做好,再谈复杂监控栈。
这篇文章记录我最近的真实实践,内容都来自最近几周的项目维护和日常开发。
我这次的做法
- 结构化日志统一字段
- 采集 P95 延迟和错误率
- 按请求 ID 回放问题链路
可直接复用的检查项
# 先确认现状
# 再做最小变更
# 最后记录结果与回滚方案如果你也在做类似工作,建议先建立最小流程,再逐步补充自动化和监控。
先把日志、延迟、错误率三件事做好,再谈复杂监控栈。
这篇文章记录我最近的真实实践,内容都来自最近几周的项目维护和日常开发。
# 先确认现状
# 再做最小变更
# 最后记录结果与回滚方案如果你也在做类似工作,建议先建立最小流程,再逐步补充自动化和监控。