工程与可观测 · StackSense

写完代码只是上半场，让它在生产环境稳定跑才是下半场：容器、K8s、Prometheus、OpenTelemetry、SLO。这个模块的目标是让你能独立把一个服务部署到集群、能定义合理的 SLI / SLO、能在凌晨三点根据四个黄金信号和调用链定位到出问题的那一行代码。

学完后你应该能回答

你要给一个延迟敏感的 API 定义 SLO，选 p99 还是 p999？错误预算（error budget）用完后团队应该做什么？
四个黄金信号（latency / traffic / errors / saturation）对应到 Prometheus，你会用哪些 metric 类型（counter / gauge / histogram）去表达？
Multi-window multi-burn-rate SLO 告警是怎么组合的？为什么单 burn rate 会出现假警报？
Error budget 用完后”冻结功能开发”在工程文化上怎么落地？什么情况下可以例外？
histogram_quantile 在 Prometheus 里什么时候会骗你？和 summary 各适合什么场景？

OpenTelemetry 里 trace、metric、log 的 context 是怎么关联的？看到一条错误日志，如何跳到对应的 trace？
OpenTelemetry Collector 的 receiver / processor / exporter 管道，典型生产部署长什么样？
分布式追踪的采样策略（head-based vs tail-based）如何选？尾采样的工程复杂度主要在哪？
日志走 Loki、追踪走 Tempo、指标走 Prometheus，在”一个 trace id 跳到日志和指标”时用的是哪些 label / attribute 约定？
Continuous profiling（pprof / Parca / Pyroscope）作为第四根支柱，和传统 metric/log/trace 互补在哪？

容器与镜像

基于 namespace + cgroup 的进程隔离，镜像是只读层的堆叠。先搞清楚容器不是虚拟机。
K8s 调度

scheduler 根据 node 资源、亲和性、taint / toleration 把 Pod 绑到 Node。面试和排障绕不开。
资源请求与限制

requests 决定调度和 QoS 级别，limits 决定 cgroup 上限。OOMKilled 多半是这里配错。
Service / Ingress

Service 提供集群内稳定 VIP 和负载均衡，Ingress 处理 L7 入口。理解 kube-proxy 才能排网络问题。
Trace / Metric / Log

可观测性三支柱。Metric 回答「有没有事」，Log 回答「是什么事」，Trace 回答「在哪一环出的事」。
SLI / SLO / SLA

指标、目标、合约三层。错误预算是工程和产品平衡速度与稳定性的共同语言。
发布与回滚

Deployment 提供滚动更新和回滚。配合 readinessProbe、PDB 才是真·安全发布。
四个黄金信号

Latency / Traffic / Errors / Saturation。任何服务的监控面板都该从这四个开始。

K8s 部署玩具服务

从零写 Deployment + Service + Ingress，本地用 kind 或 minikube 跑通。
本地 Prometheus + Grafana

给玩具服务加 /metrics，写第一个 PromQL 告警规则，做一个 latency + QPS 的 Grafana 面板。
接入 OpenTelemetry

在服务里埋点 trace 和 metric，用 OTLP 导到 collector。体会 propagation 和 context 传递。
Helm chart 打包

把手写 yaml 改成 Helm chart，理解 values、template、release 三层模型。
Jaeger 追踪调用链

部署一个多服务 demo，在 Jaeger UI 里看到跨服务的 trace tree，学会定位慢 span。