前八章讲的都是概念、Lab 和工具链;最后留一份清单:分布式系统、Data、AI、CUDA 这四个方向里最值得读源码的项目。挑一两个你最想理解的方向,先读 README 和 design doc,再钻进 src 看核心数据结构和热路径——读工业级源码比看博客密度高一个数量级。这里只列代表作,不求全。
分布式系统
-
Raft + KV,K8s 控制面的依赖。学 Raft 工程化实现的最佳样本,Go 写的,代码量适中。
-
分布式事务 KV,Multi-Raft + Percolator。Rust 写的工业级共识 + 事务工程参考。
-
分布式 SQL,serializable 隔离 + HLC 时钟。Go 写的开源 NewSQL 代表作。
-
苹果的分布式 KV,确定性模拟测试是其工程亮点。读 simulation framework 比读引擎本身更值。
-
兼容 Postgres / Cassandra 的分布式 SQL,C++ 实现。
-
C++ 重写的 Cassandra,shard-per-core + Seastar 框架,性能工程的范本。
-
Dynamo 模型的 wide-column 数据库,最终一致性派的代表。
-
ZAB 协议,老一代分布式协调服务。Kafka / HBase 老版本依赖它。
-
HashiCorp 的服务发现 + KV,多数据中心首选。Go 写的 Raft 实现也很值得读。
-
简洁的调度器,K8s 之外另一种思路。代码量比 K8s 小一个数量级,适合通读。
Data
存储引擎
-
LSM-tree 工业标准。TiKV、CockroachDB、Kafka Streams、Flink 状态后端都内嵌或参考它。
-
Google 的 LSM 原型,比 RocksDB 干净。读源码入门 LSM 的首选。
消息 / 流
-
分布式日志事实标准,分区 + ISR 副本协议是必读。
-
计算 / 存储分离的下一代消息系统,BookKeeper 提供日志层。
-
C++ 重写的 Kafka 兼容系统,Seastar + thread-per-core 架构。
-
极简云原生消息队列,Go 写得很优雅。
OLAP / 查询引擎
-
列存 OLAP 标杆,向量化执行 + 物化视图,C++ 性能工程教科书。
-
嵌入式 OLAP,“OLAP 界的 SQLite”。代码量小、工程优雅,适合通读。
-
Doris fork,C++ 引擎重写,MPP OLAP 性能激进。
-
MPP OLAP,国内开源代表。
-
时序 / 实时 OLAP 老牌,分段存储 + 倒排索引。
-
Presto fork,联邦查询引擎事实标准。
-
Rust + Arrow-native 查询引擎,现代 OLAP 引擎的”乐高积木”。
-
Meta 的 C++ 执行引擎,被 Presto / Spark 接入。
-
列式内存格式 + 跨语言计算库,整个现代数据栈的内存层。
Lakehouse / Table Format
-
表格式标准,schema evolution、time travel、partition evolution。
-
Databricks 的 ACID 表层,事务日志 + Parquet。
-
增量数据湖,COW / MOR 两种存储模式。
计算
-
大数据计算事实标准,RDD / DataFrame / Catalyst 三层值得分别读。
-
流处理标杆,exactly-once、state backend、checkpoint 算法都是工业级参考。
-
分布式 Python 计算 + AI workload 编排,object store + scheduler 设计精彩。
编排
-
DAG 调度老大哥,Python 写的工作流编排。
-
以数据资产为中心的编排,类型系统 + asset graph 思路新颖。
-
持久化 workflow,event-sourcing + replay 模型,Cadence 的演进。
AI
训练 / 框架
-
事实标准框架。autograd、ATen、Inductor、Distributed 各模块都有独立读法。
-
函数式自动微分 + XLA,Google 系研究首选。pmap / pjit / shard_map 是分布式范式。
-
微软的大模型训练优化,ZeRO 三个 stage 的实现是必读。
-
NVIDIA 的张量并行 + 流水并行参考实现,大模型训练的工程模板。
-
PyTorch 原生 4D 并行参考实现,DTensor + FSDP2 的最简洁示例。
-
潞晨开源的并行训练系统,覆盖各种并行策略。
推理 / 服务
-
PagedAttention 发源地,LLM 推理事实标准。continuous batching + KV cache 设计必读。
-
RadixAttention + 调度优化,结构化生成和 prefix sharing 的前沿。
-
NVIDIA 的 LLM 推理 SDK,融合 kernel 和 in-flight batching 实现细节丰富。
-
C++ 端侧推理,量化 / GGML / CPU SIMD 优化的范本。
-
NVIDIA 多框架推理服务,dynamic batching + ensemble 模型。
-
微软的跨硬件推理运行时,graph optimization + execution provider 模式。
分布式 / 通信
-
NVIDIA 的 GPU 集体通信库,all-reduce / all-gather / NVLink 拓扑感知是地基。
-
Uber 开源的 ring all-reduce 训练框架,分布式 SGD 的早期范本。
-
DeepSeek 的 MoE 通信库,Expert Parallel 的高性能 all-to-all 实现。
向量 / 检索
-
Meta 的向量索引库,IVF / HNSW / PQ 等算法的工业实现。
-
工业级向量数据库,存算分离架构。
-
Rust 写的向量数据库,filter + ANN 联合优化。
CUDA / GPU Kernel
-
NVIDIA 官方 GEMM 模板库,CuTe 是其新一代抽象。写高性能 kernel 必读。
-
Tri Dao 的注意力 kernel,I/O-aware 优化范本。Transformer 推理 / 训练都在用。
-
LLM 推理专用 attention kernel 库,paged KV / prefill / decode 各场景特化。
-
Python 写 GPU kernel 的 DSL,PyTorch Inductor 的后端,写自定义 kernel 的首选。
-
跨硬件深度学习编译器,IR + auto-scheduling。
-
多层中间表示,编译器界的统一基石。Triton / IREE / TensorFlow 都建在上面。
-
Stanford 的 GPU kernel DSL,专攻 H100 / WGMMA,几百行写出 SOTA kernel。
-
GPU 上的容器 / 数据结构库,hash map / multimap 等。
-
NVIDIA 的 PGAS 通信库,GPU 间直接 put/get,跳过 CPU。