消息队列系列（三）：Kafka 百万级吞吐揭秘

前言：Apache Kafka 是一个分布式流处理平台。它最初由 LinkedIn 开发，用于处理海量的日志数据。它的核心标签是 高吞吐、持久化 和 水平扩展。

一、为什么 Kafka 这么快？

Kafka 能达到单机百万级 QPS，主要归功于以下设计：

1. 磁盘顺序写 (Sequential I/O)

原理：磁盘随机读写的性能很差（寻道时间长），但顺序读写的性能接近内存。
实现：Kafka 的消息是不断追加（Append-only）到日志文件末尾的，极大提升了写入速度。

2. 零拷贝 (Zero-Copy)

原理：传统网络传输需要将数据从磁盘 -> 内核态 -> 用户态 -> 内核态 -> 网卡，涉及多次上下文切换和内存拷贝。
实现：Kafka 使用 Linux 的 sendfile 系统调用，直接将数据从磁盘文件通道（FileChannel）传送到 Socket 通道，数据不经过用户态，减少了拷贝次数。

3. 批量发送 (Batching)

Kafka 客户端不会每条消息都发网络请求，而是将多条消息攒成一个 Batch，一次性发送，减少网络开销。
关键参数：batch.size (批次大小) 和 linger.ms (等待时间)。

二、核心架构：Partition 与 Log

1. Topic 与 Partition

Topic：逻辑上的消息集合。
Partition：物理上的存储单元。一个 Topic 可以分为多个 Partition，分布在不同的 Broker 上。
并行度：Partition 是 Kafka 并行的最小单位。Consumer Group 中的消费者数量不能超过 Partition 数量，否则多余的消费者会闲置。

2. Segment (段)

每个 Partition 又被物理分割成多个 Segment 文件（.log 和 .index）。这使得 Kafka 可以方便地删除过期的消息（直接删除旧的 Segment 文件）。
稀疏索引：Kafka 的索引文件不是为每条消息建立索引，而是每隔几 KB 建立一个索引点，查询时先定位到大概位置，再顺序扫描。这也是为了减少索引文件大小。

三、高可用机制：ISR 与 Ack

Kafka 通过副本（Replica）机制保证高可用。

1. AR, ISR, OSR

AR (Assigned Replicas)：所有的副本。
ISR (In-Sync Replicas)：与 Leader 保持同步的副本集合。只有 ISR 中的副本才有资格被选为 Leader。
OSR (Out-of-Sync Replicas)：落后太多的副本。
判定标准：replica.lag.time.max.ms。如果 Follower 在规定时间内没有向 Leader 发送 Fetch 请求，或者没追上 Leader 的 LEO，就会被踢出 ISR。

2. HW 与 LEO

LEO (Log End Offset)：日志末端位移，记录下一条消息写入的位置。
HW (High Watermark)：高水位。只有被 ISR 中所有副本都同步了的消息（即 HW 之前的消息）才对消费者可见。

3. 生产者的 `acks` 配置

这是保证数据不丢失的关键配置：

acks=0：发完就完事，不等待 Broker 确认。最快，但最不可靠。
acks=1 (默认)：Leader 写入成功就返回确认。如果 Leader 刚写完还没同步给 Follower 就挂了，消息会丢。
acks=all (或 -1)：Leader 等待 ISR 中所有副本都写入成功才返回确认。最可靠，但最慢。
- 配合参数：min.insync.replicas=2。如果 ISR 数量少于 2，则拒绝写入，保证数据至少落盘到 2 个节点。

四、消费模型：Consumer Group

1. 消费者组 (Consumer Group)

Kafka 的独创设计。一个 Topic 的消息会被均匀分发给 Group 内的消费者。
Pub/Sub 模式：每个 Consumer Group 都能收到全量消息（Group 之间独立）。
Queue 模式：Group 内的消费者瓜分消息（Group 内互斥）。

2. Rebalance (重平衡)

当消费者加入/退出，或者 Partition 数量变化时，Kafka 会触发 Rebalance，重新分配 Partition 给消费者。
注意：Rebalance 期间 Consumer 会停止消费（Stop the world），应尽量避免频繁 Rebalance。
策略：
- Range (默认)：按范围分，容易导致数据倾斜。
- RoundRobin：轮询分，更均匀。
- Sticky：粘性分配，尽量保持之前的分配不变，减少开销。

3. 精确一次性 (Exactly Once)

Kafka 0.11+ 引入了幂等性 Producer 和事务。

幂等性 Producer：enable.idempotence=true。保证单分区内消息不重复、不乱序。
事务 (Transaction)：保证多条消息（跨分区）要么全部发送成功，要么全部失败。

五、常用命令速查

Kafka 的命令行工具非常强大，运维必会。

CodeBlock Loading...

六、关键配置清单

参数	作用	建议值
`num.partitions`	Partition 数量	根据吞吐量预估，通常 >= Broker 数
`default.replication.factor`	默认副本数	生产环境建议 3
`min.insync.replicas`	最小 ISR 数量	建议 2 (配合 acks=all 保证不丢数据)
`log.retention.hours`	消息保留时间	默认 168 (7天)
`auto.offset.reset`	无 Offset 时的策略	`earliest` (从头读) 或 `latest` (读最新的)
`enable.auto.commit`	自动提交 Offset	生产建议 `false` (手动提交)

前言：Apache Kafka 是一个分布式流处理平台。它最初由 LinkedIn 开发，用于处理海量的日志数据。它的核心标签是 高吞吐、持久化 和 水平扩展。

一、为什么 Kafka 这么快？

Kafka 能达到单机百万级 QPS，主要归功于以下设计：

1. 磁盘顺序写 (Sequential I/O)

原理：磁盘随机读写的性能很差（寻道时间长），但顺序读写的性能接近内存。
实现：Kafka 的消息是不断追加（Append-only）到日志文件末尾的，极大提升了写入速度。

2. 零拷贝 (Zero-Copy)

原理：传统网络传输需要将数据从磁盘 -> 内核态 -> 用户态 -> 内核态 -> 网卡，涉及多次上下文切换和内存拷贝。
实现：Kafka 使用 Linux 的 sendfile 系统调用，直接将数据从磁盘文件通道（FileChannel）传送到 Socket 通道，数据不经过用户态，减少了拷贝次数。

3. 批量发送 (Batching)

Kafka 客户端不会每条消息都发网络请求，而是将多条消息攒成一个 Batch，一次性发送，减少网络开销。
关键参数：batch.size (批次大小) 和 linger.ms (等待时间)。

二、核心架构：Partition 与 Log

1. Topic 与 Partition

Topic：逻辑上的消息集合。
Partition：物理上的存储单元。一个 Topic 可以分为多个 Partition，分布在不同的 Broker 上。
并行度：Partition 是 Kafka 并行的最小单位。Consumer Group 中的消费者数量不能超过 Partition 数量，否则多余的消费者会闲置。

2. Segment (段)

每个 Partition 又被物理分割成多个 Segment 文件（.log 和 .index）。这使得 Kafka 可以方便地删除过期的消息（直接删除旧的 Segment 文件）。
稀疏索引：Kafka 的索引文件不是为每条消息建立索引，而是每隔几 KB 建立一个索引点，查询时先定位到大概位置，再顺序扫描。这也是为了减少索引文件大小。

三、高可用机制：ISR 与 Ack

Kafka 通过副本（Replica）机制保证高可用。

1. AR, ISR, OSR

AR (Assigned Replicas)：所有的副本。
ISR (In-Sync Replicas)：与 Leader 保持同步的副本集合。只有 ISR 中的副本才有资格被选为 Leader。
OSR (Out-of-Sync Replicas)：落后太多的副本。
判定标准：replica.lag.time.max.ms。如果 Follower 在规定时间内没有向 Leader 发送 Fetch 请求，或者没追上 Leader 的 LEO，就会被踢出 ISR。

2. HW 与 LEO

LEO (Log End Offset)：日志末端位移，记录下一条消息写入的位置。
HW (High Watermark)：高水位。只有被 ISR 中所有副本都同步了的消息（即 HW 之前的消息）才对消费者可见。

3. 生产者的 `acks` 配置

这是保证数据不丢失的关键配置：

acks=0：发完就完事，不等待 Broker 确认。最快，但最不可靠。
acks=1 (默认)：Leader 写入成功就返回确认。如果 Leader 刚写完还没同步给 Follower 就挂了，消息会丢。
acks=all (或 -1)：Leader 等待 ISR 中所有副本都写入成功才返回确认。最可靠，但最慢。
- 配合参数：min.insync.replicas=2。如果 ISR 数量少于 2，则拒绝写入，保证数据至少落盘到 2 个节点。

四、消费模型：Consumer Group

1. 消费者组 (Consumer Group)

Kafka 的独创设计。一个 Topic 的消息会被均匀分发给 Group 内的消费者。
Pub/Sub 模式：每个 Consumer Group 都能收到全量消息（Group 之间独立）。
Queue 模式：Group 内的消费者瓜分消息（Group 内互斥）。

2. Rebalance (重平衡)

当消费者加入/退出，或者 Partition 数量变化时，Kafka 会触发 Rebalance，重新分配 Partition 给消费者。
注意：Rebalance 期间 Consumer 会停止消费（Stop the world），应尽量避免频繁 Rebalance。
策略：
- Range (默认)：按范围分，容易导致数据倾斜。
- RoundRobin：轮询分，更均匀。
- Sticky：粘性分配，尽量保持之前的分配不变，减少开销。

3. 精确一次性 (Exactly Once)

Kafka 0.11+ 引入了幂等性 Producer 和事务。

幂等性 Producer：enable.idempotence=true。保证单分区内消息不重复、不乱序。
事务 (Transaction)：保证多条消息（跨分区）要么全部发送成功，要么全部失败。

五、常用命令速查

Kafka 的命令行工具非常强大，运维必会。

# 1. 创建 Topic
kafka-topics.sh --create --bootstrap-server localhost:9092 \
  --replication-factor 3 \
  --partitions 3 \
  --topic my-topic

# 2. 查看 Topic 详情 (ISR, Leader 分布)
kafka-topics.sh --describe --bootstrap-server localhost:9092 --topic my-topic

# 3. 生产者 (控制台)
kafka-console-producer.sh --bootstrap-server localhost:9092 --topic my-topic

# 4. 消费者 (控制台)
kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic my-topic --from-beginning

# 5. 查看消费者组 Offset 情况 (Lag 积压量)
kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group my-group

CodeBlock Loading...

六、关键配置清单

参数	作用	建议值
`num.partitions`	Partition 数量	根据吞吐量预估，通常 >= Broker 数
`default.replication.factor`	默认副本数	生产环境建议 3
`min.insync.replicas`	最小 ISR 数量	建议 2 (配合 acks=all 保证不丢数据)
`log.retention.hours`	消息保留时间	默认 168 (7天)
`auto.offset.reset`	无 Offset 时的策略	`earliest` (从头读) 或 `latest` (读最新的)
`enable.auto.commit`	自动提交 Offset	生产建议 `false` (手动提交)

消息队列系列（三）：Kafka 百万级吞吐揭秘

一、 为什么 Kafka 这么快？

1. 磁盘顺序写 (Sequential I/O)

2. 零拷贝 (Zero-Copy)

3. 批量发送 (Batching)

二、 核心架构：Partition 与 Log

1. Topic 与 Partition

2. Segment (段)

三、 高可用机制：ISR 与 Ack

1. AR, ISR, OSR

2. HW 与 LEO

3. 生产者的 acks 配置

四、 消费模型：Consumer Group

1. 消费者组 (Consumer Group)

2. Rebalance (重平衡)

3. 精确一次性 (Exactly Once)

五、 常用命令速查

六、 关键配置清单

一、 为什么 Kafka 这么快？

1. 磁盘顺序写 (Sequential I/O)

2. 零拷贝 (Zero-Copy)

3. 批量发送 (Batching)

二、 核心架构：Partition 与 Log

1. Topic 与 Partition

2. Segment (段)

三、 高可用机制：ISR 与 Ack

1. AR, ISR, OSR

2. HW 与 LEO

3. 生产者的 acks 配置

四、 消费模型：Consumer Group

1. 消费者组 (Consumer Group)

2. Rebalance (重平衡)

3. 精确一次性 (Exactly Once)

五、 常用命令速查

六、 关键配置清单

一、为什么 Kafka 这么快？

二、核心架构：Partition 与 Log

三、高可用机制：ISR 与 Ack

3. 生产者的 `acks` 配置

四、消费模型：Consumer Group

五、常用命令速查

六、关键配置清单

一、为什么 Kafka 这么快？

二、核心架构：Partition 与 Log

三、高可用机制：ISR 与 Ack

3. 生产者的 `acks` 配置

四、消费模型：Consumer Group

五、常用命令速查

六、关键配置清单