Kafka集群架构模型与原理解析

一、Kafka集群架构模型与原理解析

1.Kafka简介
（1）Kafka是Linkedin开源的分布式消息系统，目前归属于Apache顶级开源项目
（2）Kafka基于Pull模式来处理消息消费，追求高吞吐量，最开始是用于日志收集和传输
（3）0.8版本开始支持复制，不支持事务，对消息的重复、丢失、错误等，没有严格的要求，适用于产生大量数据的互联网服务的的数据收集

2.Kafa优势
（1）分布式
（2）跨平台
（3）超强数据堆积能力
（4）实时性
（5）水平扩展性

3.Kafka性能优异的原因
（1）顺序写，Page Catch，高效读写
生产者—>生产消息—>broker—>消费者—>消费消息—>记录消费位置，不会删除数据。
这种模式，消息写入磁盘的是顺序写入的，不会随机写入，这样就提升了Kafka消息的读写性能。
（2）高吞吐量
（3）后台异步IO将连续的磁盘小块组成大块的物理文件，主动Flush
（4）预读策略IO调度

4.Kafka高性能核心pageCache与zeroCopy
（1）pageCache
a.传统磁盘文件读取过程图