kafka在大数据技术生态当中,以作为消息系统而闻名,面对活跃的流式数据,提供高吞吐量的服务,在实时大数据处理场景下,可以说是一大利器,国内外大厂都有应用。今天的大数据开发技术分享,我们就主要来讲讲kafka框架的工作原理。
kafka概述
官方定义,kakfa是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据的实时处理领域。
通常来说,消息队列的模式分为两种:
①点对点模式:消息生产者发送消息到消息队列中,然后消息消费者从队列中取出并且消费消息,消息被消费后,队列中不在存储。
②发布/订阅模式(一对多,消费者消费数据之后不会清除消息):消息生产者将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。
kafka就是典型的发布/订阅模式,更加适用于实时大数据场景下的消息服务。
kafka基础架构
kafka的基础架构主要有broker、生产者、消费者组构成,当前还包括zookeeper。
生产者负责发送消息,broker负责缓冲消息,broker中可以创建topic,每个topic又有partition和replication的概念。
消费者组负责处理消息,同一个消费者组的消费者不能消费同一个partition中的数据。
消费者组主要是提高消费能力,比如之前是一个消费者消费100条数据,现在是2个消费者消费100条数据,可以提高消费能力。
所以消费者组的消费者的个数要小于partition的个数,不然就会有消费者没有partition可以消费,造成资源的浪费。
注意:不同消费者组的消费者是可以消费相同的partition数据。
kakfa如果要组件集群,则只需要注册到一个zookeeper中就可以了,zookeeper中还保留消息消费的进度或者说偏移量或者消费位置:
0.9之前的版本偏移量存储在zookeeper。
0.9之后的版本偏移量存储在kafka中。kafka定义了一个系统topic,专用用来存储偏移量的数据。这样做主要是考虑到频繁更改偏移量,对zookeeper的压力较大,而且kafka本身自己的处理也较复杂。
kafka不能保证消息的全局有序,只能保证消息在partition内有序,因为消费者消费消息是在不同的partition中随机的。
kafka工作流程
kafka中的消息是以topic进行分类的,生产者生成消息、消费者消费消息都面向topic。
topic是一个逻辑上的概念,而partition是物理上的概念。每个partition又有副本的概念。
每个partition对应于一个log文件,该log文件中存储的就是生产者生成的数据,生产者生成的数据会不断的追加到该log的文件末端。
且每条数据都有自己的offset,消费者都会实时记录自己消费到了那个offset,以便出错的时候从上次的位置继续消费,这个offset就保存在index文件中。
kafka的offset是分区内有序的,但是在不同分区中是无顺序的,kafka不保证数据的全局有序。
关于大数据开发,kafka工作原理入门,以上就为大家做了简单的介绍了。kafka在大数据技术生态当中,普及度是非常高的,尤其是拥有丰富数据资源的企业,更加青睐于使用kafka。
国际电工委最新标准动态,它都发布将会带来哪些影响
AI驱动应用创新,携手开发者共建创新未来
【虹科】质量问题能否发生在AOI过程之外?
电磁兼容三要素的哲学思辨
华为荣耀5C和畅享7plus哪个好?进来绝对都是“干货”
Kafka框架的工作原理及工作流程
微软今日正式发布 Viva 工作平台 押注远程办公
如何进行PCB抄板需要注意哪些事项
怎样的区块链监管才是理想的
汽车电子市场发展:PKE和NFC为汽车注入新活力
新一代iPad Pro曝光:三星电子计划明年发布首款Mini LED电视
iPad Pro的Mini-LED 显示屏将在2021年上半年推出
NVIDIA助力云骥智行加速L4级自动驾驶的大规模量产落地
什么是击穿?介电常数是什么意思?什么是电磁感应?
如何使用手机充电器作电源给挂钟加装一个光控LED照明灯
半导体巨头英特尔股价下跌再次引发关注
两、三年内, 5G 能带给我们带来什么新应用?
量化派AI应用平台可以带来什么好处
千视受邀参加AV/IT 2022高峰论坛 探讨“新”视听行业的创新与发展
sata接口分几种_sata接口分类