Spark Streaming 管理 Kafka 偏移量

前言

为了让 Spark Streaming 消费 kafka 的数据不丢数据，可以创建 Kafka Direct DStream，由 Spark Streaming 自己管理 offset，并不是存到 zookeeper。启用 Spark Streaming 的 checkpoints 是存储偏移量的最简单方法，因为它可以在 Spark 的框架内轻松获得。 checkpoints 将应用程序的状态保存到 HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming 应用程序可以从 checkpoints 偏移范围读取消息。但是，Spark Streaming checkpoints 在应用程序挂掉或者重启无法恢复，因此不是非常可靠，特别是如果您将此机制用于关键生产应用程序，另外，基于 zookeeper 的 offset 可视化工具将无法使用。我们不建议通过 Spark checkpoints 来管理偏移量。因此本文将手动存储 offset 到 zookeeper，完全自我掌控 offset。

从 ZK 获取 offset

创建 ZKClient，API 有好几个，最后用带序列化参数的，不然保存 offset 的时候容易出现乱码。


  val zkClient = new ZkClient("192.168.1.225:2181", 60000, 60000, new ZkSerializer {
	  override def serialize(data: Object): Array[Byte] = {
		try {
		  return data.toString().getBytes("UTF-8")
		} catch {
		  case e: ZkMarshallingError => return null
		}
	  }
	  override def deserialize(bytes: Array[Byte]): Object = {
		try {
		  return new String(bytes, "UTF-8")
		} catch {
		  case e: ZkMarshallingError => return null
		}
	  }
	})

查看该 groupId 在该 topic 下是否有消费记录，如果有，肯定在对应目录下会有分区数，children 大于 0 则有记录。


    val topicDirs = new ZKGroupTopicDirs(groupId, topic)
    val zkTopicPath = s"${topicDirs.consumerOffsetDir}"
    val topics = Set(topic)
    val children = zkClient.countChildren(s"${topicDirs.consumerOffsetDir}")

在有记录的情况下，去拿具体的 offset


 if (children > 0) {
      var fromOffsets: Map[TopicAndPartition, Long] = Map()
      //---get partition leader begin----
      val topicList = List(topic)
      val req = new TopicMetadataRequest(topicList, 0)
      //得到该topic的一些信息，比如broker,partition分布情况
      val getLeaderConsumer = new SimpleConsumer("192.168.1.225", 9092, 10000, 10000, "OffsetLookup")
      // brokerList的host 、brokerList的port、过期时间、过期时间
      val res = getLeaderConsumer.send(req)
      //TopicMetadataRequest   topic broker partition 的一些信息
      val topicMetaOption = res.topicsMetadata.headOption
      val partitions = topicMetaOption match {
        case Some(tm) =>
          tm.partitionsMetadata.map(pm => (pm.partitionId, pm.leader.get.host)).toMap[Int, String]
        case None =>
          Map[Int, String]()
      }
      for (i <- 0 until children) {
        val partitionOffset = zkClient.readData[String](s"${topicDirs.consumerOffsetDir}/${i}")
        val tp = TopicAndPartition(topic, i)
        //---additional begin-----
        val requestMin = OffsetRequest(Map(tp -> PartitionOffsetRequestInfo(OffsetRequest.EarliestTime, 1)))
        // -2,1
        val consumerMin = new SimpleConsumer(partitions(i), 9092, 10000, 10000, "getMinOffset")
        val curOffsets = consumerMin.getOffsetsBefore(requestMin).partitionErrorAndOffsets(tp).offsets
        var nextOffset = partitionOffset.toLong
        if (curOffsets.length > 0 && nextOffset < curOffsets.head) {
          //如果下一个offset小于当前的offset
          nextOffset = curOffsets.head
        }
        //---additional end-----
        fromOffsets += (tp -> nextOffset) //将不同 partition 对应的 offset 增加到 fromOffsets 中
      }//这个会将 kafka 的消息进行 transform，最终 kafak 的数据都会变成 (topic_name, message) 这样的 tuple
      val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.topic, mmd.message())

注意：在 zookeeper 里存储的 offset 有可能在 kafka 里过期了，所以要拿 kafka 最小的 offset 和 zookeeper 里的 offset 比较一下。

创建 DStream

接下来就可以创建 Kafka Direct DStream 了，前者是从 zookeeper 拿的 offset，后者是直接从最新的开始（第一次消费）。


      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)
    } else {
      kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)
    }

最后就是处理 RDD，保存 Offset。


    kafkaStream.foreachRDD(rdd => {
      if (!rdd.isEmpty) {
        doSomething....
		   saveOffset(path,edd)
      }
    })


  private def saveOffset(path:String,rdd: RDD[(String, String)]) = {
    val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    for (o <- offsetRanges) {
      ZkUtils.updatePersistentPath(zkClient, s"${path}/${o.partition}", String.valueOf(o.untilOffset))
    }
  }

Kafka 元数据管理

KIP-500 在 Kafka2.8 之前，Kafka 一直使用 Zookeeper1来存储和管理 Partition3和 Broker4的元数据。以及选举一个 Broker 作为 Kafka 控制器 Kafka 与 Zookeeper5 Kafka 移除 Zookeeper1的动机提高元数据管理的鲁棒性和可扩展性 ..

基于 Kafka 监听 DB 数据变更并同步副表与 ES 的办法

今天分享一个最近在业务开发中涉及使用到的很巧妙的小 tip。业务背景是有一张记录后台的 DB 主表，数据量达到百万级别。后台会涉及到一些字段筛选等，所以如果每次查询直接走 DB 的话会效率较慢。于是该业务采用的是当有用户或者后台运营进行数据变更时通过消息队列及时将 DB 变化及时同步至 ES。此刻有一个新的业务后台开 ..

零拷贝的原理

[图片] 概述如果学习过 Kafka 的小伙伴，想必对零拷贝技术并不陌生，Kafka 对 Producer 和 Consumer 能有这么快的处理能力，很大程度上就是依赖于对零拷贝的支持。零拷贝是什么呢？它和传统模式有什么区别呢？我们该如何用呢？接下来这篇文章将会就这些问题给您娓娓道来。传统方式在我们编写程 ..

zeebe 集成 kafka

[图片] zeebe 集成 kafka Apache Kafka 是一种高度可伸缩，具有弹性和持久性的事件总线。它可能用于高吞吐量消息传递，事件驱动的体系结构，作为事件存储或支持事件流体系结构。 zeebe 是云原生的工作流引擎，主要用于微服务编排在实际的工作中遇到了微服务编排和事件驱动架构设计等一系列问题。而 ze ..

基于 Kafka 的消息中间件的综述与使用示例 - 中间件结课小论文

[图片] 1.摘要本文简要概述了 Kafka 的由来，并详细说明了 Kafka 的架构和设计原则。在充分了解了 Kafka 相关原理的基础上，尝试使用虚拟机搭建了一个单机多实例的 Kafka 及其所需的 Zookeeper 集群。最后在已有集群基础上整合 Spring Boot,构建了一个简易的 Kafka 使用用例 ..

(运维篇)- 使用 docker 搭建 hadoop-hive-spark 集群 (一)

[图片] 一、安装 docker 1.1 使用 brew cask 安装由于是 Mac 系统，直接使用 brew 最为方便 brew cask install docker 1.2 镜像替换为加速镜像 [图片] 如上图得两个镜像地址，填入后，点击 apply&restart 重启 docker https:/ ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于