Skip to content

sparkstreaming集成kafka时的偏移量保存到Hbase\ZK\ES\mysql

Notifications You must be signed in to change notification settings

Hannibal22/sparkstreaming

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

1 wordcount.DirectKafkaWordCount :使用直连的方式,做一个workcount Demo
wordcount.ReceiveKafkaWordCount :使用receive的方式,做一个workcount Demo
wordcount.KafkaWordCountProducer:使用kafka,生产一些数据用于测试

2.偏移量的管理:
offsetmanage.StreamingWithCheckpoint :启用Spark Streaming的checkpoint是存储偏移量最简单的方法
offsetmanage.KafkaZKManager :将偏移量保存在ZK中
kafkautils.KafkaHbaseManager:将偏移量保存在hbase中

3.消息传递语义(Exactly-once)
semantic.KafkaOffsetIdempotent :幂等写入( idempotent writes),因为重复消费数据写入会被覆盖,所以可以确保Exactly-once
semantic.KafkaOffsetTransanction :事务控制,保存数据和offset在同一个事务里面
semantic.KafkaOffsetApp :自己实现Exactly-once,offset和数据绑定保存等
sparkandes.es.StreamingESForEachRDD :EasticSearch实现Exactly-once语义
sparkandes.es.StreamingESForDstream :EasticSearch实现Exactly-once语义
hbase.StreamingHbaseSingle:sparkStreaming实时消费数据,幂等写入hbase

4 utils.MyKafkaUtils :kafka工具类,解决kafka的保存的offset过期问题;createMyDirectKafkaStream创建连接,与保存偏移量等功能

6 kafka2kafka.MyKafkaProducer:作用就是,将KafkaProducer对象广播到所有的executor节点, 这样就可以在每个executor节点将数据插入到kafka

7 hbase.HbaseOnSpark:使用spark操作HBASE数据
sparkandes.es.app :spark与sparkstreaming操作es(读,写)

8 kafka2kafka.Kafka2KafkaPerBatch:Spark Streaming消费数据反写Kafka, 按照batch的方式
kafka2kafka.Kafka2KafkaPerPartition:Spark Streaming消费数据反写Kafka,按照partition的方式,可以提高效率

9 kafka2kafka.KafkaOffsetApp:验证kafka的offset越界
kafka2kafka.KafkaRate:数据峰值期间如何限速??限速参数:spark.streaming.kafka.maxRatePerPartition 每秒每个分区的记录数

10 phoenix :spark整合phoenix

11 mergefile.FilesManage :合并小文件

About

sparkstreaming集成kafka时的偏移量保存到Hbase\ZK\ES\mysql

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published