麻烦路过的各位亲给这个项目点个 star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧!
2019/06/08 新增 Flink 四本电子书籍的 PDF,在 books 目录下:
-
Introduction_to_Apache_Flink_book.pdf 这本书比较薄,处于介绍阶段,国内有这本的翻译书籍
-
Learning Apache Flink.pdf 这本书比较基础,初学的话可以多看看
-
Stream Processing with Apache Flink.pdf 这本书是 Flink PMC 写的
-
Streaming System.pdf 这本书评价不是一般的高
2019/06/09 新增流处理引擎相关的 Paper,在 paper 目录下:
1、Flink 从0到1学习 —— Apache Flink 介绍
2、Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门
3、Flink 从0到1学习 —— Flink 配置文件详解
4、Flink 从0到1学习 —— Data Source 介绍
5、Flink 从0到1学习 —— 如何自定义 Data Source ?
6、Flink 从0到1学习 —— Data Sink 介绍
7、Flink 从0到1学习 —— 如何自定义 Data Sink ?
8、Flink 从0到1学习 —— Flink Data transformation(转换)
9、Flink 从0到1学习 —— 介绍 Flink 中的 Stream Windows
10、Flink 从0到1学习 —— Flink 中的几种 Time 详解
11、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 ElasticSearch
12、Flink 从0到1学习 —— Flink 项目如何运行?
13、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Kafka
14、Flink 从0到1学习 —— Flink JobManager 高可用性配置
15、Flink 从0到1学习 —— Flink parallelism 和 Slot 介绍
16、Flink 从0到1学习 —— Flink 读取 Kafka 数据批量写入到 MySQL
17、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 RabbitMQ
18、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 HBase
19、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 HDFS
20、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Redis
21、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Cassandra
22、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 Flume
23、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 InfluxDB
24、Flink 从0到1学习 —— Flink 读取 Kafka 数据写入到 RocketMQ
25、Flink 从0到1学习 —— 你上传的 jar 包藏到哪里去了
26、Flink 从0到1学习 —— 你的 Flink job 日志跑到哪里去了
另外我自己整理了些 Flink 的学习资料,目前已经全部放到微信公众号了。 你可以加我的微信:zhisheng_tian,然后回复关键字:Flink 即可无条件获取到,转载请联系本人获取授权,违者必究。
更多私密资料请加入知识星球!
有人要问知识星球里面更新什么内容?值得加入吗?
目前知识星球内已更新的系列文章:
4、Flink 源码解析 —— standalonesession 模式启动流程
5、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动
6、Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Task Manager 启动
7、Flink 源码解析 —— 分析 Batch WordCount 程序的执行过程
8、Flink 源码解析 —— 分析 Streaming WordCount 程序的执行过程
9、Flink 源码解析 —— 如何获取 JobGraph?
10、Flink 源码解析 —— 如何获取 StreamGraph?
11、Flink 源码解析 —— Flink JobManager 有什么作用?
12、Flink 源码解析 —— Flink TaskManager 有什么作用?
13、Flink 源码解析 —— JobManager 处理 SubmitJob 的过程
14、Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程
15、Flink 源码解析 —— 深度解析 Flink Checkpoint 机制
16、Flink 源码解析 —— 深度解析 Flink 序列化机制
17、Flink 源码解析 —— 深度解析 Flink 是如何管理好内存的?
除了《从1到100深入学习Flink》源码学习这个系列文章,《从0到1学习Flink》的案例文章也会优先在知识星球更新,让大家先通过一些 demo 学习 Flink,再去深入源码学习!
如果学习 Flink 的过程中,遇到什么问题,可以在里面提问,我会优先解答,这里做个抱歉,自己平时工作也挺忙,微信的问题不能做全部做一些解答, 但肯定会优先回复给知识星球的付费用户的,庆幸的是现在星球里的活跃氛围还是可以的,有不少问题通过提问和解答的方式沉淀了下来。
1、为何我使用 ValueState 保存状态 Job 恢复是状态没恢复?
2、flink中watermark究竟是如何生成的,生成的规则是什么,怎么用来处理乱序数据
3、消费kafka数据的时候,如果遇到了脏数据,或者是不符合规则的数据等等怎么处理呢?
4、在Kafka 集群中怎么指定读取/写入数据到指定broker或从指定broker的offset开始消费?
6、jobmanager挂掉后,提交的job怎么不经过手动重新提交执行?
8、通过flink 仪表盘提交的jar 是存储在哪个目录下?
9、从Kafka消费数据进行etl清洗,把结果写入hdfs映射成hive表,压缩格式、hive直接能够读取flink写出的文件、按照文件大小或者时间滚动生成文件
11、flink 启动时不自动创建 上传jar的路径,能指定一个创建好的目录吗
12、Flink sink to es 集群上报 slot 不够,单机跑是好的,为什么?
13、Fllink to elasticsearch如何创建索引文档期时间戳?
14、blink有没有api文档或者demo,是否建议blink用于生产环境。
16、Flink VS Spark Streaming VS Storm VS Kafka Stream
17、你们做实时大屏的技术架构是什么样子的?flume→kafka→flink→redis,然后后端去redis里面捞数据,酱紫可行吗?
18、做一个统计指标的时候,需要在Flink的计算过程中多次读写redis,感觉好怪,星主有没有好的方案?
19、Flink 使用场景大分析,列举了很多的常用场景,可以好好参考一下
20、将kafka中数据sink到mysql时,metadata的数据为空,导入mysql数据不成功???
22、flink on yarn jobmanager的HA需要怎么配置。还是说yarn给管理了
25、不采用yarm部署flink,还有其他的方案吗? 主要想解决服务器重启后,flink服务怎么自动拉起? jobmanager挂掉后,提交的job怎么不经过手动重新提交执行?
26、在一个 Job 里将同份数据昨晚清洗操作后,sink 到后端多个地方(看业务需求),如何保持一致性?(一个sink出错,另外的也保证不能插入)
27、flink sql任务在某个特定阶段会发生tm和jm丢失心跳,是不是由于gc时间过长呢,
29、一个task slot 只能同时运行一个任务还是多个任务呢?如果task slot运行的任务比较大,会出现OOM的情况吗?
30、你们怎么对线上flink做监控的,如果整个程序失败了怎么自动重启等等
31、flink cep规则动态解析有接触吗?有没有成型的框架?
32、每一个Window都有一个watermark吗?window是怎么根据watermark进行触发或者销毁的?
33、 CheckPoint与SavePoint的区别是什么?
34、flink可以在算子中共享状态吗?或者大佬你有什么方法可以共享状态的呢?
37、大家都用jdbc写,各种数据库增删查改拼sql有没有觉得很累,ps.set代码一大堆,还要计算每个参数的位置
38、关于datasource的配置,每个taskmanager对应一个datasource?还是每个slot? 实际运行下来,每个slot中datasorce线程池只要设置1就行了,多了也用不到?
39、kafka现在每天出现数据丢失,现在小批量数据,一天200W左右, kafka版本为 1.0.0,集群总共7个节点,TOPIC有十六个分区,单条报文1.5k左右
40、根据key.hash的绝对值 对并发度求模,进行分组,假设10各并发度,实际只有8个分区有处理数据,有2个始终不处理,还有一个分区处理的数据是其他的三倍,如截图
41、flink每7小时不知道在处理什么, CPU 负载 每7小时,有一次高峰,5分钟内平均负载超过0.8,如截图
42、有没有Flink写的项目推荐?我想看到用Flink写的整体项目是怎么组织的,不单单是一个单例子
43、Flink 源码的结构图
44、我想根据不同业务表(case when)进行不同的redis sink(hash ,set),我要如何操作?
45、这个需要清理什么数据呀,我把hdfs里面的已经清理了 启动还是报这个
46、 在流处理系统,在机器发生故障恢复之后,什么情况消息最多会被处理一次?什么情况消息最少会被处理一次呢?
48、reduce方法后 那个交易时间 怎么不是最新的,是第一次进入的那个时间,
52、用户进入产品预定页面(端埋点上报),并填写了一些信息(端埋点上报),但半小时内并没有产生任何订单,然后给该类用户发送一个push。 1. 这种需求适合用flink去做吗?2. 如果适合,说下大概的思路
53、业务场景是实时获取数据存redis,请问我要如何按天、按周、按月分别存入redis里?(比方说过了一天自动换一个位置存redis)
54、有人 AggregatingState 的例子吗, 感觉官方的例子和 官网的不太一样?
55、flink-jdbc这个jar有吗?怎么没找到啊?1.8.0的没找到,1.6.2的有
61、请问下flink可以实现一个流中同时存在订单表和订单商品表的数据 两者是一对多的关系 能实现得到 以订单表为主 一个订单多个商品 这种需求嘛
62、在用中间状态的时候,如果中间一些信息保存在state中,有没有必要在redis中再保存一份,来做第三方的存储。
63、能否出一期flink state的文章。什么场景下用什么样的state?如,最简单的,实时累加update到state。
64、flink的双流join博主有使用的经验吗?会有什么常见的问题吗
65、窗口触发的条件问题
68、重启flink单机集群,还报job not found 异常。
71、flink 支持hadoop 主备么? hadoop主节点挂了 flink 会切换到hadoop 备用节点?
72、请教大家: 实际 flink 开发中用 scala 多还是 java多些? 刚入手 flink 大数据 scala 需要深入学习么?
73、我使用的是flink是1.7.2最近用了split的方式分流,但是底层的SplitStream上却标注为Deprecated,请问是官方不推荐使用分流的方式吗?
75、用flink时,遇到个问题 checkpoint大概有2G左右, 有背压时,flink会重启有遇到过这个问题吗
80、使用rocksdb状态后端,自定义pojo怎么实现序列化和反序列化的,有相关demo么?
81、check point 老是失败,是不是自定义的pojo问题?到本地可以,到hdfs就不行,网上也有很多类似的问题 都没有一个很好的解释和解决方案
84、Flink job打开了checkpoint,用的rocksdb,通过观察hdfs上checkpoint目录,为啥算副本总量会暴增爆减
85、Flink 提交任务的 jar包可以指定路径为 HDFS 上的吗
89、用flink清洗数据,其中要访问redis,根据redis的结果来决定是否把数据传递到下流,这有可能实现吗?
92、SocketTextStreamWordCount中输入中文统计不出来,请问这个怎么解决,我猜测应该是需要修改一下代码,应该是这个例子默认统计英文
93、 Flink 应用程序本地 ide 里面运行的时候并行度是怎么算的?
等等等,还有很多,复制粘贴的我手累啊 😂
另外里面还会及时分享 Flink 的一些最新的资料(包括数据、视频、PPT、优秀博客,持续更新,保证全网最全,因为我知道 Flink 目前的资料还不多)
再就是星球用户给我提的一点要求:不定期分享一些自己遇到的 Flink 项目的实战,生产项目遇到的问题,是如何解决的等经验之谈!
7、《大数据“重磅炸弹”——实时计算框架 Flink》专栏系列文章目录大纲
8、《大数据“重磅炸弹”——实时计算框架 Flink》Chat 付费文章
10、Flink On K8s
当然,除了更新 Flink 相关的东西外,我还会更新一些大数据相关的东西,因为我个人之前不是大数据开发,所以现在也要狂补些知识!总之,希望进来的童鞋们一起共同进步!
7、Lightweight Asynchronous Snapshots for Distributed Dataflows
8、Apache Flink™- Stream and Batch Processing in a Single Engine