大数据之Flink- Java入门

2021-09-25 20:03:39 阅读：157 来源： 互联网

1、Flink 流处理简介

1.1 主要内容：

• Flink 是什么
• 为什么要用 Flink
• 流处理的发展和演变
• Flink 的主要特点
• Flink vs Spark Streaming

1.2 Flink 是什么

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments perform computations at in-memory speed and at any scale.

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。

1.3 Flink 的全球热度

1.4 Flink 目前在国内企业的应用

1.5 为什么选择 Flink

流数据更真实地反映了我们的生活方式
传统的数据架构是基于有限数据集的

我们的目标：

➢ 低延迟
➢ 高吞吐
➢ 结果的准确性和良好的容错性

1.6 哪些行业需要处理流数据

• 电商和市场营销
➢ 数据报表、广告投放、业务流程需要
• 物联网（ IOT）
➢ 传感器实时数据采集和显示、实时报警，交通运输业
• 电信业
➢ 基站流量调配
• 银行和金融业
➢ 实时结算和通知推送，实时检测异常行为

1.7 传统数据处理架构

事务处理

分析处理

➢ 将数据从业务数据库复制到数仓，再进行分析和查询

1.8 有状态的流式处理

1.9 流处理的演变

• lambda 架构

➢ 用两套系统，同时保证低延迟和结果准确

1.10 Flink 的主要特点

• 事件驱动（ Event-driven）

• 基于流的世界观

➢ 在 Flink 的世界观中，一切都是由流组成的，离线数据是有界的流；实时数据是一个没有界限的流：这就是所谓的有界流和无界流

• 分层API

➢ 越顶层越抽象，表达含义越简明，使用越方便
➢ 越底层越具体，表达能力越丰富，使用越灵活

1.11 Flink 的其它特点

支持事件时间（ event-time）和处理时间（ processing-time）语义
精确一次（ exactly-once）的状态一致性保证
低延迟，每秒处理数百万个事件，毫秒级延迟
与众多常用存储系统的连接
高可用，动态扩展，实现7*24小时全天候运行

标签：Java,入门,处理,Flink,实时,架构,数据,延迟
来源： https://blog.csdn.net/wtl1992/article/details/120475678

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9