精选！大数据Flink进阶（六）：Flink入门案例

来源：腾讯云 2023-03-20 21:11:52

Flink入门案例

需求：读取本地数据文件，统计文件中每个单词出现的次数。

(相关资料图)

一、IDEA Project创建及配置

本案例编写Flink代码选择语言为Java和Scala，所以这里我们通过IntelliJ IDEA创建一个目录，其中包括Java项目模块和Scala项目模块，将Flink Java api和Flink Scala api分别在不同项目模块中实现。步骤如下：

1、打开IDEA，创建空项目

2、在IntelliJ IDEA 中安装Scala插件

使用IntelliJ IDEA开发Flink，如果使用Scala api 那么还需在IntelliJ IDEA中安装Scala的插件，如果已经安装可以忽略此步骤，下图为以安装Scala插件。

3、打开Structure，创建项目新模块

创建Java模块：

继续点击"+"，创建Scala模块：

创建好"FlinkScalaCode"模块后，右键该模块添加Scala框架支持，并修改该模块中的"java"src源为"scala":

在"FlinkScalaCode"模块Maven pom.xml中引入Scala依赖包，这里使用的Scala版本为2.12.10。

  org.scala-lang  scala-library  2.12.10  org.scala-lang  scala-compiler  2.12.10  org.scala-lang  scala-reflect  2.12.10

4、Log4j日志配置

为了方便查看项目运行过程中的日志，需要在两个项目模块中配置log4j.properties配置文件，并放在各自项目src/main/resources资源目录下，没有resources资源目录需要手动创建并设置成资源目录。log4j.properties配置文件内容如下：

log4j.rootLogger=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.outlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=%d{HH:mm:ss} %p %c{2}: %m%n

复制

并在两个项目中的Maven pom.xml中添加对应的log4j需要的依赖包，使代码运行时能正常打印结果：

  org.slf4j  slf4j-log4j12  1.7.36  org.apache.logging.log4j  log4j-to-slf4j  2.17.2

5、分别在两个项目模块中导入Flink Maven依赖

"FlinkJavaCode"模块导入Flink Maven依赖如下：

  UTF-8  1.8  1.8  1.16.0  1.7.36  2.17.2        org.apache.flink    flink-clients    ${flink.version}          org.slf4j    slf4j-log4j12    ${slf4j.version}        org.apache.logging.log4j    log4j-to-slf4j    ${log4j.version}

"FlinkScalaCode"模块导入Flink Maven依赖如下：

  UTF-8  1.8  1.8  1.16.0  1.7.31  2.17.1  2.12.10  2.12        org.apache.flink    flink-scala_${scala.binary.version}    ${flink.version}        org.apache.flink    flink-streaming-scala_${scala.binary.version}    ${flink.version}        org.apache.flink    flink-clients    ${flink.version}          org.scala-lang    scala-library    ${scala.version}        org.scala-lang    scala-compiler    ${scala.version}        org.scala-lang    scala-reflect    ${scala.version}          org.slf4j    slf4j-log4j12    ${slf4j.version}        org.apache.logging.log4j    log4j-to-slf4j    ${log4j.version}

注意：在后续实现WordCount需求时，Flink Java Api只需要在Maven中导入"flink-clients"依赖包即可，而Flink Scala Api 需要导入以下三个依赖包：

flink-scala_${scala.binary.version}flink-streaming-scala_${scala.binary.version}flink-clients

主要是因为在Flink1.15版本后，Flink添加对opting-out（排除）Scala的支持，如果你只使用Flink的Java api，导入包不必包含scala后缀，如果使用Flink的Scala api，需要选择匹配的Scala版本。

二、案例数据准备

在项目"MyFlinkCode"中创建"data"目录，在目录中创建"words.txt"文件，向文件中写入以下内容，方便后续使用Flink编写WordCount实现代码。

hello Flinkhello MapReducehello Sparkhello Flinkhello Flinkhello Flinkhello Flinkhello Javahello Scalahello Flinkhello Javahello Flinkhello Scalahello Flinkhello Flinkhello Flink

三、案例实现

数据源分为有界和无界之分，有界数据源可以编写批处理程序，无界数据源可以编写流式程序。DataSet API用于批处理，DataStream API用于流式处理。

批处理使用ExecutionEnvironment和DataSet，流式处理使用StreamingExecutionEnvironment和DataStream。DataSet和DataStream是Flink中表示数据的特殊类，DataSet处理的数据是有界的，DataStream处理的数据是无界的，这两个类都是不可变的，一旦创建出来就无法添加或者删除数据元。

1、Flink 批数据处理案例

Java版本WordCount

使用Flink Java Dataset api实现WordCount具体代码如下：

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();//1.读取文件DataSource linesDS = env.readTextFile("./data/words.txt");//2.切分单词FlatMapOperator wordsDS =        linesDS.flatMap((String lines, Collector collector) -> {    String[] arr = lines.split(" ");    for (String word : arr) {        collector.collect(word);    }}).returns(Types.STRING);//3.将单词转换成Tuple2 KV 类型MapOperator> kvWordsDS =        wordsDS.map(word -> new Tuple2<>(word, 1L)).returns(Types.TUPLE(Types.STRING, Types.LONG));//4.按照key 进行分组处理得到最后结果并打印kvWordsDS.groupBy(0).sum(1).print();

Scala版本WordCount

使用Flink Scala Dataset api实现WordCount具体代码如下：

//1.准备环境，注意是Scala中对应的Flink环境val env: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment//2.导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.api.scala._//3.读取数据文件val linesDS: DataSet[String] = env.readTextFile("./data/words.txt")//4.进行 WordCount 统计并打印linesDS.flatMap(line => {  line.split(" ")})  .map((_, 1))  .groupBy(0)  .sum(1)  .print()

以上无论是Java api 或者是Scala api 输出结果如下，显示的最终结果是统计好的单词个数。

(hello,15)(Spark,1)(Scala,2)(Java,2)(MapReduce,1)(Flink,10)

2、Flink流式数据处理案例

Java版本WordCount

使用Flink Java DataStream api实现WordCount具体代码如下：

//1.创建流式处理环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//2.读取文件数据DataStreamSource lines = env.readTextFile("./data/words.txt");//3.切分单词，设置KV格式数据SingleOutputStreamOperator> kvWordsDS =        lines.flatMap((String line, Collector> collector) -> {    String[] words = line.split(" ");    for (String word : words) {        collector.collect(Tuple2.of(word, 1L));    }}).returns(Types.TUPLE(Types.STRING, Types.LONG));//4.分组统计获取 WordCount 结果kvWordsDS.keyBy(tp->tp.f0).sum(1).print();//5.流式计算中需要最后执行execute方法env.execute();

Scala版本WordCount

使用Flink Scala DataStream api实现WordCount具体代码如下：

//1.创建环境val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment//2.导入隐式转换，使用Scala API 时需要隐式转换来推断函数操作后的类型import org.apache.flink.streaming.api.scala._//3.读取文件val ds: DataStream[String] = env.readTextFile("./data/words.txt")//4.进行wordCount统计ds.flatMap(line=>{line.split(" ")})  .map((_,1))  .keyBy(_._1)  .sum(1)  .print()//5.最后使用execute 方法触发执行env.execute()

以上输出结果开头展示的是处理当前数据的线程，一个Flink应用程序执行时默认的线程数与当前节点cpu的总线程数有关。

3、DataStream BATCH模式

下面使用Java代码使用DataStream API 的Batch 模式来处理批WordCount代码，方式如下：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();//设置批运行模式env.setRuntimeMode(RuntimeExecutionMode.BATCH);DataStreamSource linesDS = env.readTextFile("./data/words.txt");SingleOutputStreamOperator> wordsDS = linesDS.flatMap(new FlatMapFunction>() {    @Override    public void flatMap(String lines, Collector> out) throws Exception {        String[] words = lines.split(" ");        for (String word : words) {            out.collect(new Tuple2<>(word, 1L));        }    }});wordsDS.keyBy(tp -> tp.f0).sum(1).print();env.execute();

以上代码运行完成之后结果如下，可以看到结果与批处理结果类似，只是多了对应的处理线程号。

3> (hello,15)8> (Flink,10)8> (Spark,1)7> (Java,2)7> (Scala,2)7> (MapReduce,1)

此外，Stream API 中除了可以设置Batch批处理模式之外，还可以设置 AUTOMATIC、STREAMING模式，STREAMING 模式是流模式，AUTOMATIC模式会根据数据是有界流/无界流自动决定采用BATCH/STREAMING模式来读取数据，设置方式如下：

//BATCH 设置批处理模式env.setRuntimeMode(RuntimeExecutionMode.BATCH);//AUTOMATIC 会根据有界流/无界流自动决定采用BATCH/STREAMING模式env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);//STREAMING 设置流处理模式env.setRuntimeMode(RuntimeExecutionMode.STREAMING);

除了在代码中设置处理模式外，还可以在Flink配置文件(flink-conf.yaml)中设置execution.runtime-mode参数来指定对应的模式，也可以在集群中提交Flink任务时指定execution.runtime-mode来指定，Flink官方建议在提交Flink任务时指定执行模式，这样减少了代码配置给Flink Application提供了更大的灵活性，提交任务指定参数如下：

$FLINK_HOME/bin/flink run -Dexecution.runtime-mode=BATCH -c xxx xxx.jar

精选！大数据Flink进阶（六）：Flink入门案例

Flink入门案例

一、IDEA Project创建及配置

1、打开IDEA，创建空项目

2、在IntelliJ IDEA 中安装Scala插件

3、打开Structure，创建项目新模块

4、Log4j日志配置

5、分别在两个项目模块中导入Flink Maven依赖

二、案例数据准备

三、案例实现

1、Flink 批数据处理案例

2、Flink流式数据处理案例

3、DataStream BATCH模式

推荐阅读

江苏省电子信息制造业收入达3.56万亿元 规模位居全国前列

“银发族就业”成热潮 “90后”开始为退休父母找工作

云南广西广东等地有较强降水 京津冀等地有高温天气

京九铁路江西段启动集中修 助力企业复工复产

最近更新

精选！大数据Flink进阶（六）：Flink入门案例

全球热点评！茄组词有哪些_汉字茄怎么组词

喋血孤岛演员表_哪些演员出演了这部剧

前沿资讯!A股收评：沪指跌0.48%三大运营商跌超9%

美国银行接连关闭 美媒：民众将为政府“兜底”措施买单|热头条

文化和旅游部公示国家级文化产业示范园区 山东1家上榜

越秀进京“撸起袖子加油干”

冬天脸上起皮是怎么回事_冬天为什么脸上起皮 焦点精选

【时快讯】澄江永和：养殖抗浪鱼 助群众增收

【快播报】泰国路边新娘国语版（泰国路边女一次多少钱）

外国教育史教程（第三版）_吴式颖_世界实时

今日讯！北京密云：城乡教师轮岗促衔接

血色修道院在哪里_血色修道院在

个人独资企业的名称有哪些_个人独资企业名称有哪些|天天微资讯

宝宝拉稀是什么原因引起来的_宝宝拉稀是什么原因

观天下！日媒：福岛第一核电站核污染水排海部分设备开始运行

环球快播：轻度脂肪肝应注意什么吃什么药_轻度脂肪肝应注意什么

全国两会精神看落实｜天津滨海—中关村科技园：强化科创平台建设 助力科技型企业发展壮大

03月18日06时山东淄博疫情数据 阳了以后为什么会腰疼？应该怎么办？

热气球原理动画演示_热气球原理

塑料软管直径规格表_塑料软管规格尺寸表

美国国会将拨5.85亿美元支持三家电池工厂，含宁德时代、国轩高科参与的项目 每日讯息

今天最新消息 西游台青“大话西游”

环球速看：结婚微信邀请词_结婚微信邀请语

全球热门:教主alan walker简介_live fast alan walker

环球通讯！海尔埃及生态园举行奠基仪式

聚焦3.15！离石公安带我们筑盾同行，拒绝“套路”！

当日快讯：美国多家银行向第一共和银行注资300亿美元 焦点播报

焦点热文：科技要闻：桌面应用担保帮助你需要保持最新的Windows 10

全球快看点丨襄垣县气象局发布大雾黄色预警【Ⅲ级/较重】【2023-03-16】

聚焦：福法纳：穆德里克是我见过最快的球员，姆巴佩没机会追上他

勿以“疝小”而不为，小儿疝气怎么办 全球新动态

国内商品期市日间盘大面积收跌 原油收跌超6%-天天看热讯

想买微软手环好过节微软今年不卖了明年请早

每日视点！淮北师范大学是双一流大学吗是一流学科建设高校吗算是名校吗

长篇小说《当今奇人周兴和》47 ● 公正判案服民心

格斗之王3内购破解版_格斗之王3|焦点热闻

消音棉和隔音棉有什么区别_消音棉和隔音棉的区别

女英雄事迹200字_女英雄事迹 精彩看点

国统股份: 新疆国统管道股份有限公司第六届董事会第四十一次临时会议决议公告

恒基永昕：监事辞职公告_前沿资讯

当前报道:高铁电气盘中异动 股价振动12.67% 上涨12.21%

翔腾新材过会：今年IPO过关第60家 光大证券过2单|视讯

我国实现多个领域新突破 推动高质量发展-当前独家

【全球报资讯】中国充电联盟：9月公共充电桩数量环比增加1.2万台，同比增长56.6%

环球关注：北京欢迎你歌词改编部门版_北京欢迎你歌词改编

天天速读：晶瑞电材(300655.SZ)子公司瑞红苏州拟定增募资不超2000万元以补充流资

信披有误及提供未经交易对方认可的意向性合同，新筑股份及穷董事长等高管被四川证监局责令改正

成都办健康证流程

焦点信息:康师傅饮料系列_康师傅饮料品种大全

姜四清在山阴县调研时强调 坚定不移促转型 持之以恒培优势 为加快推动高质量发展作出更大贡献

天眼观察局：行业风险扫探面面观_天天快报

最新公布！广州城市建成区面积达1380.6平方公里-环球实时

要闻速递：iphone的剪贴板在哪里_剪贴板在哪里

白露风俗食物_白露吃什么传统食物

埃安s自适应巡航怎么用 _传感器坏了对车有什么影响 焦点热闻

湖南省植物园下午场几点预约？

静宁：用心优化服务开新局-天天报资讯

GTC泽汇资本：非农数据发布后，美元/日元下跌测试135.80附近的日低点 世界热点

环球头条：闵科夫斯基不等式_闵可夫斯基不等式

和易性好

江苏省电子信息制造业收入达3.56万亿元规模位居全国前列

云南广西广东等地有较强降水京津冀等地有高温天气

京九铁路江西段启动集中修助力企业复工复产

美国银行接连关闭美媒：民众将为政府“兜底”措施买单|热头条

文化和旅游部公示国家级文化产业示范园区山东1家上榜

冬天脸上起皮是怎么回事_冬天为什么脸上起皮焦点精选

【时快讯】澄江永和：养殖抗浪鱼助群众增收

全国两会精神看落实｜天津滨海—中关村科技园：强化科创平台建设助力科技型企业发展壮大

03月18日06时山东淄博疫情数据阳了以后为什么会腰疼？应该怎么办？

美国国会将拨5.85亿美元支持三家电池工厂，含宁德时代、国轩高科参与的项目每日讯息

今天最新消息西游台青“大话西游”

当日快讯：美国多家银行向第一共和银行注资300亿美元焦点播报

勿以“疝小”而不为，小儿疝气怎么办全球新动态

国内商品期市日间盘大面积收跌原油收跌超6%-天天看热讯

女英雄事迹200字_女英雄事迹精彩看点

当前报道:高铁电气盘中异动股价振动12.67% 上涨12.21%

翔腾新材过会：今年IPO过关第60家光大证券过2单|视讯

我国实现多个领域新突破　推动高质量发展-当前独家

姜四清在山阴县调研时强调坚定不移促转型持之以恒培优势为加快推动高质量发展作出更大贡献

埃安s自适应巡航怎么用 _传感器坏了对车有什么影响焦点热闻

GTC泽汇资本：非农数据发布后，美元/日元下跌测试135.80附近的日低点世界热点

浙江人1年花18亿买香奈儿你会为奢侈品买单么？

王玄策_说一说王玄策的简介观热点

你知道过敏反应的迹象吗身体试图告诉你的7种方式|全球热头条

我跌跌撞撞奔向你是谁唱的什么歌天天时讯

对称点是什么意思_对称点是什么环球快看

两会同期声 | 改善消费场景实现产业升级推动数字经济高质量发展|全球聚看点

和女生应该聊些什么话题_跟女生该聊什么话题快看点

宛城区招教公告2022_宛城环球快资讯

九龙仓集团2022年应占亏损17.05亿港元每股基本亏损0.56港元焦点短讯

斯通捡漏浓眉！火箭、湖人商讨8换2交易，贾巴里史密斯沦为筹码？天天报资讯

勉县新铺镇开展地灾防治培训今日热闻

曹休看热讯

世界今亮点！林志颖方发律师声明被假借名义签约并收取款项

半妖倾城演员表名字（半妖倾城演员表）环球新动态

自主创新全球速看

【环球时快讯】险资积极举牌上市公司举牌对象所属行业较为分散

2023年义乌市体育中考调整方案一览全球微速讯

节能降碳服务业潜力巨大今日讯

沈阳拓展都市圈建设提升城市文化品质