flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件

2022-01-09 11:03:19 阅读：198 来源： 互联网

标签：HDFS 分区 flink kafka streaming org apache import

主要记录下streaming模式下动态分区怎么写文件，sql模式直接写就是了，streaming模式需要自己写下分区方法。大致的数据流程是消费kafka，拆解json，数据写到hdfs(sequenceFile)路径。

1、分区需要自定义，这里是读取流数据，获取分区字段

package partitionassigner;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.core.io.SimpleVersionedSerializer;
import org.apache.flink.streaming.api.functions.sink.filesystem.BucketAssigner;
import org.apache.flink.streaming.api.functions.sink.filesystem.bucketassigners.SimpleVersionedStringSerializer;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

import java.text.SimpleDateFormat;
import java.util.Date;

public class PartitionAssigner<IN> implements BucketAssigner<Tuple2<LongWritable, Text>, String> {

    @Override
    public String getBucketId(Tuple2<LongWritable, Text> textTuple2, Context context) {
        String allCol = textTuple2.getField(1).toString();
        //截出来分区字段
        String[] strings = allCol.split("\\^");
        //取出来时间戳字段
        Long createTime = Long.parseLong(strings[10]);
        //取出来rank分区字段
        int rankPt =  Integer.parseInt(strings[11]);
        //时间戳 -> yyyyMMdd
        Date date = new Date(createTime);
        SimpleDateFormat simpleDateFormat = new SimpleDateFormat ("yyyyMMdd");
        return "day=" + simpleDateFormat.format(date) + "/" + "rank_pt=" + rankPt;
    }

    @Override
    public SimpleVersionedSerializer<String> getSerializer() {
        return SimpleVersionedStringSerializer.INSTANCE;
    }


}

2、文件输出调用分区生成方法

        StreamingFileSink<Tuple2<LongWritable, Text>> sink = StreamingFileSink.forBulkFormat(
                        path,
                        new SequenceFileWriterFactory<>(hadoopConf, LongWritable.class, Text.class,"org.apache.hadoop.io.compress.GzipCodec",
                                SequenceFile.CompressionType.BLOCK))
                .withBucketAssigner(new PartitionAssigner())
                .build();

3、我的路径写的本地，可以看到文件夹，生产上改下文件路径就好

总结：这个处理是想在流上把数据处理好写到离线数仓的dwd层，省去离线的处理逻辑，流批真正一体要做的工作还是比较多啊，维护成本当下看也高。

标签：HDFS,分区,flink,kafka,streaming,org,apache,import
来源： https://blog.csdn.net/huobumingbai1234/article/details/122390834

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件