Spark3.2教程（八）一个简单的Spark Streaming处理网络流数据

2021-12-23 22:04:33 阅读：194 来源： 互联网

标签：val Streaming Spark3.2 import apache org spark Spark

        MapReduce及Spark批处理、Spark SQL只能进行离线计算，无法满足即时性业务需求，如实时推荐、实时网站性能分析等。
        流式计算可以解决这些问题，目前有三种比较常用的流式计算框架，它们分别是Storm，Spark Streaming和Flink。
        Spark Streaming原理是接受实时传入的数据流，然后将数据按批次（batch）进行划分，然后再将这部分数据交由Spark引擎进行处理，处理完成后将结果输出到外部。
        下面使用一个简单的例子来展示。
        在一台Linux电脑上通过NetCat实现网络流发送单词数据，Spark Streming与NetCat进程通信，读取到单词后，就进行词频分析，并在控制台上输出。

一、首先在一台虚拟机(hp301)上打开NetCat，绑定端口号为9999

nc -lk 9999

二、在IDEA中，首先引入Spark Streaming依赖：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.13</artifactId>
    <version>3.2.0</version>
</dependency>

三、编写代码：

import com.alan.StreamingLog.logInfo
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging


object TestStreming extends Logging{
  def main(args: Array[String]) {

    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if (!log4jInitialized) {
      // We first log something to initialize Spark's default logging, then we override the
      // logging level.
      logInfo("Setting log level to [WARN] for streaming example." +
        " To override add a custom log4j.properties to the classpath.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    //创建SocketInputDStream，接收来自ip:port发送来的流数据
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

四、测试
在netcat中输入单词，并逐行发送。
在这里插入图片描述
在IDEA的控制台中可见分析后的结果。

标签：val,Streaming,Spark3.2,import,apache,org,spark,Spark
来源： https://blog.csdn.net/GodBlessYouAndMe/article/details/122101350

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Spark3.2教程（八）一个简单的Spark Streaming处理网络流数据