java-Spark(Kafka)流内存问题

2019-11-09 03:03:52 阅读：223 来源： 互联网

标签：apache-spark apache-kafka out-of-memory java

我正在测试处理来自Kafka的消息的第一个Spark Streaming流水线.但是,经过几次测试运行后,我收到以下错误消息
没有足够的内存,Java运行时环境无法继续.

我的测试数据确实很小,因此应该不会发生.在研究了该过程之后,我意识到以前提交的Spark作业可能没有被完全删除？

我通常会提交以下工作,而我正在使用Spark 2.2.1
/usr/local/spark / bin / spark-submit –packages org.apache.spark：spark-streaming-kafka-0-8_2.11：2.0.2〜/ script / to / spark_streaming.py

并使用Ctrl C停止它

脚本的最后几行如下所示：

ssc.start()
ssc.awaitTermination()

更新资料

在更改提交Spark Streaming作业的方式(如下所示的命令)之后,我仍然遇到相同的问题,即杀死该作业后,内存不会被释放.我仅针对这4个EC2节点启动了Hadoop和Spark.

/bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.2 --py-files ~/config.py --master spark://<master_IP>:7077 --deploy-mode client  ~/spark_kafka.py

解决方法:

当您按Ctrl-C组合键时,仅提交者进程被中断,作业本身继续运行.最终,系统内存不足,因此无法启动新的JVM.

此外,即使您重新启动群集,所有先前运行的作业也会再次重新启动.

读取how to stop a running Spark application properly.

标签：apache-spark,apache-kafka,out-of-memory,java
来源： https://codeday.me/bug/20191109/2011247.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

java-Spark(Kafka)流内存问题