ICode9

精准搜索请尝试: 精确搜索
首页 > 系统相关> 文章详细

.NET for Apache Spark 适合.net 6.0 Windows

2022-03-02 11:32:13  阅读:306  来源: 互联网

标签:bin Apache Windows 步骤 dotnet 6.0 spark net Spark


步骤1:可从命令行环境运行 dotnet --versionjavaspark-shell,则表示你的环境已准备就绪且你可跳到下一部分。 如果无法运行任何或部分命令,请执行步骤2。

步骤2:下载并安装 .NET SDK ,本文安装.net6.0

步骤3:安装java JDK

步骤4:下载并安装 Apache Spark,本文为spark-3.0.1-bin-hadoop2.7.tgz,下载地址https://archive.apache.org/dist/spark/spark-3.0.1/

              配置Apache Spark环境变量

HADOOP_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\

SPARK_HOME C:\bin\spark-3.0.1-bin-hadoop2.7\ 

PATH

"%PATH%;%HADOOP_HOME%;%SPARK_HOME%bin"

配置好后,CMD进入命令行

spark-submit --version

 步骤5:安装 .NET for Apache Spark 下载地址,选择图中的版本下载

https://github.com/dotnet/spark/releases

解压后提取到 C:\bin目录。

步骤6:安装 WinUtils.exe

将 下载好的WinUtils.exe 复制到 C:\bin\spark-3.0.1-bin-hadoop2.7\bin目录中。注意版本号要与hadoop的一致

最后,仔细检查是否可从命令行运行 dotnetjavaspark-shell,没有问题了,然后再转到下一部分。

 步骤7:cmd命令行,输入如下命令

dotnet new console -o MySparkApp

cd MySparkApp

dotnet add package Microsoft.Spark

步骤8:在 Visual Studio Code 中打开 Program.cs 或打开任何文本编辑器,再将所有代码替换为以下内容:

using Microsoft.Spark.Sql;
using static Microsoft.Spark.Sql.Functions;

namespace MySparkApp
{
    class Program
    {
        static void Main(string[] args)
        {
            // Create Spark session
            SparkSession spark =
                SparkSession
                    .Builder()
                    .AppName("word_count_sample")
                    .GetOrCreate();

            // Create initial DataFrame
            string filePath = args[0];
            DataFrame dataFrame = spark.Read().Text(filePath);

            //Count words
            DataFrame words =
                dataFrame
                    .Select(Split(Col("value")," ").Alias("words"))
                    .Select(Explode(Col("words")).Alias("word"))
                    .GroupBy("word")
                    .Count()
                    .OrderBy(Col("count").Desc());

            // Display results
            words.Show();

            // Stop Spark session
            spark.Stop();
        }
    }
}

步骤9:在 MySparkApp 目录中创建一个名为 input.txt 的文件,其中包含以下文本:

然后执行

Hello World
This .NET app uses .NET for Apache Spark
This .NET app counts words with Apache Spark

dotnet build

最后在MySparkApp根目录执行如下命令:

spark-submit --class org.apache.spark.deploy.dotnet.DotnetRunner --master local bin\Debug\net6.0\microsoft-spark-3-0_2.12-2.1.0.jar dotnet bin\Debug\net6.0\MySparkApp.dll input.txt

然后浏览器持续刷新页面http://localhost:4040/jobs/      可查看spark的运行过程。

执行成功后,会在控制台打印出如下。

 

标签:bin,Apache,Windows,步骤,dotnet,6.0,spark,net,Spark
来源: https://blog.csdn.net/malingyu/article/details/123225196

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有