Spark Submit 运行配置
使用 Spark 插件,您可以在 Spark 集群上执行应用程序。 PyCharm 提供运行/调试配置,用于运行 Spark 的 bin 目录中的 spark-submit 脚本。 您可以在本地执行应用程序,或使用 SSH 配置。
安装 Spark 插件
该功能依赖于 Spark 插件,您需要安装并启用该插件。
按 Ctrl+Alt+S 打开设置,然后选择 。
打开 Marketplace 选项卡,找到 Spark 插件,然后点击 安装 (如有提示,请重启 IDE)。
使用 Spark Submit 配置运行应用程序
转到 。 或者,在 运行 小部件中点击
,并在下拉菜单中选择 编辑配置(E)。

点击 添加新配置 按钮(
),然后选择 。
输入运行配置名称。
在 远程目标 列表中,执行以下任一操作:
如果您已连接到 AWS EMR 集群 ,您可以将应用程序上传到该集群。
如果您具有 SSH 配置,您可以使用它们将应用程序提交到自定义远程服务器。
否则,点击 添加 EMR 连接 或 添加 SSH 连接。
在 应用程序 字段中,点击
并选择要提交的应用程序。
在 类 字段中,输入应用程序主类的名称。

您还可以指定可选参数:
运行参数 :运行应用程序的参数。
在 Spark 配置 下,设置:
集群管理器 :选择在集群上运行应用程序的管理方式。 SparkContext 可以连接多种类型的集群管理器(Spark 自带的独立集群管理器、Mesos 或 YARN)。 更多详情,请参阅 集群模式概述。
部署模式 :cluster 或 client。
目标上传目录 :在远程主机上用于上传可执行文件的目录。
Spark 主目录 :Spark 安装目录的路径。
配置 :以 key=value 格式指定的任意 Spark 配置属性。
属性文件 :包含 Spark 属性的文件路径。
在 依赖项 下,选择应用程序执行所需的文件和归档(JAR)。
在 Maven 下,选择 Maven 专用依赖项。 您可以添加仓库,或将某些包从执行上下文中排除。
在 Driver 下,选择 Spark Driver 设置,例如驱动程序进程要使用的内存大小。 对于集群模式,还可以指定核心数。
在 执行器 下,选择 Executor 设置,例如内存大小和核心数。
Kerberos :用于与 Kerberos 建立安全连接的设置。
Shell 选项 :选择是否要在 Spark 提交之前执行脚本。
输入 bash 的路径,并指定要执行的脚本。 建议提供脚本的绝对路径。
如果您希望以交互模式启动脚本,请选中 交互式 复选框。 您还可以指定环境变量,例如,
USER=jetbrains。高级提交选项:
代理用户 :可在 Spark 连接中使用代理的用户名。
Driver Java 选项、 Driver 库路径 和 Driver 类路径 :添加其他驱动程序选项。 有关更多信息,请参阅 运行时环境。
归档 :以逗号分隔的归档列表,将解压到每个 Executor 的工作目录中。
打印附加调试输出 :使用
--verbose选项运行 spark-submit,以打印调试信息。
点击 确定 以保存配置。 然后从已创建的配置列表中选择配置,并点击
。

在 运行 工具窗口中查看执行结果。