PyCharm 2025.3 Help

Spark Submit 运行配置

使用 Spark 插件,您可以在 Spark 集群上执行应用程序。 PyCharm 提供运行/调试配置,用于运行 Spark 的 bin 目录中的 spark-submit 脚本。 您可以在本地执行应用程序,或使用 SSH 配置。

安装 Spark 插件

该功能依赖于 Spark 插件,您需要安装并启用该插件。

  1. Ctrl+Alt+S 打开设置,然后选择 插件

  2. 打开 Marketplace 选项卡,找到 Spark 插件,然后点击 安装 (如有提示,请重启 IDE)。

使用 Spark Submit 配置运行应用程序

  1. 转到 运行 | 编辑配置。 或者,在 运行 小部件中点击 ,并在下拉菜单中选择 编辑配置(E)

    运行/调试配置弹出窗口
  2. 点击 添加新配置 按钮(添加运行/调试配置 ),然后选择 Spark Submit | 集群

  3. 输入运行配置名称。

  4. 远程目标 列表中,执行以下任一操作:

    • 如果您已连接到 AWS EMR 集群 ,您可以将应用程序上传到该集群。

    • 如果您具有 SSH 配置,您可以使用它们将应用程序提交到自定义远程服务器。

    • 否则,点击 添加 EMR 连接添加 SSH 连接

  5. 应用程序 字段中,点击 上传本地文件 并选择要提交的应用程序。

  6. 字段中,输入应用程序主类的名称。

    Spark 运行配置
  7. 您还可以指定可选参数:

    • 运行参数 :运行应用程序的参数。

    • Spark 配置 下,设置:

      • 集群管理器 :选择在集群上运行应用程序的管理方式。 SparkContext 可以连接多种类型的集群管理器(Spark 自带的独立集群管理器、Mesos 或 YARN)。 更多详情,请参阅 集群模式概述

      • 部署模式 :cluster 或 client。

      • 目标上传目录 :在远程主机上用于上传可执行文件的目录。

      • Spark 主目录 :Spark 安装目录的路径。

      • 配置 :以 key=value 格式指定的任意 Spark 配置属性。

      • 属性文件 :包含 Spark 属性的文件路径。

    • 依赖项 下,选择应用程序执行所需的文件和归档(JAR)。

    • Maven 下,选择 Maven 专用依赖项。 您可以添加仓库,或将某些包从执行上下文中排除。

    • Driver 下,选择 Spark Driver 设置,例如驱动程序进程要使用的内存大小。 对于集群模式,还可以指定核心数。

    • 执行器 下,选择 Executor 设置,例如内存大小和核心数。

    • Kerberos :用于与 Kerberos 建立安全连接的设置。

    • Shell 选项 :选择是否要在 Spark 提交之前执行脚本。

      输入 bash 的路径,并指定要执行的脚本。 建议提供脚本的绝对路径。

      如果您希望以交互模式启动脚本,请选中 交互式 复选框。 您还可以指定环境变量,例如, USER=jetbrains

    • 高级提交选项

      • 代理用户 :可在 Spark 连接中使用代理的用户名。

      • Driver Java 选项Driver 库路径Driver 类路径 :添加其他驱动程序选项。 有关更多信息,请参阅 运行时环境

      • 归档 :以逗号分隔的归档列表,将解压到每个 Executor 的工作目录中。

      • 打印附加调试输出 :使用 --verbose 选项运行 spark-submit,以打印调试信息。

  8. 点击 确定 以保存配置。 然后从已创建的配置列表中选择配置,并点击 运行

    选择配置
  9. 运行 工具窗口中查看执行结果。

最后修改日期: 2025年 12月 2日