PyCharm 2025.3 Help

Spark 监控

借助 Spark 插件,您可以在 IDE 中直接监控您的 Spark 集群和已提交的作业。

本章内容:

  1. 从头开始建立到 Spark 服务器的连接

  2. 从 Zeppelin 笔记本建立到 Spark 的连接

  3. 查看作业图

  4. 过滤监控数据

连接到 Spark 服务器

  1. Big Data Tools 窗口中,点击 添加连接 并选择 Spark

  2. 在打开的 Big Data Tools 对话框中,指定连接参数:

    配置 Spark 连接
    • 名称 :连接名称,用于与其他连接区分。

    • URL: Spark History 服务器的 URL(通常运行在端口 18080)。

    可选,您可以设置:

    • 按项目 :选择后仅为当前项目启用这些连接设置。 如果希望在其他项目中也可见此连接,请清除此复选框。

    • 启用连接 :如果要禁用此连接,请清除此复选框。 默认情况下,新建的连接处于启用状态。

    • 启用隧道 :创建到远程主机的 SSH 隧道。 如果目标服务器位于专用网络中,但可以通过 SSH 连接到该网络中的某个主机,则此功能会很有用。

      选中复选框并指定 SSH 连接配置(点击 ... 以创建新的 SSH 配置)。

    • 启用 HTTP 基本身份验证 :使用指定的用户名和密码通过 HTTP 进行身份验证的连接。

    • 代理 :选择是否使用 IDE 代理设置 ,或指定自定义代理设置。

  3. 填写设置后,点击 测试连接 以确保所有配置参数均正确。 然后点击 确定

通过正在运行的作业从 Zeppelin 建立连接

如果安装了 Zeppelin 插件,您可以通过在 Zeppelin 笔记本中打开 Spark 作业来快速连接到 Spark 服务器。

  1. 在包含 Spark 的 Zeppelin 笔记本中,运行一个段落。

  2. 点击 打开作业 链接。 在打开的通知中,点击 更多 | 创建连接 链接。

    创建到 Spark 服务器的连接

    如果您已经拥有到作业正在运行的 Spark History 服务器的连接,请点击 选择连接 并从列表中选择它。

  3. 在打开的 Big Data Tools 对话框中,验证连接设置并点击 测试连接。 如果连接已成功建立,请点击 确定 完成配置。

建立到 Spark 服务器的连接后,将显示 Spark 监控 工具窗口。

Spark 监控:作业

您可以随时通过以下方式之一打开连接设置:

  • 转到 工具 | Big Data Tools 设置 设置页面  Ctrl+Alt+S

  • 打开 Big Data Tools 工具窗口(视图 | 工具窗口 | Big Data Tools ),选择一个 Spark 连接,然后点击 连接设置

  • Spark 监控 工具窗口的任意选项卡中,点击 连接设置

Spark 监控 工具窗口中选择一个应用时,您可以使用以下选项卡来监控数据:

  • 信息 :关于已提交应用的高层信息,例如 App ID 或 Attempt ID。

  • 作业 :应用作业的摘要。 点击某个作业以查看其详细信息。 使用 可视化 选项卡来 查看作业 DAG

  • 阶段 :每个阶段的详细信息。

  • 环境 :环境与配置变量的值。

  • 执行器 :为应用启动的进程,用于运行任务,并在任务之间将数据保存在内存或磁盘存储中。 使用 日志 选项卡查看执行器 stdout 和 stderr 日志。

  • 存储 :持久化的 RDD 和 DataFrame。

  • SQL :有关 SQL 查询执行的详细信息(如果该应用使用了 SQL)。

您还可以预览关于 任务 的信息,它们是发送到某个执行器的工作单元。

有关数据类型的更多信息,请参阅 Spark 文档

从 DAG 图导航到源代码

DAG(有向无环图)表示 Spark 作业的逻辑执行计划。 与 Spark UI 中一样,您可以可视化 Spark 作业的 DAG。 借助 PyCharm,您还可以从 DAG 快速导航到源文件中的相应代码片段。

  1. 打开 Spark 监控 工具窗口: 视图 | 工具窗口 | Spark

  2. 选择一个应用,并打开 作业 选项卡。

  3. 可视化 列中,点击 显示

    这将在新的编辑器选项卡中打开作业可视化。

  4. 在图中,双击任意操作。

您将被重定向到您的源代码文件中的相应操作。

Spark DAG

过滤监控数据

  • Spark 监控 工具窗口中,使用以下过滤器来过滤应用:

    • 筛选器 :输入应用名称或 ID。

    • 限制 :更改显示的应用数量上限,或选择 全部 以显示全部。

    • 已开始 :按开始时间过滤应用,或选择 任意

    • 已完成 :按完成时间过滤应用,或选择 任意

    • 过滤 :仅显示正在运行或已完成的应用。

    作业阶段
  • 作业阶段SQL 选项卡中,您还可以使用 过滤 按状态过滤数据。

您可以随时在 Spark 监控 工具窗口中点击 刷新 ,手动刷新监控数据。 或者,您可以使用位于 刷新 按钮旁边的列表,配置按一定时间间隔自动更新。

最后修改日期: 2025年 12月 2日