Spark 监控

借助 Spark 插件，您可以在 IDE 中直接监控您的 Spark 集群和已提交的作业。

本章内容：

从头开始建立到 Spark 服务器的连接
除了手动创建连接之外，如果其上正在运行 Spark，您还可以快速从 AWS EMR 集群创建连接。
从 Zeppelin 笔记本建立到 Spark 的连接
查看作业图
过滤监控数据

连接到 Spark 服务器

在 Big Data Tools 窗口中，点击并选择 Spark。
在打开的 Big Data Tools 对话框中，指定连接参数：
- 名称：连接名称，用于与其他连接区分。
- URL： Spark History 服务器的 URL（通常运行在端口 18080）。
可选，您可以设置：
- 按项目：选择后仅为当前项目启用这些连接设置。如果希望在其他项目中也可见此连接，请清除此复选框。
- 启用连接：如果要禁用此连接，请清除此复选框。默认情况下，新建的连接处于启用状态。
- 启用隧道：创建到远程主机的 SSH 隧道。如果目标服务器位于专用网络中，但可以通过 SSH 连接到该网络中的某个主机，则此功能会很有用。
  选中复选框并指定 SSH 连接配置（点击 ... 以创建新的 SSH 配置）。
- 启用 HTTP 基本身份验证：使用指定的用户名和密码通过 HTTP 进行身份验证的连接。
- 代理：选择是否使用 IDE 代理设置，或指定自定义代理设置。
填写设置后，点击测试连接以确保所有配置参数均正确。然后点击确定。

通过正在运行的作业从 Zeppelin 建立连接

如果安装了 Zeppelin 插件，您可以通过在 Zeppelin 笔记本中打开 Spark 作业来快速连接到 Spark 服务器。

在包含 Spark 的 Zeppelin 笔记本中，运行一个段落。
点击打开作业链接。在打开的通知中，点击更多 | 创建连接链接。
如果您已经拥有到作业正在运行的 Spark History 服务器的连接，请点击选择连接并从列表中选择它。
在打开的 Big Data Tools 对话框中，验证连接设置并点击测试连接。如果连接已成功建立，请点击确定完成配置。

建立到 Spark 服务器的连接后，将显示 Spark 监控工具窗口。

Spark 监控：作业

您可以随时通过以下方式之一打开连接设置：

转到工具 | Big Data Tools 设置设置页面  Ctrl+Alt+S。
打开 Big Data Tools 工具窗口（视图 | 工具窗口 | Big Data Tools ），选择一个 Spark 连接，然后点击。
在 Spark 监控工具窗口的任意选项卡中，点击。

在 Spark 监控工具窗口中选择一个应用时，您可以使用以下选项卡来监控数据：

信息：关于已提交应用的高层信息，例如 App ID 或 Attempt ID。
作业：应用作业的摘要。点击某个作业以查看其详细信息。使用可视化选项卡来查看作业 DAG。
阶段：每个阶段的详细信息。
环境：环境与配置变量的值。
执行器：为应用启动的进程，用于运行任务，并在任务之间将数据保存在内存或磁盘存储中。使用日志选项卡查看执行器 stdout 和 stderr 日志。
存储：持久化的 RDD 和 DataFrame。
SQL ：有关 SQL 查询执行的详细信息（如果该应用使用了 SQL）。

您还可以预览关于任务的信息，它们是发送到某个执行器的工作单元。

有关数据类型的更多信息，请参阅 Spark 文档。

从 DAG 图导航到源代码

DAG（有向无环图）表示 Spark 作业的逻辑执行计划。与 Spark UI 中一样，您可以可视化 Spark 作业的 DAG。借助 PyCharm，您还可以从 DAG 快速导航到源文件中的相应代码片段。

打开 Spark 监控工具窗口：视图 | 工具窗口 | Spark。
选择一个应用，并打开作业选项卡。
在可视化列中，点击显示。
这将在新的编辑器选项卡中打开作业可视化。
在图中，双击任意操作。

您将被重定向到您的源代码文件中的相应操作。

Spark DAG

过滤监控数据

在 Spark 监控工具窗口中，使用以下过滤器来过滤应用：
- 筛选器：输入应用名称或 ID。
- 限制：更改显示的应用数量上限，或选择全部以显示全部。
- 已开始：按开始时间过滤应用，或选择任意。
- 已完成：按完成时间过滤应用，或选择任意。
- ：仅显示正在运行或已完成的应用。
在作业、阶段和 SQL 选项卡中，您还可以使用按状态过滤数据。

您可以随时在 Spark 监控工具窗口中点击，手动刷新监控数据。或者，您可以使用位于刷新按钮旁边的列表，配置按一定时间间隔自动更新。

最后修改日期： 2025年 12月 2日