Spark モニタリング

Spark(英語) プラグインを使用すると、 Spark(英語) クラスターと送信されたジョブを IDE で直接監視できます。

この章では:

Spark サーバーへの接続を最初から確立する
接続を手動で作成するだけでなく、Spark が実行されている場合は、 AWS EMR クラスターから接続を迅速に作成することもできます。
Zeppelin ノートブックから Spark への接続を確立する
ジョブグラフの表示
監視データを除外する

Spark サーバーに接続する

「Big Data Tools 」ウィンドウで「」をクリックし、「Spark 」を選択します。
開いた Big Data Tools ダイアログで、接続パラメーターを指定します。
- 名前: 他の接続と区別するための接続の名前。
- URL: Spark 履歴サーバーの URL (通常はポート 18080 で実行されます)。
オプションで、次を設定できます。
- プロジェクト単位ごと: これらの接続設定を現在のプロジェクトでのみ有効にするには、チェックボックスをオンにしてください。この接続を他のプロジェクトでも表示したい場合は、チェックボックスをオフにしてください。
- 接続を有効にする: この接続を無効にする場合は、チェックボックスをオフにしてください。デフォルトでは、新しく作成された接続は有効になっています。
- トンネリングを有効にする: リモートホストへの SSH トンネルを作成します。これは、ターゲットサーバーがプライベートネットワーク内にあるものの、ネットワーク内のホストへの SSH 接続が利用できる場合に便利です。
  チェックボックスを選択し、SSH 接続の構成を指定します（... をクリックして新しい SSH 構成を作成します）。
- HTTP 基本認証を使用可能にする: 指定されたユーザー名とパスワードを使用した HTTP 認証との接続。
- プロキシ: IDE プロキシ設定を使用するか、カスタムプロキシ設定を指定するかを選択します。
設定を入力したら、接続のテストをクリックして、すべての構成パラメーターが正しいことを確認します。次に OK をクリックします。

実行中のジョブを使用して Zeppelin から接続を確立する

Zeppelin(英語) プラグインをお持ちの場合は、Zeppelin ノートブックから Spark ジョブを開くことで、Spark サーバーにすぐに接続できます。

Spark を含む Zeppelin ノートブックで、段落を実行します。
オープンジョブのリンクをクリックしてください。開いた通知で、詳細 | 接続の作成リンクをクリックします。
ジョブが実行されている Spark 履歴サーバーにすでに接続している場合は、接続の選択をクリックしてリストから選択します。
開いたビッグデータツールダイアログで、接続設定を確認し、接続のテストをクリックします。接続が正常に確立された場合は、「OK 」をクリックして構成を完了します。

Spark サーバーへの接続を確立すると、 Spark モニタリングツールウィンドウが表示されます。

いつでも、次のいずれかの方法で接続設定を開くことができます。

ツール | ビッグデータツールの設定設定ページ Ctrl+Alt+S に移動します。
ビッグデータツールツールウィンドウ (表示 | ツールウィンドウ | ビッグデータツール) を開き、Spark 接続を選択して、をクリックします。
Spark モニタリングツールウィンドウの任意のタブでをクリックします。

Spark モニタリングツールウィンドウでアプリケーションを選択すると、次のタブを使用してデータを監視できます。

情報: アプリ ID や試行 ID など、送信されたアプリケーションに関する高レベルの情報。
ジョブ: アプリケーションジョブの概要。ジョブをクリックすると、詳細が表示されます。「可視化」タブを使用して、ジョブ DAG を表示します。
ステージ: 各ステージの詳細。
環境: 環境変数と構成変数の値。
実行プログラム: タスクを実行し、タスク全体のメモリまたはディスクストレージにデータを保持するアプリケーション用に起動されるプロセス。「ログ」タブを使用して、executor stdout および stderr ログを表示します。
ストレージ: 永続化された RDD と DataFrame。
SQL: SQL クエリの実行に関する詳細 (アプリケーションで使用される場合)。

また、1 つのエグゼキューターに送信された作業単位タスクの情報をプレビューすることもできます。

データの種類の詳細については、「Spark のドキュメント(英語) 」を参照してください。

DAG グラフからソースコードに移動する

DAG (有向非巡回グラフ) は、Spark ジョブの論理実行プランを表します。 Spark UI と同様に、Spark ジョブの DAG を視覚化できます。 IntelliJ IDEA を使用すると、DAG からソースファイル内の対応するコード部分にすばやく移動することもできます。

Spark モニタリングツールウィンドウを開きます: 表示 | ツールウィンドウ | Spark。
アプリケーションを選択し、ジョブタブを開きます。
視覚化列で、表示をクリックします。
これにより、新しいエディタータブでジョブの視覚化が開きます。
グラフ内で任意の操作をダブルクリックします。

ソースコードファイル、対応する操作にリダイレクトされます。

監視データを除外する

Spark モニタリングツールウィンドウで、次のフィルターを使用してアプリケーションをフィルターします。
- フィルター: アプリケーション名または ID を入力します。
- 制限: 表示されるアプリケーションの制限を変更するか、すべてを選択してすべてのアプリケーションを表示します。
- 起動済み：アプリケーションを開始時間でフィルタリングするか、任意を選択します。
- 終了：完了時間でアプリケーションをフィルタリングするか、任意を選択します。
- : 実行中または完了したアプリケーションのみを表示します。
「ジョブ」、「ステージ」、「SQL 」タブでは、を使用してステータス別にデータをフィルターすることもできます。

いつでも、 Spark モニタリングツールウィンドウでをクリックして、監視データを手動でリフレッシュできます。または、更新ボタンの横にあるリストを使用して、特定の時間間隔内の自動リフレッシュを構成できます。

2026 年 3 月 30 日