IntelliJ IDEA 2026.1 Help

Spark モニタリング

Spark(英語) プラグインを使用すると、 Spark(英語) クラスターと送信されたジョブを IDE で直接監視できます。

この章では:

  1. Spark サーバーへの接続を最初から確立する

  2. Zeppelin ノートブックから Spark への接続を確立する

  3. ジョブグラフの表示

  4. 監視データを除外する

Spark サーバーに接続する

  1. Big Data Tools 」ウィンドウで「Add a connection 」をクリックし、「Spark 」を選択します。

  2. 開いた Big Data Tools ダイアログで、接続パラメーターを指定します。

    Spark 接続を構成する
    • 名前: 他の接続と区別するための接続の名前。

    • URL: Spark 履歴サーバーの URL (通常はポート 18080 で実行されます)。

    オプションで、次を設定できます。

    • プロジェクト単位 ごと: これらの接続設定を現在のプロジェクトでのみ有効にするには、チェックボックスをオンにしてください。 この接続を他のプロジェクトでも表示したい場合は、チェックボックスをオフにしてください。

    • 接続を有効にする: この接続を無効にする場合は、チェックボックスをオフにしてください。 デフォルトでは、新しく作成された接続は有効になっています。

    • トンネリングを有効にする: リモートホストへの SSH トンネルを作成します。 これは、ターゲットサーバーがプライベートネットワーク内にあるものの、ネットワーク内のホストへの SSH 接続が利用できる場合に便利です。

      チェックボックスを選択し、SSH 接続の構成を指定します(... をクリックして新しい SSH 構成を作成します)。

    • HTTP 基本認証を使用可能にする: 指定されたユーザー名とパスワードを使用した HTTP 認証との接続。

    • プロキシ: IDE プロキシ設定を使用するか、カスタムプロキシ設定を指定するかを選択します。

  3. 設定を入力したら、 接続のテスト をクリックして、すべての構成パラメーターが正しいことを確認します。 次に OK をクリックします。

実行中のジョブを使用して Zeppelin から接続を確立する

Zeppelin(英語) プラグインをお持ちの場合は、Zeppelin ノートブックから Spark ジョブを開くことで、Spark サーバーにすぐに接続できます。

  1. Spark を含む Zeppelin ノートブックで、段落を実行します。

  2. オープンジョブ のリンクをクリックしてください。 開いた通知で、 詳細 | 接続の作成 リンクをクリックします。

    Spark サーバーへの接続の作成

    ジョブが実行されている Spark 履歴サーバーにすでに接続している場合は、 接続の選択 をクリックしてリストから選択します。

  3. 開いた ビッグデータツール ダイアログで、接続設定を確認し、 接続のテスト をクリックします。 接続が正常に確立された場合は、「OK 」をクリックして構成を完了します。

Spark サーバーへの接続を確立すると、 Spark モニタリング ツールウィンドウが表示されます。

Spark モニタリング: ジョブ

いつでも、次のいずれかの方法で接続設定を開くことができます。

  • ツール | ビッグデータツールの設定 設定ページ Ctrl+Alt+S に移動します。

  • ビッグデータツール ツールウィンドウ (表示 | ツールウィンドウ | ビッグデータツール) を開き、Spark 接続を選択して、 Connection settings をクリックします。

  • Spark モニタリング ツールウィンドウの任意のタブで Connection Settings をクリックします。

Spark モニタリング ツールウィンドウでアプリケーションを選択すると、次のタブを使用してデータを監視できます。

  • 情報: アプリ ID や試行 ID など、送信されたアプリケーションに関する高レベルの情報。

  • ジョブ: アプリケーションジョブの概要。 ジョブをクリックすると、詳細が表示されます。 「可視化 」タブを使用して、 ジョブ DAG を表示します

  • ステージ: 各ステージの詳細。

  • 環境: 環境変数と構成変数の値。

  • 実行プログラム: タスクを実行し、タスク全体のメモリまたはディスクストレージにデータを保持するアプリケーション用に起動されるプロセス。 「ログ 」タブを使用して、executor stdout および stderr ログを表示します。

  • ストレージ: 永続化された RDD と DataFrame。

  • SQL: SQL クエリの実行に関する詳細 (アプリケーションで使用される場合)。

また、1 つのエグゼキューターに送信された作業単位 タスク の情報をプレビューすることもできます。

データの種類の詳細については、「Spark のドキュメント(英語) 」を参照してください。

DAG グラフからソースコードに移動する

DAG (有向非巡回グラフ) は、Spark ジョブの論理実行プランを表します。 Spark UI と同様に、Spark ジョブの DAG を視覚化できます。 IntelliJ IDEA を使用すると、DAG からソースファイル内の対応するコード部分にすばやく移動することもできます。

  1. Spark モニタリング ツールウィンドウを開きます: 表示 | ツールウィンドウ | Spark

  2. アプリケーションを選択し、 ジョブ タブを開きます。

  3. 視覚化 列で、 表示 をクリックします。

    これにより、新しいエディタータブでジョブの視覚化が開きます。

  4. グラフ内で任意の操作をダブルクリックします。

ソースコードファイル、対応する操作にリダイレクトされます。

Spark DAG

監視データを除外する

  • Spark モニタリング ツールウィンドウで、次のフィルターを使用してアプリケーションをフィルターします。

    • フィルター: アプリケーション名または ID を入力します。

    • 制限: 表示されるアプリケーションの制限を変更するか、 すべて を選択してすべてのアプリケーションを表示します。

    • 起動済み :アプリケーションを開始時間でフィルタリングするか、 任意 を選択します。

    • 終了 :完了時間でアプリケーションをフィルタリングするか、 任意 を選択します。

    • フィルター: 実行中または完了したアプリケーションのみを表示します。

    作業の段階
  • ジョブ」、「ステージ」、「SQL 」タブでは、 フィルター を使用してステータス別にデータをフィルターすることもできます。

いつでも、 Spark モニタリング ツールウィンドウで 更新 をクリックして、監視データを手動でリフレッシュできます。 または、 更新 ボタンの横にあるリストを使用して、特定の時間間隔内の自動リフレッシュを構成できます。

2026 年 3 月 30 日