PyCharm 2025.2 Help

Databricks

Databricks 插件允许您直接从 IDE 连接到远程 Databricks 工作区。

使用 Databricks 插件,您可以:

先决条件

    连接到 Databricks 工作区

    创建新的 Databricks 连接:

    1. 转到 查看 | 工具窗口 | Databricks 以打开 Databricks 工具窗口。

    2. 点击 新建连接新建连接大数据工具 对话框已打开。

    您可以使用以下选项之一连接到您的 Databricks 工作区:

    通过 Profile 连接

    1. 名称 字段中,输入连接的名称以区分其他连接。

    2. 如果您的用户根目录中有 .databrickscfg 文件,它将自动用于通过 Profile 进行身份验证。 如果您有多个 Profile,可以从下拉菜单中选择 Profile。

    3. 如果您想编辑 .databrickscfg 文件,请点击 打开 .databrickscfg 文件打开 .databrickscfg 文件 以在编辑器中打开该文件。

    4. 点击 重新加载 .databrickscfg 文件重新加载 .databrickscfg 文件 以重新加载更改后的文件。

    5. 点击 测试连接 以确保所有配置参数正确。

    6. 点击 确定 以保存更改。

    通过 Profile 连接到 Databricks

    通过 Databricks CLI 连接

    1. 名称 字段中,输入连接的名称以区分其他连接。

    2. URL 字段中,输入您的 Databricks 工作区的 URL。

    3. 如果您尚未安装 Databricks CLI,PyCharm 将在首次尝试建立连接时安装它。

    4. 点击 测试连接 以确保所有配置参数正确。

    5. 点击 确定 以保存更改。

    通过 Databricks CLI 连接到 Databricks

    通过 Azure CLI 连接

    1. 名称 字段中,输入连接的名称以区分其他连接。

    2. URL 字段中,输入您的 Databricks 工作区的 URL。

    3. 如果您尚未安装 Azure CLI,请点击 安装 CLI 链接并按照网站上的安装说明进行操作。

    4. 点击 测试连接 以确保所有配置参数正确。

    5. 点击 确定 以保存更改。

    通过 Azure CLI 连接到 Databricks

    此外,您可以配置以下设置:

    • 启用连接 :如果您要禁用此连接,请取消选中。 默认情况下,新建的连接是启用的。

    • 按项目 :选择仅对当前项目启用这些连接设置。 如果您希望此连接在其他项目中可见,请取消选中它。

    运行并同步文件

    作为工作流运行

    当您在 Databricks 集群上运行工作流时,您的一系列任务或操作会按照特定顺序在集群中的多台机器上执行。 您的工作流中的每个任务可能依赖于前一个任务的输出。

    1. 在编辑器中打开一个 .py 或 .ipynb 文件。

    2. 请执行以下操作之一:

      • 点击 Databricks 工具窗口中的 作为工作流运行

      • 在编辑器中右键点击,并从上下文菜单中选择 作为工作流运行

    在集群上运行

    当您在 Databricks 集群上运行作业或笔记本时,您的代码会被发送到集群,并在集群中的多台机器上执行。 这种执行方式有助于更快的处理和分析,特别是在处理大量数据时尤为有益。

    1. 在编辑器中打开一个 .py 文件。

    2. 请执行以下操作之一:

      • 点击 Databricks 工具窗口中的 在集群上运行

      • 在编辑器中右键点击,并从上下文菜单中选择 在集群上运行

    同步项目文件

    您可以将您的项目文件与 Databricks 集群同步:

    1. 指定您希望与之同步文件的 Databricks 集群上的文件夹路径。

    2. 点击 开始同步

    将项目文件与 Databricks 集群同步
    最后修改日期: 2025年 9月 26日